
AI
Nota AI가 제안하는 AWS Inferentia에서 다양한 LLM 모델 양자화 최적화기법 사용하기
두줄요약
AWS Inferentia/Trainium에서 LLM 양자화 최적화 방법을 소개했습니다.\n민감도 기반 선택적 양자화와 fake quantization으로 메모리를 줄이면서 정확도 손실을 완화했습니다.
핵심 내용
- AWS Inferentia/Trainium 환경에서 LLM을 서빙할 때 NxD Inference의 int8, fp8, KV cache 양자화 옵션 활용
- NetsPresso 민감도 분석으로 LayerNorm, Embedding, Self-Attention 등 민감 모듈을 제외한 선택적 양자화
- Autoround 기반 fake quantization을 적용해 NxD 호환성을 유지하면서 정확도 손실 완화
적용해볼 점
- 양자화 비율과 정확도 손실 사이의 trade-off를 모듈 단위로 조정
- GPU에서 생성한 fake-quant 모델을 Inferentia/Trainium 추론용 형태로 변환하는 파이프라인 검토
- GSM8k 같은 벤치마크로 메모리 절감과 성능 저하를 함께 평가
