AWS · 2026년 1월 20일AINota AI가 제안하는 AWS Inferentia에서 다양한 LLM 모델 양자화 최적화기법 사용하기AWS Inferentia/Trainium에서 LLM 양자화 최적화 방법을 소개했습니다.\n민감도 기반 선택적 양자화와 fake quantization으로 메모리를 줄이면서 정확도 손실을 완화했습니다.#AWS Inferentia#Trainium43005분