
AI
네오사피엔스의 AWS g6e 기반 LLM 추론 배치 워크로드 최적화 사례
두줄요약
네오사피엔스가 AWS g5, g6e, g7e에서 LLM 추론 배치와 정밀도를 비교했습니다. 실제 운영 조건을 반영해 g6e + INT8 조합을 최적점으로 선택했습니다.
핵심 내용
- 네오사피엔스의 경량 LLM 추론 배치 최적화 사례
- AWS g5, g6e, g7e 인스턴스와 FP16, INT8, INT4, FP8 정밀도 조합 비교
- 처리량과 첫 토큰 지연시간을 함께 보며 운영 최적점 판단
- 벤치마크상 g7e가 우수했지만, 실제 운영 조건에서는 g6e + INT8을 선택
