Nota AI가 제안하는 Transformer 모델을 AWS Inferentia/Trainium에 손쉽게 배포하는 방법

AI

Nota AI가 제안하는 Transformer 모델을 AWS Inferentia/Trainium에 손쉽게 배포하는 방법

AWS

AWS2025년 4월 9일

두줄요약

Hugging Face Transformer 모델을 AWS Inferentia/Trainium에 포팅하는 과정을 검증했습니다. return_dict=False 설정으로 tracing 오류를 줄여 12개 모델 모두 배포 가능함을 확인했습니다.

문제 상황

Hugging Face Transformer 모델을 AWS Inferentia/Trainium 환경에 배포할 때 컴파일 실패와 포팅 호환성 검증 필요
GPU 대비 비용 효율적인 추론 인프라 대안으로 Neuron SDK 활용 가능성 검토

원인 분석

torch_neuronx.trace() 내부의 정적 tracing 과정에서 복합 딕셔너리 출력 구조 처리 어려움
Llama-3 계열처럼 Tensor와 past_key_values가 섞인 반환 형식이 타입 추론 실패 유발

해결 방법

모델 로드 시 return_dict=False 적용으로 출력 형식을 딕셔너리에서 튜플로 단순화
동일 조치 후 torch_neuronx.trace() 재실행으로 12개 Transformer 모델 전체 포팅 성공

적용해볼 점

Neuron SDK 포팅 전 모델 출력 구조와 tracing 적합성 사전 점검
복잡한 출력 반환을 단순화해 AWS Inferentia/Trainium 배포 안정성 확보

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...