
AI
Amazon SageMaker로 LLM 응답 Streaming 서빙하기
두줄요약
Amazon SageMaker 기반 LLM을 토큰 단위로 스트리밍 서빙하는 구성을 소개했습니다. Lambda Function URL과 CloudFront를 조합해 응답 스트리밍을 구현하는 방법을 설명했습니다.
핵심 내용
- Amazon SageMaker로 배포한 LLM을 응답 스트리밍 형태로 서빙하는 구성 소개
- API Gateway 대신 Lambda Function URL과 Node.js Lambda의 response streaming 활용
- CloudFront와 Origin Access Control로 Lambda Function URL의 sigV4 인증 우회
- SageMaker Endpoint 호출 후 토큰 단위 응답을 클라이언트로 전달하는 예시 코드와 호출 방식
