목록 보기
Amazon SageMaker로 LLM 응답 Streaming 서빙하기
AI

Amazon SageMaker로 LLM 응답 Streaming 서빙하기

데보션
데보션
2024년 9월 11일

두줄요약

Amazon SageMaker 기반 LLM을 토큰 단위로 스트리밍 서빙하는 구성을 소개했습니다. Lambda Function URL과 CloudFront를 조합해 응답 스트리밍을 구현하는 방법을 설명했습니다.

핵심 내용

  • Amazon SageMaker로 배포한 LLM을 응답 스트리밍 형태로 서빙하는 구성 소개
  • API Gateway 대신 Lambda Function URL과 Node.js Lambda의 response streaming 활용
  • CloudFront와 Origin Access Control로 Lambda Function URL의 sigV4 인증 우회
  • SageMaker Endpoint 호출 후 토큰 단위 응답을 클라이언트로 전달하는 예시 코드와 호출 방식

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...