Chat DIC 프로젝트에서 AWS Bedrock Prompt Caching으로 성능 최적화하기
AI
Chat DIC 프로젝트에서 AWS Bedrock Prompt Caching으로 성능 최적화하기
두줄요약
AWS Bedrock Prompt Caching으로 Chat DIC의 반복 프롬프트 재계산을 줄이고 응답 지연과 Throttling을 개선했습니다. 또한 system과 tools 문맥을 캐싱해 평균 응답 시간을 단축하고 비용도 절감했습니다.
문제 상황
- Chat DIC에서 자연어 요청마다 DB 스키마 정보를 전체 프롬프트에 포함하면서 토큰 수 증가
- 응답 지연, Throttling 빈번 발생
- Lambda 기반 구조에서는 스트리밍 통신과 Prompt Caching 활용에 제약 존재
원인 분석
- system과 tools에 들어가는 스키마 정보가 매우 커서 매 호출마다 재계산 비용 발생
- 변경되지 않는 문맥까지 반복 전송되어 비효율 누적
- 캐시 미지원/통신 제약이 있는 초기 아키텍처로 운영 안정성 저하
해결 방법
- AWS Bedrock Prompt Caching으로 반복 문맥을 캐시에 저장
- system, tools 프롬프트에 cachePoint를 적용하고 messages는 제외
- ALB + EC2 구조로 전환해 SSE 통신과 긴 타임아웃 지원
성능/운영 포인트
- 캐시 히트 조건은 prefix 일치, 1,024 tokens 이상, TTL 5분 이내
- 평균 응답 시간 약 29.3초에서 23.1초로 단축
- Throttling 발생률 약 60% 감소
적용해볼 점
- 변경이 적은 프롬프트 문맥을 캐시 대상으로 분리
- 캐시 경계와 TTL을 서비스 특성에 맞게 조정
- 스트리밍과 캐싱이 필요한 LLM 시스템에서 비용·지연 최적화에 활용
