코드 생성 및 Agentic RAG 작업 중심의 특정 도메인을 위한 LLM 비교 평가【후편】

AI

코드 생성 및 Agentic RAG 작업 중심의 특정 도메인을 위한 LLM 비교 평가【후편】

QueryPie

QueryPie2026년 2월 13일

두줄요약

코드 생성과 Agentic RAG에서 최적 LLM이 다르다는 점을 비교 평가로 정리했습니다. 이기종 파이프라인과 안정성·비용을 함께 고려한 모델 선택이 중요하다고 제시했습니다.

핵심 내용

13개 LLM을 코드 생성과 Agentic RAG 두 작업으로 비교 평가한 후편
코드 생성은 Claude Sonnet(Think), Agentic RAG는 Claude Opus가 최고 성능
Think/Reasoning 모드는 작업별 효과가 달라 GPT는 코드 생성에서 저하, RAG에서는 향상
GPT 계열은 높은 빈 응답률로 코드 생성 파이프라인 적합성에 한계

성능/운영 포인트

코드 생성에서는 Claude와 Gemini 계열이 안정적이며 Claude Sonnet(Think) 중심 구성이 유리
Agentic RAG에서는 Claude Opus와 GPT-5.2(Reasoning)의 성능이 상대적으로 강세
Gemini 3 Flash 계열은 저비용 대비 효율이 높아 예산 제약 환경에 적합

적용해볼 점

작업 유형별로 서로 다른 모델을 조합하는 이기종 파이프라인 검토
Think/Reasoning 모드는 사전 검증 후 선택적으로 적용
품질뿐 아니라 빈 응답률 같은 안정성 지표를 함께 평가

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...