코드 생성 및 Agentic RAG 작업 중심의 도메인 특화 LLM 비교 평가 [전편]

AI

코드 생성 및 Agentic RAG 작업 중심의 도메인 특화 LLM 비교 평가 [전편]

QueryPie

QueryPie2026년 2월 13일

두줄요약

일본 급여 시스템의 실제 파이프라인을 대상으로 13개 LLM 구성을 비교 평가하는 전편이었습니다. 코드 생성과 Agentic RAG를 분리해, 품질·안정성·비용 기준의 모델 선택 필요성을 설명했습니다.

핵심 내용

일본 급여 시스템의 실제 3단계 파이프라인을 대상으로 코드 생성과 Agentic RAG 작업에 적합한 LLM을 비교 평가한 전편
자연어를 의사코드로 바꾸는 NL to Pseudocode Agent와 도메인 용어를 MFID로 매핑하는 MFID Mapping Agent를 평가 범위로 설정
Claude, Gemini, GPT의 13개 모델 구성을 대상으로 Thinking/Reasoning 모드, 안정성, 비용-품질 트레이드오프를 함께 검토할 실험 설계 제시
코드 생성은 BLEU, ROUGE-L, BERT-F1, LLM-as-a-Judge로, 검색 작업은 Recall@K와 MRR로 평가하는 구조 설명

적용해볼 점

범용 벤치마크 대신 실제 도메인 파이프라인 기준으로 모델을 직접 검증할 필요성
작업 성격에 따라 코드 생성용 모델과 검색용 모델을 분리해 조합하는 선택 전략
품질뿐 아니라 빈 응답률과 비용 효율성까지 함께 보는 운영 관점

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...