AI
코드 생성 및 Agentic RAG 작업 중심의 도메인 특화 LLM 비교 평가 [전편]
두줄요약
일본 급여 시스템의 실제 파이프라인을 대상으로 13개 LLM 구성을 비교 평가하는 전편이었습니다. 코드 생성과 Agentic RAG를 분리해, 품질·안정성·비용 기준의 모델 선택 필요성을 설명했습니다.
핵심 내용
- 일본 급여 시스템의 실제 3단계 파이프라인을 대상으로 코드 생성과 Agentic RAG 작업에 적합한 LLM을 비교 평가한 전편
- 자연어를 의사코드로 바꾸는 NL to Pseudocode Agent와 도메인 용어를 MFID로 매핑하는 MFID Mapping Agent를 평가 범위로 설정
- Claude, Gemini, GPT의 13개 모델 구성을 대상으로 Thinking/Reasoning 모드, 안정성, 비용-품질 트레이드오프를 함께 검토할 실험 설계 제시
- 코드 생성은 BLEU, ROUGE-L, BERT-F1, LLM-as-a-Judge로, 검색 작업은 Recall@K와 MRR로 평가하는 구조 설명
적용해볼 점
- 범용 벤치마크 대신 실제 도메인 파이프라인 기준으로 모델을 직접 검증할 필요성
- 작업 성격에 따라 코드 생성용 모델과 검색용 모델을 분리해 조합하는 선택 전략
- 품질뿐 아니라 빈 응답률과 비용 효율성까지 함께 보는 운영 관점
