채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?

채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?
채널 AI팀이 RAG 검색 성능을 평가하기 위해 자체 리트리벌 벤치마크를 만든 과정을 소개했습니다. 외부 벤치마크 한계를 보완하고 hybrid search 성능 개선도 확인했습니다.
#ML#RAG
0005분

채널 AI팀이 RAG 검색 성능을 평가하기 위해 자체 리트리벌 벤치마크를 만든 과정을 소개했습니다. 외부 벤치마크 한계를 보완하고 hybrid search 성능 개선도 확인했습니다.

AI 모델 성능과 벤치마크가 넘쳐나는 시대에 문제 출제 경험을 돌아보는 글입니다. 기술보다 사람과 출제 의도를 묻는 관점이 핵심입니다.

Telegraf를 활용한 커스텀 Exporter 개발 경험과 적용 가이드를 소개한 세션입니다. 오픈소스 기반 Exporter 도입 배경, 성능 검토, 적용 후 개선점을 공유했습니다.


SK텔레콤이 한국어 상담 데이터를 기반으로 통신 특화 벤치마크 TelBench를 발표했습니다. 상담 요약과 후속 업무 자동화 가능성을 평가하고 개인정보 보호와 다국어 확장 계획도 함께 제시했습니다.


AI 에이전트의 실무 적합성을 τ-bench로 재평가한 글입니다. 기존 벤치마크와 달리 대화, 정책, 멀티스텝 처리, 일관성까지 함께 봐야 한다고 설명했습니다.