필터 1
채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?
채널톡
· 2025년 12월 23일
AI

채널 AI팀은 왜 새로운 ML 모델 벤치마크가 필요로 했을까?

채널 AI팀이 RAG 검색 성능을 평가하기 위해 자체 리트리벌 벤치마크를 만든 과정을 소개했습니다. 외부 벤치마크 한계를 보완하고 hybrid search 성능 개선도 확인했습니다.

#ML#RAG
0005분
[AI_TOP_100] 문제 출제 후기 – 기술이 아닌, 사람을 묻다.
카카오
· 2025년 11월 24일
AI

[AI_TOP_100] 문제 출제 후기 – 기술이 아닌, 사람을 묻다.

AI 모델 성능과 벤치마크가 넘쳐나는 시대에 문제 출제 경험을 돌아보는 글입니다. 기술보다 사람과 출제 의도를 묻는 관점이 핵심입니다.

#벤치마크
69005분
Telegraf로 커스텀 지표 수집하기: Exporter 개발 경험 공유
네이버 D2
· 2025년 11월 18일
데브옵스

Telegraf로 커스텀 지표 수집하기: Exporter 개발 경험 공유

Telegraf를 활용한 커스텀 Exporter 개발 경험과 적용 가이드를 소개한 세션입니다. 오픈소스 기반 Exporter 도입 배경, 성능 검토, 적용 후 개선점을 공유했습니다.

#Telegraf#Exporter
62005분
EMNLP24 늦은 후기 1탄: 텔레콤 LLM 벤치마크 TelBench 발표 이야기
데보션
· 2025년 7월 29일
AI

EMNLP24 늦은 후기 1탄: 텔레콤 LLM 벤치마크 TelBench 발표 이야기

SK텔레콤이 한국어 상담 데이터를 기반으로 통신 특화 벤치마크 TelBench를 발표했습니다. 상담 요약과 후속 업무 자동화 가능성을 평가하고 개인정보 보호와 다국어 확장 계획도 함께 제시했습니다.

#LLM#NLP
80005분
AI Agent의 시대, 벤치마크는 어떻게 진화할까: τ-bench
데보션
· 2025년 6월 9일
AI

AI Agent의 시대, 벤치마크는 어떻게 진화할까: τ-bench

AI 에이전트의 실무 적합성을 τ-bench로 재평가한 글입니다. 기존 벤치마크와 달리 대화, 정책, 멀티스텝 처리, 일관성까지 함께 봐야 한다고 설명했습니다.

#LLM#AI Agent
62005분