목록 보기
2조 토큰을 카테고리 분류에 쓰면서 알게된 것들
AI

2조 토큰을 카테고리 분류에 쓰면서 알게된 것들

당근마켓
당근마켓
2026년 2월 27일

두줄요약

당근에서 택소노미와 LLM 분류 파이프라인을 어떻게 운영했는지 정리한 글입니다. 정확도와 비용의 균형, 평가 체계, 확장 전략을 함께 다뤘습니다.

핵심 내용

  • 당근 Taxonomy 팀이 게시글 자동 분류용 택소노미 관리 및 LLM 기반 분류 파이프라인 운영 경험을 정리한 글
  • Dataflow(Beam), BigQuery, Kafka sink를 활용해 스트림·배치 분류를 모두 지원하는 구조 소개
  • 카테고리·속성 추론 전략, YAML 기반 택소노미/파이프라인 설정, LLM as a Judge 평가 체계와 운영 비용 절감·정확도 개선 실험 공유
  • 프롬프트 캐싱 배치, 이미지 활용, 모델 변경, 신규 택소노미 생성·확장, 다국어 번역 검증 방식까지 포함

적용해볼 점

  • 대규모 분류 업무는 분류 로직뿐 아니라 평가·모니터링·백필까지 포함한 운영 체계가 중요
  • 정확도와 비용의 균형점을 찾기 위해 프롬프트, 모델, 전략을 모듈화해 반복 실험하는 접근이 유효

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...