오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발하기

AI

오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발하기

라인2024년 6월 19일

두줄요약

오픈챗 이름과 설명을 바탕으로 해시태그를 예측하는 다중 레이블 분류 모델 개발 과정을 소개했습니다. 또한 MMR과 임계치 조정으로 실시간 추천과 오프라인 태깅의 요구를 각각 맞췄습니다.

핵심 내용

오픈챗 생성 시 이름과 설명을 바탕으로 해시태그를 제안하는 다중 레이블 분류 모델 개발 과정
생성형 모델 대신 사전 검수된 해시태그 클래스 셋을 쓰고, 복수 해시태그 출력과 상위 K개 추천을 목표로 모델링
Hugging Face Transformers, MultiLabelBinarizer, 수정된 Trainer와 손실 함수로 학습 파이프라인 구성
오프라인 평가에서는 precision@1, recall@K, ndcg@K를 사용하고, 다국어 사전학습 모델 중 multilingual-e5-large 채택

적용해볼 점

이름만 있는 경우, 설명 작성 중, 일부 해시태그가 이미 입력된 경우까지 고려한 추론 시점별 데이터 증강
추천 결과 중복을 줄이기 위한 MMR 도입과 토큰 집합 유사도·임베딩 유사도 비교
오프라인 태깅용으로 min_top1, min_score 임계치를 두어 신뢰도와 커버리지의 균형 조정

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...