
AI
오픈챗 메시지들로부터 트렌딩 키워드 추출하기
두줄요약
오픈챗 메시지에서 트렌딩 키워드를 뽑는 통계적 방법을 소개했습니다. 빈도 급증 탐지, 중복 제거, NPMI 필터, MMR 다양화로 품질을 높였습니다.
핵심 내용
- 오픈챗 메시지 말뭉치에서 유행 주제를 드러내는 트렌딩 키워드 추출 파이프라인 소개
- 빈도 급증 탐지, MinHash 기반 중복 메시지 제거, NPMI 기반 부적절 키워드 필터링, MMR 기반 상위 키워드 다양화로 품질 개선
- 공개 메시지 데이터에 통계적 기준을 적용해 메인 화면에 노출할 주제 묶음을 선별하는 접근 정리
적용해볼 점
- 단순 빈도 대신 기준 시점 대비 급증량으로 트렌드 정의
- 중복 텍스트 제거와 동시 발생 빈도 기반 필터로 추천 품질 보정
- 상위 결과는 유사도 페널티로 다양화해 사용자 노출 효율 향상