목록 보기
오픈챗 메시지들로부터 트렌딩 키워드 추출하기
AI

오픈챗 메시지들로부터 트렌딩 키워드 추출하기

라인
라인
2025년 8월 29일

두줄요약

오픈챗 메시지에서 트렌딩 키워드를 뽑는 통계적 방법을 소개했습니다. 빈도 급증 탐지, 중복 제거, NPMI 필터, MMR 다양화로 품질을 높였습니다.

핵심 내용

  • 오픈챗 메시지 말뭉치에서 유행 주제를 드러내는 트렌딩 키워드 추출 파이프라인 소개
  • 빈도 급증 탐지, MinHash 기반 중복 메시지 제거, NPMI 기반 부적절 키워드 필터링, MMR 기반 상위 키워드 다양화로 품질 개선
  • 공개 메시지 데이터에 통계적 기준을 적용해 메인 화면에 노출할 주제 묶음을 선별하는 접근 정리

적용해볼 점

  • 단순 빈도 대신 기준 시점 대비 급증량으로 트렌드 정의
  • 중복 텍스트 제거와 동시 발생 빈도 기반 필터로 추천 품질 보정
  • 상위 결과는 유사도 페널티로 다양화해 사용자 노출 효율 향상

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...