목록 보기
한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크
AI

한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크

AWS
AWS
2026년 4월 29일

두줄요약

한국어 SPLADE 기반 Neural Sparse 모델과 OpenSearch 하이브리드 검색을 MIRACL-ko로 벤치마크했습니다. BM25, Dense, Sparse, RRF 조합의 성능과 구현 방법을 정량적으로 정리했습니다.

핵심 내용

  • 한국어 SPLADE v3 스타일 Neural Sparse 모델을 Amazon OpenSearch Service에 배포해 BM25, Titan Embedding V2 Dense, 하이브리드 조합을 MIRACL-ko로 비교한 벤치마크
  • Sparse는 rank_features 기반 inverted index로, Dense는 k-NN HNSW로, 하이브리드는 RRF로 결합해 검색 품질을 정량 비교
  • SPLADE의 log(1+ReLU) + max pooling, FLOPS regularization, hard negative mining 등 작동 방식과 OpenSearch 구현 예시 정리
  • 10K 문서 기준 klue-large(SPLADE)가 단일 모델 및 하이브리드 조합에서 전반적으로 높은 recall과 nDCG를 기록

적용해볼 점

  • 한국어 검색에서 어휘 일치와 의미 확장을 함께 고려한 Sparse/Dense/Hybrid 선택 기준 수립
  • OpenSearch에서 BM25, k-NN, rank_features를 병렬 운영하고 RRF로 결합하는 실험 구조 재현
  • 도메인별 자체 코퍼스에서 동일한 벤치마크를 통해 검색 방식별 성능 비교

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...