
AI
한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크
두줄요약
한국어 SPLADE 기반 Neural Sparse 모델과 OpenSearch 하이브리드 검색을 MIRACL-ko로 벤치마크했습니다. BM25, Dense, Sparse, RRF 조합의 성능과 구현 방법을 정량적으로 정리했습니다.
핵심 내용
- 한국어 SPLADE v3 스타일 Neural Sparse 모델을 Amazon OpenSearch Service에 배포해 BM25, Titan Embedding V2 Dense, 하이브리드 조합을 MIRACL-ko로 비교한 벤치마크
- Sparse는 rank_features 기반 inverted index로, Dense는 k-NN HNSW로, 하이브리드는 RRF로 결합해 검색 품질을 정량 비교
- SPLADE의 log(1+ReLU) + max pooling, FLOPS regularization, hard negative mining 등 작동 방식과 OpenSearch 구현 예시 정리
- 10K 문서 기준 klue-large(SPLADE)가 단일 모델 및 하이브리드 조합에서 전반적으로 높은 recall과 nDCG를 기록
적용해볼 점
- 한국어 검색에서 어휘 일치와 의미 확장을 함께 고려한 Sparse/Dense/Hybrid 선택 기준 수립
- OpenSearch에서 BM25, k-NN, rank_features를 병렬 운영하고 RRF로 결합하는 실험 구조 재현
- 도메인별 자체 코퍼스에서 동일한 벤치마크를 통해 검색 방식별 성능 비교
