
0
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크를 다룹니다.
핵심 내용
- 한국어 SPLADE v3 스타일 모델(sewoong/korean-neural-sparse-encoder-base-klue-large)을 OpenSearch에 배포
- BM25, Titan Embedding V2(Dense), Sparse(SPLADE) 및 하이브리드(RRF) 비교, MIRACL-ko dev(213 쿼리, 10k 코퍼스) 사용
- 인코딩 파이프라인: Titan은 Bedrock 호출, SPLADE는 klue/roberta-large 기반 MLM→log(1+ReLU)→max pooling 및 top_k 토큰 유지
- 인덱스 구성: BM25(nori analyzer), Dense(knn_vector, 1024차원, HNSW/FAISS), Sparse(rank_features) 매핑 병렬 운영
- 결과 요약: SPLADE 단일 모델이 Titan·BM25 대비 전반적 성능 우위, BM25와의 하이브리드로 상위 순위 품질(nDCG) 추가 개선

