한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크 - AWS | Velopers

한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크

2026년 4월 29일

0

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크를 다룹니다.

핵심 내용

한국어 SPLADE v3 스타일 모델(sewoong/korean-neural-sparse-encoder-base-klue-large)을 OpenSearch에 배포
BM25, Titan Embedding V2(Dense), Sparse(SPLADE) 및 하이브리드(RRF) 비교, MIRACL-ko dev(213 쿼리, 10k 코퍼스) 사용
인코딩 파이프라인: Titan은 Bedrock 호출, SPLADE는 klue/roberta-large 기반 MLM→log(1+ReLU)→max pooling 및 top_k 토큰 유지
인덱스 구성: BM25(nori analyzer), Dense(knn_vector, 1024차원, HNSW/FAISS), Sparse(rank_features) 매핑 병렬 운영
결과 요약: SPLADE 단일 모델이 Titan·BM25 대비 전반적 성능 우위, BM25와의 하이브리드로 상위 순위 품질(nDCG) 추가 개선

연관 게시글

OpenSearch의 하이브리드 검색 소개

OpenSearch의 하이브리드 검색 소개

데보션

데보션 • 2025년 5월 30일

텍스트와 벡터가 함께 사는 인덱스를 만드는 과정

텍스트와 벡터가 함께 사는 인덱스를 만드는 과정

바비톡

바비톡 • 2025년 11월 26일

Amazon OpenSearch Service 의 LTR 플러그인을 활용한 검색 품질 개선

Amazon OpenSearch Service 의 LTR 플러그인을 활용한 검색 품질 개선

AWS

AWS • 2025년 5월 7일