
AI
임베딩 모델로 데이터 의미 압축하기
두줄요약
텍스트를 숫자와 벡터로 표현하는 여러 방법과 문장 임베딩 기반 의미 검색을 정리했습니다. 또한 BERT, FAISS, 하이브리드 검색의 구조와 활용 방향을 소개했습니다.
핵심 내용
- 텍스트를 숫자로 표현하는 방식으로 원핫 인코딩, 백오브워즈, TF-IDF, 워드투벡을 비교
- 문장 임베딩과 벡터 유사도를 활용한 의미 검색, 하이브리드 검색의 필요성 정리
- BERT 기반 교차인코더와 바이인코더의 구조, 정확도와 계산 효율 차이 설명
- FAISS를 이용한 임베딩 벡터 검색과 KNN, ANN 인덱스 개념 소개
적용해볼 점
- 키워드 검색과 의미 검색을 조합한 하이브리드 검색 검토
- 대규모 문장 비교 시 바이인코더와 벡터 검색 기반 접근 고려
- 문장 의미 유사도 평가를 위한 임베딩 활용 방식 학습
