AI
Semantic Search 만으로는 번역 품질이 해결되지 않았던 이유
두줄요약
Semantic Search만으로는 번역 용어 일관성을 해결하기 어려웠습니다. 저자는 키워드 추출과 Tolgee 재검색 방식으로 접근을 바꿨습니다.
문제 상황
- 일본팀 번역 작업에서 기존 용어를 재사용하지 못해 리소스가 크게 소모되는 상황
- B2B SaaS 특성상 대소문자까지 포함한 용어 일관성이 제품 신뢰도와 직결되는 맥락
원인 분석
- Semantic Search가 문장 의미 유사도 중심이라 단어 단위의 용어 일관성을 잡아내지 못함
- 번역 키를 문서처럼 청킹·임베딩하는 방식이 사전형 데이터의 성질과 맞지 않음
- 긴 문장에서는 필요한 용어가 의미 벡터에 묻혀 유사 문단만 반환되는 한계
해결 방법
- 의미 검색 대신 검색형 에이전트로 전환해 필요한 키워드를 LLM이 추출하도록 구성
- Tolgee API를 여러 번 호출해 키워드별 매칭 결과를 모으고 가장 많이 맞는 번역 키를 조합
- 블로그 번역은 정확한 재사용보다 톤앤매너 참고용 프롬프트로 활용
적용해볼 점
- 사전형 데이터에는 문장 유사도보다 정확한 용어 검색 방식 우선 검토
- 문제를 AI로 풀지 말고 Retrieval 방식부터 재설계하는 접근 고려
