AI
상담사향 TTS 만들기
두줄요약
상담사처럼 말하는 한국어 TTS를 만들기 위해 데이터 학습, 명료도 개선, 선호도 기반 후학습을 단계적으로 적용했습니다. GRPO와 DPO로 상담사향 프로소디와 화자 일관성을 높인 과정을 소개했습니다.
핵심 내용
- 상담사처럼 발화하는 한국어 TTS 모델을 만들기 위한 연구·개발 과정 정리
- 공개/합성 데이터 기반 continual pre-training, 내부 상담사 음성 기반 mono-speaker finetuning, GRPO와 DPO를 활용한 후학습 흐름 소개
- 명료도, 화자 일관성, 상담사향 프로소디를 동시에 개선하려는 시도와 그 결과 요약
구조와 흐름
- 한국어 발화 능력 확보를 위한 대규모 데이터 수집과 continual pre-training
- 동일 상담사 데이터로 speaker similarity와 음색 일관성 강화
- CER 기반 GRPO로 발화 명료도 개선, DPO로 단조로움과 fallback 억제
선택 이유
- 상용 TTS의 상담사향 프로소디와 한국어 특수 표현 처리 한계 보완 필요
- 같은 화자가 일관되게 말해야 하는 전화 상담 서비스 요구 반영
- 상담 시나리오에 맞는 더 사람 같은 톤과 자연스러운 발화 지향
