
AI
개인화 보이스 생성 기술 소개
두줄요약
SKT의 개인화 보이스 생성 기술을 Instant, Custom, Professional 세 가지 방식으로 소개했습니다. 소량의 음성만으로도 맞춤형 음성을 만들 수 있으며, 목적에 따라 속도와 품질을 선택할 수 있습니다.
핵심 내용
- 소량의 샘플 음성으로 개인화된 음성을 생성하는 SKT의 보이스 클로닝 기술 소개
- Instant, Custom, Professional의 3가지 방식으로 데이터 규모, 학습 방식, 품질 수준을 구분
- 개인화 가상 비서, 맞춤형 교육 도구, 캐릭터 음성 등 다양한 활용 가능성 제시
구조와 흐름
- Instant Voice Cloning: 5~60초 음성으로 실시간 생성, T2S와 Vocoder 분리 구조
- Custom Voice Cloning: 1~10분 음성으로 화자 피처 추출 후 더 안정적인 합성
- Professional Voice Modeling: GPU 학습 기반, 가장 높은 유사성과 품질 지향
선택 이유
- 목적과 서비스 종류에 따라 속도, 데이터 요구량, 품질을 균형 있게 선택 가능
- 짧은 음성만으로도 개인화가 가능해 기존 대규모 녹음 의존도 완화
- 정교한 표현이 필요한 서비스에는 고품질 모델링이 적합
장단점
- Instant는 빠르고 간편하지만 합성 안정성이 상대적으로 낮음
- Custom은 안정성이 높지만 화자 피처 추출 과정이 필요
- Professional은 품질과 유사성이 가장 높지만 GPU 자원과 비용 부담이 큼
