개인화 보이스 생성 기술 소개

AI

개인화 보이스 생성 기술 소개

데보션

데보션2024년 9월 6일

두줄요약

SKT의 개인화 보이스 생성 기술을 Instant, Custom, Professional 세 가지 방식으로 소개했습니다. 소량의 음성만으로도 맞춤형 음성을 만들 수 있으며, 목적에 따라 속도와 품질을 선택할 수 있습니다.

핵심 내용

소량의 샘플 음성으로 개인화된 음성을 생성하는 SKT의 보이스 클로닝 기술 소개
Instant, Custom, Professional의 3가지 방식으로 데이터 규모, 학습 방식, 품질 수준을 구분
개인화 가상 비서, 맞춤형 교육 도구, 캐릭터 음성 등 다양한 활용 가능성 제시

구조와 흐름

Instant Voice Cloning: 5~60초 음성으로 실시간 생성, T2S와 Vocoder 분리 구조
Custom Voice Cloning: 1~10분 음성으로 화자 피처 추출 후 더 안정적인 합성
Professional Voice Modeling: GPU 학습 기반, 가장 높은 유사성과 품질 지향

선택 이유

목적과 서비스 종류에 따라 속도, 데이터 요구량, 품질을 균형 있게 선택 가능
짧은 음성만으로도 개인화가 가능해 기존 대규모 녹음 의존도 완화
정교한 표현이 필요한 서비스에는 고품질 모델링이 적합

장단점

Instant는 빠르고 간편하지만 합성 안정성이 상대적으로 낮음
Custom은 안정성이 높지만 화자 피처 추출 과정이 필요
Professional은 품질과 유사성이 가장 높지만 GPU 자원과 비용 부담이 큼

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...