AI가 만들어주는 나만의 목소리(SK AI SUMMIT 발표사례)
AI
AI가 만들어주는 나만의 목소리(SK AI SUMMIT 발표사례)
두줄요약
AI 음성 변환과 합성의 전체 파이프라인을 소개했습니다.\n음색 보존, 피치 제어, 평가 지표와 한계 대응 방안까지 정리했습니다.
핵심 내용
- AI 음성 생성·변환 기술로 개인화된 목소리와 노래를 만드는 흐름 정리
- Speech Voice Conversion과 Singing Voice Conversion의 차이, Zero-Shot VC의 입력·추론 방식 설명
- Feature Extractor, Semantic/Style Encoder, Length Regulator, Diffusion Transformer Decoder, Vocoder로 이어지는 파이프라인 구성
- Speaker Similarity, F₀ Correlation·RMSE로 음색 일관성과 피치 유사도 평가, 지연·데이터 부족·음색 보존 한계와 대응 방안 제시
적용해볼 점
- 음성 전처리에서 denoising, enhancement, source separation의 필요성
- 피치·음색·의미를 분리해 다루는 모듈 설계 관점
- 경량화, 데이터 증강, 스타일/스피커 임베딩 정교화의 개선 방향
