AI가 만들어주는 나만의 목소리(SK AI SUMMIT 발표사례)

AI

AI가 만들어주는 나만의 목소리(SK AI SUMMIT 발표사례)

SK플래닛

SK플래닛2025년 12월 2일

두줄요약

AI 음성 변환과 합성의 전체 파이프라인을 소개했습니다.\n음색 보존, 피치 제어, 평가 지표와 한계 대응 방안까지 정리했습니다.

핵심 내용

AI 음성 생성·변환 기술로 개인화된 목소리와 노래를 만드는 흐름 정리
Speech Voice Conversion과 Singing Voice Conversion의 차이, Zero-Shot VC의 입력·추론 방식 설명
Feature Extractor, Semantic/Style Encoder, Length Regulator, Diffusion Transformer Decoder, Vocoder로 이어지는 파이프라인 구성
Speaker Similarity, F₀ Correlation·RMSE로 음색 일관성과 피치 유사도 평가, 지연·데이터 부족·음색 보존 한계와 대응 방안 제시

적용해볼 점

음성 전처리에서 denoising, enhancement, source separation의 필요성
피치·음색·의미를 분리해 다루는 모듈 설계 관점
경량화, 데이터 증강, 스타일/스피커 임베딩 정교화의 개선 방향

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...