인공지능(AI) 아나운서 개발기
AI
인공지능(AI) 아나운서 개발기
두줄요약
AI 아나운서 개발 과정과 데이터 전처리, TTS·STF 기반 모듈 구성을 소개했습니다. 프로토타입은 높은 품질을 보였지만 데이터 효율성과 전용 TTS 고도화가 과제로 남았습니다.
핵심 내용
- AI PLUS 2020 컨퍼런스용 가상 축전 영상에 활용된 AI 아나운서 개발 과정 소개
- TTS로 음성을 만들고 STF로 얼굴 영상을 생성한 뒤 결합하는 모듈 구성
- 방송사 뉴스 영상에서 얼굴과 목소리가 또렷한 구간만 추출해 학습 데이터로 사용
- 프로토타입은 높은 영상 품질을 보였지만, 데이터 효율성과 전용 TTS 내재화가 향후 과제
적용해볼 점
- 디지털 휴먼 서비스 구현 시 음성 생성과 얼굴 생성 기술의 분리 설계 고려
- 학습 성능을 위해 데이터 전처리와 노이즈 제어의 중요성 확인
- 프로토타입 이후에는 모델 크기와 데이터 효율성까지 함께 검토 필요
