태그

DPO 기술 블로그 글

DPO 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 5개최신 5개 표시

상담사향 TTS 만들기

상담사처럼 발화하는 TTS를 만들기 위해 한국어 적응, 단일 화자 미세조정, GRPO, DPO를 단계적으로 적용했습니다. 명료도와 상담사향 프로소디를 함께 개선하며 실제 전화 상담에 맞는 음성을 추구했습니다.

2025년 10월 10일

상담사처럼 말하는 한국어 TTS를 만들기 위해 데이터 학습, 명료도 개선, 선호도 기반 후학습을 단계적으로 적용했습니다. GRPO와 DPO로 상담사향 프로소디와 화자 일관성을 높인 과정을 소개했습니다.

2025년 7월 10일

Computer Use Agent의 개념과 활용 배경을 소개하고, AgentQ 논문과 구현을 직접 실행해보는 과정을 정리했습니다. MCTS와 DPO를 결합한 정책 학습 구조와 실습 절차도 함께 설명했습니다.

2024년 11월 21일

사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.

2024년 1월 24일

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.