모든 태그
태그

DPO 기술 블로그 글

DPO 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 5최신 5개 표시
홈에서 필터

최신 게시글

5개 표시

AI

상담사향 TTS 만들기

상담사처럼 발화하는 TTS를 만들기 위해 한국어 적응, 단일 화자 미세조정, GRPO, DPO를 단계적으로 적용했습니다. 명료도와 상담사향 프로소디를 함께 개선하며 실제 전화 상담에 맞는 음성을 추구했습니다.

#TTS#LLM#Python
100

AI

상담사향 TTS 만들기

상담사처럼 말하는 한국어 TTS를 만들기 위해 데이터 학습, 명료도 개선, 선호도 기반 후학습을 단계적으로 적용했습니다. GRPO와 DPO로 상담사향 프로소디와 화자 일관성을 높인 과정을 소개했습니다.

#TTS#LLM#Python
600

AI

Computer Use Agent(CUA)를 직접 돌려보자! (Feat. AgentQ)

Computer Use Agent의 개념과 활용 배경을 소개하고, AgentQ 논문과 구현을 직접 실행해보는 과정을 정리했습니다. MCTS와 DPO를 결합한 정책 학습 구조와 실습 절차도 함께 설명했습니다.

#LLM#AI Agent#MCTS
7100

AI

모델 정렬을 위한 효과적인 학습 전략

사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.

#LLM#RLHF#DPO
2200

AI

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.

#LLM#RLHF#SFT
4500