Velopers 홈

새로운 기술 블로그가 추가되었어요

오늘 새 글

0개

오늘 조회수

43회

필터 1

모델 정렬을 위한 효과적인 학습 전략

사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.