데보션·2024년 11월 21일AI모델 정렬을 위한 효과적인 학습 전략사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.#LLM#RLHF22005분