데보션·2024년 11월 21일AI모델 정렬을 위한 효과적인 학습 전략사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.#LLM#RLHF22005분
빅웨이브에이아이·2024년 1월 24일AIRLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.#LLM#RLHF45005분