빅웨이브에이아이·2024년 1월 24일AIRLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.#LLM#RLHF45005분