Velopers 홈

새로운 기술 블로그가 추가되었어요

오늘 새 글

0개

오늘 조회수

56회

최근 7일 인기 글AI로 웹 엔지니어 없이 LINE 앱 안에서 그룹 영상 통화 서비스 만들기라인 · 54회 최근 30일 활발한 블로그AWS23개 발행 · 총 388개 · 18,937회

필터 1

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

빅웨이브에이아이

2024년 1월 24일

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.