Velopers
모든 블로그모든 태그공지주간 인기글

새로운 기술 블로그가 추가되었어요

아임웹

오늘 새 글

0개

오늘 조회수

43회

최근 7일 인기 글AI로 웹 엔지니어 없이 LINE 앱 안에서 그룹 영상 통화 서비스 만들기라인 · 54회최근 30일 활발한 블로그AWS23개 발행 · 총 388개 · 18,937회
필터 1
모델 정렬을 위한 효과적인 학습 전략
데보션
·2024년 11월 21일
AI

모델 정렬을 위한 효과적인 학습 전략

사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.

#LLM#RLHF
22005분
RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?
빅웨이브에이아이
·2024년 1월 24일
AI

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.

#LLM#RLHF
45005분

Powered by Velopers

이용약관개인정보처리방침공지사항