태그

RLHF 기술 블로그 글

RLHF 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 3개최신 3개 표시

홈에서 필터

#LLM995 #DPO5 #PPO2 #검색285 #ML283 #RAG228 #지도 미세 조정1 #SFT1 #AWS635 #cloud422 #Kubernetes412 #UI/UX395

최신 게시글

3개 표시

2025년 7월 17일

최신 논문 분석을 통한 LLM의 환각 현상 완화 전략 탐구

LLM 환각의 원인과 완화 전략을 정리하고, 최근 논문 3편의 실험 결과를 바탕으로 신뢰성 향상 방향을 소개했습니다. 불확실성 인식, 외부 지식 활용, 자체 검증을 함께 고려하는 설계가 중요하다고 설명했습니다.

최신 논문 분석을 통한 LLM의 환각 현상 완화 전략 탐구

2024년 11월 21일

모델 정렬을 위한 효과적인 학습 전략

사전 학습, 지도 미세 조정, RLHF, DPO를 통해 LLM 정렬 전략을 설명했습니다. 특히 선호 데이터와 기각 샘플링, DPO의 장점을 중심으로 비교했습니다.

모델 정렬을 위한 효과적인 학습 전략

2024년 1월 24일

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

RLHF를 중심으로 LLM 성능을 높이는 SFT, Reward Model, PPO, DPO를 정리했습니다. 사람 선호를 반영하되 학습 불안정성과 보상 해킹에 주의해야 합니다.

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?