

LLM Knowledge Distillation 훑어보기 - part 2
지식 증류가 student 성능 개선뿐 아니라 LLM 추론 속도 향상에도 활용된다는 점을 정리했습니다. speculative decoding과 SKD 같은 최신 방법으로 성능과 효율을 함께 높이는 흐름을 설명했습니다.
#LLM#knowledge distillation
46005분
새로운 기술 블로그가 추가되었어요


지식 증류가 student 성능 개선뿐 아니라 LLM 추론 속도 향상에도 활용된다는 점을 정리했습니다. speculative decoding과 SKD 같은 최신 방법으로 성능과 효율을 함께 높이는 흐름을 설명했습니다.


LLM 지식 증류의 개념과 주요 방법론을 정리한 글입니다. Teacher 모델의 지식을 Student 모델에 이전하는 방식과 구현 접근을 소개했습니다.


LLM 추론 효율을 높이기 위한 배치 전략과 어텐션 개선 방법을 정리한 글입니다. FlashAttention, 페이지 어텐션, 추측 디코딩의 개념과 장점을 설명했습니다.