필터 1
AI Agent 속도 최적화를 위한 Speculative Decoding
데보션
· 2025년 10월 28일
AI

AI Agent 속도 최적화를 위한 Speculative Decoding

Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.

#LLM#Speculative Decoding
39005분
생성형 AI의 품질 실험: 잘 만든 데이터인가, 그럴듯해 보일 뿐인가
한글과컴퓨터
· 2025년 8월 27일
AI

생성형 AI의 품질 실험: 잘 만든 데이터인가, 그럴듯해 보일 뿐인가

생성형 AI 합성 데이터의 개념과 활용 가능성을 논문, 도구, 사례를 통해 살펴보았습니다. 아직 한계는 있지만 품질 검증과 테스트 자동화 측면의 가능성도 함께 확인했습니다.

#LLM#Synthetic Data
37005분
쉽게이해하는 GPT. 2편(어떻게 GPT는 Chat을 하는가, instruct모델)
데보션
· 2025년 5월 20일
AI

쉽게이해하는 GPT. 2편(어떻게 GPT는 Chat을 하는가, instruct모델)

GPT는 기본적으로 다음 단어를 예측하는 모델이라 대화가 어렵습니다. instruction tuning으로 질문-답변 형식을 학습해 ChatGPT 같은 대화형 모델로 확장했습니다.

#LLM#instruction tuning
72005분
쉽게이해하는 GPT. 1편(다음단어 예측기. Base모델)
데보션
· 2025년 5월 12일
AI

쉽게이해하는 GPT. 1편(다음단어 예측기. Base모델)

GPT를 다음 단어를 예측하는 모델로 쉽게 풀어 설명했습니다. Transformer 디코더만 사용하는 구조와 LLaMA 예시를 통해 Base Model 개념을 소개했습니다.

#LLM#Transformer
99005분
Qwen3 의 Hybrid thinking mode
데보션
· 2025년 5월 9일
AI

Qwen3 의 Hybrid thinking mode

Qwen3의 Hybrid Thinking mode를 소개하고, 추론 On/Off를 제어하는 두 가지 방식을 설명했습니다. `/think`·`/no_think`와 `enable_thinking`의 동작 차이도 정리했습니다.

#LLM#NLP
71005분
CUDA OOM 해결 사례 공유 - PyTorch all_gather_object 의 비밀
데보션
· 2025년 4월 22일
AI

CUDA OOM 해결 사례 공유 - PyTorch all_gather_object 의 비밀

데이터셋 로딩 중 발생한 CUDA OOM의 원인을 `all_gather_object` 내부 동작에서 찾았습니다. 데이터를 chunk로 나눠 gather하도록 바꿔 GPU 메모리 사용량을 줄였습니다.

#CUDA#PyTorch
33005분
생각하는 AI? 추론 모델 빠르게 구현해 보기 (ft. S1)
데보션
· 2025년 3월 11일
AI

생각하는 AI? 추론 모델 빠르게 구현해 보기 (ft. S1)

S1의 Test-Time Scaling과 Budget Forcing으로 추론 모델을 구현하는 과정을 소개했습니다. 적은 데이터와 반복 자기검증만으로도 사고 성능을 끌어올리는 방법을 살펴보았습니다.

#LLM#ML
57005분
Multimodal LLM 첫 삽 뜨기
데보션
· 2024년 11월 5일
AI

Multimodal LLM 첫 삽 뜨기

멀티모달 LLM의 대표 아키텍처와 instruction tuning, RLHF 계열 정렬 기법을 정리했습니다. LLaVA 기반 사례와 데이터셋 구성을 함께 살펴볼 수 있습니다.

#LLM#ML
18005분