

AI Agent 속도 최적화를 위한 Speculative Decoding
Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.


Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.


생성형 AI 합성 데이터의 개념과 활용 가능성을 논문, 도구, 사례를 통해 살펴보았습니다. 아직 한계는 있지만 품질 검증과 테스트 자동화 측면의 가능성도 함께 확인했습니다.


GPT는 기본적으로 다음 단어를 예측하는 모델이라 대화가 어렵습니다. instruction tuning으로 질문-답변 형식을 학습해 ChatGPT 같은 대화형 모델로 확장했습니다.


GPT를 다음 단어를 예측하는 모델로 쉽게 풀어 설명했습니다. Transformer 디코더만 사용하는 구조와 LLaMA 예시를 통해 Base Model 개념을 소개했습니다.


Qwen3의 Hybrid Thinking mode를 소개하고, 추론 On/Off를 제어하는 두 가지 방식을 설명했습니다. `/think`·`/no_think`와 `enable_thinking`의 동작 차이도 정리했습니다.


데이터셋 로딩 중 발생한 CUDA OOM의 원인을 `all_gather_object` 내부 동작에서 찾았습니다. 데이터를 chunk로 나눠 gather하도록 바꿔 GPU 메모리 사용량을 줄였습니다.


S1의 Test-Time Scaling과 Budget Forcing으로 추론 모델을 구현하는 과정을 소개했습니다. 적은 데이터와 반복 자기검증만으로도 사고 성능을 끌어올리는 방법을 살펴보았습니다.


멀티모달 LLM의 대표 아키텍처와 instruction tuning, RLHF 계열 정렬 기법을 정리했습니다. LLaVA 기반 사례와 데이터셋 구성을 함께 살펴볼 수 있습니다.