AI Agent 속도 최적화를 위한 Speculative Decoding
Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.

Huggingface 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
11개 표시
Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.

생성형 AI 합성 데이터의 개념과 활용 가능성을 논문, 도구, 사례를 통해 살펴보았습니다. 아직 한계는 있지만 품질 검증과 테스트 자동화 측면의 가능성도 함께 확인했습니다.

GPT는 기본적으로 다음 단어를 예측하는 모델이라 대화가 어렵습니다. instruction tuning으로 질문-답변 형식을 학습해 ChatGPT 같은 대화형 모델로 확장했습니다.

GPT를 다음 단어를 예측하는 모델로 쉽게 풀어 설명했습니다. Transformer 디코더만 사용하는 구조와 LLaMA 예시를 통해 Base Model 개념을 소개했습니다.

Qwen3의 Hybrid Thinking mode를 소개하고, 추론 On/Off를 제어하는 두 가지 방식을 설명했습니다. `/think`·`/no_think`와 `enable_thinking`의 동작 차이도 정리했습니다.

데이터셋 로딩 중 발생한 CUDA OOM의 원인을 `all_gather_object` 내부 동작에서 찾았습니다. 데이터를 chunk로 나눠 gather하도록 바꿔 GPU 메모리 사용량을 줄였습니다.

S1의 Test-Time Scaling과 Budget Forcing으로 추론 모델을 구현하는 과정을 소개했습니다. 적은 데이터와 반복 자기검증만으로도 사고 성능을 끌어올리는 방법을 살펴보았습니다.

LLM 파인튜닝에서 배치 크기, 시퀀스 길이, 메모리 최적화 기법의 영향을 실험 기반으로 정리했습니다.\nGPU 제약과 데이터 특성에 맞춰 직접 실험하며 최적값을 찾는 접근을 강조했습니다.

LangChain 기반 노코드 플랫폼 LangFlow를 HuggingFace Spaces에서 시작하는 방법을 소개했습니다. 드래그 앤 드롭으로 플로우를 만들고 OpenAI API로 기본 챗봇을 구성하는 흐름을 다뤘습니다.

멀티모달 LLM의 대표 아키텍처와 instruction tuning, RLHF 계열 정렬 기법을 정리했습니다. LLaVA 기반 사례와 데이터셋 구성을 함께 살펴볼 수 있습니다.

Huggingface Open LLM Leaderboard와 모델 병합 사례를 소개하는 후기 글입니다. CarbonVillain과 KF-DeBERTa를 통해 팀의 프로젝트도 함께 살펴볼 수 있습니다.