

Qwen3 의 Hybrid thinking mode
Qwen3의 Hybrid Thinking mode를 소개하고, 추론 On/Off를 제어하는 두 가지 방식을 설명했습니다. `/think`·`/no_think`와 `enable_thinking`의 동작 차이도 정리했습니다.


Qwen3의 Hybrid Thinking mode를 소개하고, 추론 On/Off를 제어하는 두 가지 방식을 설명했습니다. `/think`·`/no_think`와 `enable_thinking`의 동작 차이도 정리했습니다.


Function Calling의 개념과 작동 원리를 설명하고, Qwen·Llama·Gemma로 구현 차이를 비교했습니다. LLM과 애플리케이션의 역할 분리 및 모델별 파싱 방식도 함께 정리했습니다.


데이터셋 로딩 중 발생한 CUDA OOM의 원인을 `all_gather_object` 내부 동작에서 찾았습니다. 데이터를 chunk로 나눠 gather하도록 바꿔 GPU 메모리 사용량을 줄였습니다.

Android 단말의 위치 데이터 활용과 NLP 위치 제공자 특성을 다루는 글입니다. 본문이 일부만 보여 세부 내용은 확인되지 않았습니다.


지식 증류가 student 성능 개선뿐 아니라 LLM 추론 속도 향상에도 활용된다는 점을 정리했습니다. speculative decoding과 SKD 같은 최신 방법으로 성능과 효율을 함께 높이는 흐름을 설명했습니다.


RAG에서 리랭커가 필요한 이유와 역할을 설명했습니다. 기존 방식과 LLM 기반 리랭킹, 적용 시 한계와 보완 방법도 함께 정리했습니다.


안드로이드에서 DistilKoBERT 기반 스팸 분류 모델을 온디바이스 AI로 구현한 과정을 정리했습니다.\nTFLite 변환과 양자화로 모델 크기와 추론 속도를 개선하고 단말 벤치마크 결과도 확인했습니다.

밸런스히어로 데이터사이언티스트의 ZINDI 2위 수상 경험을 인터뷰로 소개했습니다. 신용평가 도메인 지식과 피처 파이프라인이 성과의 핵심이었습니다.

밸런스히어로 데이터사이언티스트가 ZINDI 신용평가 대회 2위 수상 경험을 공유했습니다. 국가별 데이터 분포 차이와 시간 제약을 피처 파이프라인과 모델 분리 전략으로 극복했습니다.


Chain-of-Draft는 LLM이 핵심만 간결하게 추론하도록 유도해 토큰 사용량과 지연 시간을 줄이는 프롬프팅 기법을 소개했습니다. 다양한 벤치마크에서 CoT와 비슷한 정확도를 유지하면서도 효율을 높인 결과와 한계를 함께 정리했습니다.


S1의 Test-Time Scaling과 Budget Forcing으로 추론 모델을 구현하는 과정을 소개했습니다. 적은 데이터와 반복 자기검증만으로도 사고 성능을 끌어올리는 방법을 살펴보았습니다.

호텔 검색에서 LLM을 sLLM으로 옮기기 위해 지식 증류를 적용한 과정을 다뤘습니다. 성능과 효율을 함께 확보하기 위한 모델 선정, 데이터 구성, 학습 기법 개선을 설명했습니다.