Velopers 홈

오늘 새 글

0개

오늘 조회수

170회

필터 1

· 2025년 5월 9일

Qwen3 의 Hybrid thinking mode

Qwen3의 Hybrid Thinking mode를 소개하고, 추론 On/Off를 제어하는 두 가지 방식을 설명했습니다. `/think`·`/no_think`와 `enable_thinking`의 동작 차이도 정리했습니다.

#LLM#NLP

71005분

Function Calling: LLM이 외부 세계와 소통하는 방법 (ft. Qwen, llama, Gemma)

· 2025년 4월 22일

Function Calling: LLM이 외부 세계와 소통하는 방법 (ft. Qwen, llama, Gemma)

Function Calling의 개념과 작동 원리를 설명하고, Qwen·Llama·Gemma로 구현 차이를 비교했습니다. LLM과 애플리케이션의 역할 분리 및 모델별 파싱 방식도 함께 정리했습니다.

#LLM#Function Calling

66005분

CUDA OOM 해결 사례 공유 - PyTorch all_gather_object 의 비밀

· 2025년 4월 22일

CUDA OOM 해결 사례 공유 - PyTorch all_gather_object 의 비밀

데이터셋 로딩 중 발생한 CUDA OOM의 원인을 `all_gather_object` 내부 동작에서 찾았습니다. 데이터를 chunk로 나눠 gather하도록 바꿔 GPU 메모리 사용량을 줄였습니다.

#CUDA#PyTorch

33005분

Android 단말의 위치 데이터 활용: NLP 위치 제공자 특성 및 고려사항

· 2025년 4월 22일

프론트엔드

Android 단말의 위치 데이터 활용: NLP 위치 제공자 특성 및 고려사항

Android 단말의 위치 데이터 활용과 NLP 위치 제공자 특성을 다루는 글입니다. 본문이 일부만 보여 세부 내용은 확인되지 않았습니다.

#Android#NLP

0005분

LLM Knowledge Distillation 훑어보기 - part 2

· 2025년 4월 14일

LLM Knowledge Distillation 훑어보기 - part 2

지식 증류가 student 성능 개선뿐 아니라 LLM 추론 속도 향상에도 활용된다는 점을 정리했습니다. speculative decoding과 SKD 같은 최신 방법으로 성능과 효율을 함께 높이는 흐름을 설명했습니다.

#LLM#knowledge distillation

46005분

· 2025년 4월 8일

RAG와 리랭커(Reranker): 검색 모델과 LLM의 상호작용

RAG에서 리랭커가 필요한 이유와 역할을 설명했습니다. 기존 방식과 LLM 기반 리랭킹, 적용 시 한계와 보완 방법도 함께 정리했습니다.

#RAG#LLM

75005분

· 2025년 4월 2일

안드로이드에서 온디바이스 AI로 스팸 분류하기

안드로이드에서 DistilKoBERT 기반 스팸 분류 모델을 온디바이스 AI로 구현한 과정을 정리했습니다.\nTFLite 변환과 양자화로 모델 크기와 추론 속도를 개선하고 단말 벤치마크 결과도 확인했습니다.

#Android#NLP

84005분

African Credit Scoring Challenge 2위 수상 인터뷰

· 2025년 3월 28일

African Credit Scoring Challenge 2위 수상 인터뷰

밸런스히어로 데이터사이언티스트의 ZINDI 2위 수상 경험을 인터뷰로 소개했습니다. 신용평가 도메인 지식과 피처 파이프라인이 성과의 핵심이었습니다.

African Credit Scoring Challenge 2위 수상 인터뷰

밸런스히어로 데이터사이언티스트가 ZINDI 신용평가 대회 2위 수상 경험을 공유했습니다. 국가별 데이터 분포 차이와 시간 제약을 피처 파이프라인과 모델 분리 전략으로 극복했습니다.

#LLM#NLP

17005분

Chain-of-Draft(CoD): 더 적게 쓰고 더 빠르게 생각하면서 LLM 추론 성능을 높이는 기법에 대한 연구 (feat. Zoom)

· 2025년 3월 25일

Chain-of-Draft(CoD): 더 적게 쓰고 더 빠르게 생각하면서 LLM 추론 성능을 높이는 기법에 대한 연구 (feat. Zoom)

Chain-of-Draft는 LLM이 핵심만 간결하게 추론하도록 유도해 토큰 사용량과 지연 시간을 줄이는 프롬프팅 기법을 소개했습니다. 다양한 벤치마크에서 CoT와 비슷한 정확도를 유지하면서도 효율을 높인 결과와 한계를 함께 정리했습니다.

#LLM#NLP

114005분

· 2025년 3월 11일

생각하는 AI? 추론 모델 빠르게 구현해 보기 (ft. S1)

S1의 Test-Time Scaling과 Budget Forcing으로 추론 모델을 구현하는 과정을 소개했습니다. 적은 데이터와 반복 자기검증만으로도 사고 성능을 끌어올리는 방법을 살펴보았습니다.

#LLM#ML

57005분

호텔 검색, 어떻게 달라졌을까요? 2편 - 지식 증류

· 2025년 3월 10일

호텔 검색, 어떻게 달라졌을까요? 2편 - 지식 증류

호텔 검색에서 LLM을 sLLM으로 옮기기 위해 지식 증류를 적용한 과정을 다뤘습니다. 성능과 효율을 함께 확보하기 위한 모델 선정, 데이터 구성, 학습 기법 개선을 설명했습니다.

#LLM#NLP

79005분