

AI Agent 속도 최적화를 위한 Speculative Decoding
Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.
새로운 기술 블로그가 추가되었어요


Speculative Decoding으로 AI Agent의 응답 지연을 줄이는 원리를 설명했습니다. Small Model 예측과 Large Model 검증을 결합해 속도 개선 가능성을 제시했습니다.

Heimdall 오류 로그를 Slack과 Gemini로 자동 분석해 요약 답변을 스레드에 등록하는 시스템을 구축했습니다. 추가 질문을 위한 Slack 상호작용과 세션 캐시로 대화형 오류 분석까지 확장했습니다.

LLM 멀티 에이전트로 API 문서 기반 E2E 테스트 생성 파이프라인 MAFT를 소개했습니다. Noir의 테스트 공백을 줄이기 위해 의존성 분석, 시나리오 생성, 코드 검증을 자동화했습니다.


AWS Control Tower의 리전 거부 정책이 Amazon Bedrock 크로스 리전 추론을 막는 문제와 원인을 설명했습니다. SCP와 Control Tower 제어를 조정해 Bedrock만 예외 허용하는 방법을 제시했습니다.
사내 API 스펙 공유와 연동 자동화를 위해 MCP 서버를 개발한 사례를 소개했습니다. Spring-AI 기반 구현과 운영상 문제 해결, Swagger 자동화 방향까지 정리했습니다.


Amazon EKS에 vLLM DLC를 적용해 DeepSeek 모델을 배포하는 과정을 설명했습니다. EFA와 FSx for Lustre를 활용해 고성능 추론 환경을 구성했습니다.

Claude Code를 실무에서 동료처럼 활용하며 개발 방식의 변화를 소개한 글입니다.\nAI와 협업하려면 문제를 정확히 설명하고 구조화하는 능력이 중요하다고 강조했습니다.


배송 완료 사진에서 퍼플 박스와 종이봉투를 탐지해 수기 검수 대상을 줄인 사례를 소개했습니다. 데이터 중심 학습과 라벨 개선 반복으로 성능을 높이고 검수 비용을 93% 절감했습니다.


OpenAI Eval for Agents와 Google Stax의 차이를 QA 관점에서 비교했습니다. 에이전트 전체 흐름 진단은 Eval for Agents, 텍스트 응답 평가와 시각화는 Stax가 강점입니다.

SageMaker AI에서 GPT-OSS 120B 추론 성능 테스트와 GPU 용량 산정 방법을 다뤘습니다. vLLM과 SGLang을 비교하며 워크로드별 성능 지표와 최적화 포인트를 정리했습니다.


OpenSearch KNN과 필터 조합에서 결과 누락이 발생한 원인을 쿼리 구조에서 찾았습니다. pre-filtering 기반 Efficient KNN Filtering으로 검색 품질과 지연 시간을 함께 개선했습니다.

LLM과 벡터 검색을 결합해 마케터의 자연어를 실행 가능한 세그먼트로 바꾸는 Seg Lens 개발기를 소개했습니다. 기존 수동 조건 생성의 한계를 줄이고 의미 기반 탐색과 권한 제어를 함께 구현했습니다.