

에이전트 옵저버빌리티 - AI 에이전트의 '조용한 실패'를 잡는 법
AI 에이전트의 조용한 실패를 잡기 위한 에이전트 옵저버빌리티 개념과 APM·LLM 옵저버빌리티와의 차이를 정리했습니다. Langfuse와 Gemini로 PR 리뷰 에이전트를 추적·평가하는 실습과 운영 시 유의사항도 다뤘습니다.


AI 에이전트의 조용한 실패를 잡기 위한 에이전트 옵저버빌리티 개념과 APM·LLM 옵저버빌리티와의 차이를 정리했습니다. Langfuse와 Gemini로 PR 리뷰 에이전트를 추적·평가하는 실습과 운영 시 유의사항도 다뤘습니다.
![[코드가 환경을 모르는 구조 5/7] Rewrite Host — 공간 축을 교체한다](https://flex.team/blog/og/main.jpg)

MSA 로컬 개발의 병목을 줄이기 위해 Rewrite Host로 수정 중인 서비스만 노트북 인스턴스로 교체하는 방식을 소개했습니다. 디버그 헤더와 응답 피드백으로 부분 검증과 라우팅 전환을 단순화했습니다.

Kubernetes Pod의 Request와 Limit을 실제 사용 패턴에 맞게 조정하는 Right-Sizing 기준 수립 과정을 다뤘습니다. P95, 버퍼율, 컴포넌트 특성, Throttling 지표를 함께 고려하는 방법을 정리했습니다.
![[미래를 담아낸 뼈대 4/7] 기반이 열어준 다음 문제](https://flex.team/blog/og/main.jpg)

Hexagonal Architecture 기반의 일관된 구조가 멀티클라우드, AI 백엔드, Observability 전환의 기반이 되었다고 설명했습니다. 표준 인터페이스와 경계 분리가 이후 변경 비용을 크게 낮춘 사례를 다루었습니다.
![[미래를 담아낸 뼈대 4/7] 기반이 열어준 다음 문제](https://cdn.sanity.io/images/v31psllp/production/1ef0397273a55d5bcb29d4af10cb45caabdb533f-1684x1030.png)

Hexagonal Architecture와 표준화된 인프라에 투자해 멀티클라우드, AI 백엔드, Observability 전환 비용을 낮춘 사례를 다뤘습니다. 벤더가 바뀌어도 코드와 운영을 크게 흔들지 않는 구조의 효과를 설명했습니다.

Kubernetes 환경에서 OpenTelemetry를 도입해 로그·메트릭·트레이스를 통합 수집했습니다. 기존 정책과의 호환성과 데이터 무결성을 보완하며 MTTR도 개선했습니다.


Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

OpenTelemetry와 ClickHouse로 대용량 로그 파이프라인을 다시 설계한 사례를 소개했습니다. 하루 41TB 로그를 20초 이내 처리하고 비용을 크게 줄인 과정을 정리했습니다.


Claude Code의 사용 패턴과 비용, 성능을 팀 단위로 모니터링하는 4가지 방법을 정리했습니다. OpenTelemetry, SigNoz, Datadog, claude-code-otel로 ROI와 활용도를 확인할 수 있습니다.

OpenTelemetry와 Kafka를 활용해 마이크로서비스 환경의 Observability 파이프라인을 구축한 사례를 소개했습니다.\n자동 계측, 중앙 Collector, Signal별 분리로 안정성과 확장성을 높였습니다.


Amazon Bedrock AgentCore Observability로 AI 에이전트의 동작, 비용, 지연시간을 프로덕션 수준에서 추적하는 방법을 소개했습니다. OpenTelemetry 기반 자동 계측과 트레이스 분석으로 디버깅과 비용 최적화를 돕습니다.
무신사의 AI 인프라 구축과 하이브리드 운영 경험을 정리한 글입니다. 온프레미스 GPU와 AWS를 결합해 비용과 성능을 최적화하는 과정과 시행착오를 공유했습니다.