에이전트 옵저버빌리티 - AI 에이전트의 '조용한 실패'를 잡는 법
AI 에이전트의 조용한 실패를 잡기 위한 에이전트 옵저버빌리티 개념과 APM·LLM 옵저버빌리티와의 차이를 정리했습니다. Langfuse와 Gemini로 PR 리뷰 에이전트를 추적·평가하는 실습과 운영 시 유의사항도 다뤘습니다.

OpenTelemetry 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
20개 표시
AI 에이전트의 조용한 실패를 잡기 위한 에이전트 옵저버빌리티 개념과 APM·LLM 옵저버빌리티와의 차이를 정리했습니다. Langfuse와 Gemini로 PR 리뷰 에이전트를 추적·평가하는 실습과 운영 시 유의사항도 다뤘습니다.

MSA 로컬 개발의 병목을 줄이기 위해 Rewrite Host로 수정 중인 서비스만 노트북 인스턴스로 교체하는 방식을 소개했습니다. 디버그 헤더와 응답 피드백으로 부분 검증과 라우팅 전환을 단순화했습니다.
![[코드가 환경을 모르는 구조 5/7] Rewrite Host — 공간 축을 교체한다](https://flex.team/blog/og/main.jpg)
Kubernetes Pod의 Request와 Limit을 실제 사용 패턴에 맞게 조정하는 Right-Sizing 기준 수립 과정을 다뤘습니다. P95, 버퍼율, 컴포넌트 특성, Throttling 지표를 함께 고려하는 방법을 정리했습니다.
Hexagonal Architecture 기반의 일관된 구조가 멀티클라우드, AI 백엔드, Observability 전환의 기반이 되었다고 설명했습니다. 표준 인터페이스와 경계 분리가 이후 변경 비용을 크게 낮춘 사례를 다루었습니다.
![[미래를 담아낸 뼈대 4/7] 기반이 열어준 다음 문제](https://flex.team/blog/og/main.jpg)
Hexagonal Architecture와 표준화된 인프라에 투자해 멀티클라우드, AI 백엔드, Observability 전환 비용을 낮춘 사례를 다뤘습니다. 벤더가 바뀌어도 코드와 운영을 크게 흔들지 않는 구조의 효과를 설명했습니다.
![[미래를 담아낸 뼈대 4/7] 기반이 열어준 다음 문제](https://cdn.sanity.io/images/v31psllp/production/1ef0397273a55d5bcb29d4af10cb45caabdb533f-1684x1030.png)
Kubernetes 환경에서 OpenTelemetry를 도입해 로그·메트릭·트레이스를 통합 수집했습니다. 기존 정책과의 호환성과 데이터 무결성을 보완하며 MTTR도 개선했습니다.
Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

OpenTelemetry와 ClickHouse로 대용량 로그 파이프라인을 다시 설계한 사례를 소개했습니다. 하루 41TB 로그를 20초 이내 처리하고 비용을 크게 줄인 과정을 정리했습니다.
Claude Code의 사용 패턴과 비용, 성능을 팀 단위로 모니터링하는 4가지 방법을 정리했습니다. OpenTelemetry, SigNoz, Datadog, claude-code-otel로 ROI와 활용도를 확인할 수 있습니다.

OpenTelemetry와 Kafka를 활용해 마이크로서비스 환경의 Observability 파이프라인을 구축한 사례를 소개했습니다.\n자동 계측, 중앙 Collector, Signal별 분리로 안정성과 확장성을 높였습니다.
Amazon Bedrock AgentCore Observability로 AI 에이전트의 동작, 비용, 지연시간을 프로덕션 수준에서 추적하는 방법을 소개했습니다. OpenTelemetry 기반 자동 계측과 트레이스 분석으로 디버깅과 비용 최적화를 돕습니다.

무신사의 AI 인프라 구축과 하이브리드 운영 경험을 정리한 글입니다. 온프레미스 GPU와 AWS를 결합해 비용과 성능을 최적화하는 과정과 시행착오를 공유했습니다.
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.
OpenTelemetry와 Collector의 기본 개념, 생태계 구성요소를 정리한 발표 세션을 공유했습니다. SEER 전환 준비와 OpenTelemetry 기여 경험도 함께 소개했습니다.
Arize Phoenix로 Bedrock 멀티 에이전트의 실행 경로를 통합 추적하고 평가하는 방법을 소개했습니다. 지연시간, 토큰, 비용, MCP 동작까지 함께 관측해 디버깅과 최적화를 돕습니다.

Kubernetes 기반 마이크로서비스의 가시성을 확보하기 위해 OpenTelemetry와 SigNoz를 활용한 Observability 구축 과정을 정리했습니다. Collector 파이프라인과 Auto-Instrumentation, 운영 효율 개선 포인트를 함께 소개했습니다.
Strands Agents는 모델 중심 접근 방식으로 AI 에이전트를 간단하게 구축하고 배포할 수 있는 오픈 소스 SDK를 소개했습니다.\n프롬프트와 도구만 정의해 로컬 개발부터 프로덕션 관찰성까지 지원하는 점을 강조했습니다.

CI/CD 옵저버빌리티는 파이프라인 전 과정을 관찰해 병목과 장애 지점을 찾는 접근입니다.\n조직 목표에 맞는 메트릭을 선정하고 모니터링과 알림을 자동화하는 것이 중요합니다.

CI/CD 옵저버빌리티의 개념과 필요성, 구현 방식, 모범 관행을 정리했습니다. 조직 목표에 맞는 메트릭을 정하고 파이프라인 가시성을 높이는 방법을 다뤘습니다.

Prometheus 3.0의 주요 기능 개선과 변경 사항, 마이그레이션 시 주의점을 정리했습니다. 업그레이드 전 쿼리와 설정을 점검할 체크리스트도 함께 제시했습니다.
