모든 태그
태그

Observability 기술 블로그 글

Observability 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 20최신 20개 표시
홈에서 필터

최신 게시글

20개 표시

AI

Agentic AI 기반 플랫폼 – Part3 : AgentCore Policy, Evaluation, Observability로 기업 운영 체계 구축하기

Amazon Bedrock AgentCore의 Policy, Evaluation, Observability를 결합해 기업용 Agent 운영 체계를 설명했습니다. 정책 제어, 품질 평가, 실시간 추적의 역할과 연계를 정리했습니다.

#AWS#MCP#LLM
2300

데브옵스

옵저버빌리티 Right-Sizing: 여기어때에서 기준을 만드는 법

Kubernetes Pod의 Request와 Limit을 실제 사용 패턴에 맞게 조정하는 Right-Sizing 기준 수립 과정을 다뤘습니다. P95, 버퍼율, 컴포넌트 특성, Throttling 지표를 함께 고려하는 방법을 정리했습니다.

#Kubernetes#Grafana#OpenTelemetry
6200

아키텍처

[기술이 장르가 되는 곳, kt cloud] 케클러 인터뷰 시리즈 #1 kt cloud PLATFORM 재설계 이야기

kt cloud PLATFORM을 Cloud Native와 AI 시대에 맞게 재설계한 과정을 소개했습니다. 관측 가능성, IAM, VPC, DR까지 통합해 확장성과 운영성을 높였습니다.

#cloud#Observability#IAM
2300

아키텍처

신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례

SLI/SLO를 서비스 관점에서 정의하고 운영에 적용하는 방법을 정리했습니다. 오류 예산과 대시보드를 활용해 신뢰성과 개발 리소스 균형을 맞추는 사례를 소개했습니다.

#SRE#SLO#SLI
3200

아키텍처

[미래를 담아낸 뼈대 4/7] 기반이 열어준 다음 문제

Hexagonal Architecture와 표준화된 인프라에 투자해 멀티클라우드, AI 백엔드, Observability 전환 비용을 낮춘 사례를 다뤘습니다. 벤더가 바뀌어도 코드와 운영을 크게 흔들지 않는 구조의 효과를 설명했습니다.

#Hexagonal Architecture#멀티클라우드#LLM
4700

데브옵스

OpenTelemetry 도입기

Kubernetes 환경에서 OpenTelemetry를 도입해 로그·메트릭·트레이스를 통합 수집했습니다. 기존 정책과의 호환성과 데이터 무결성을 보완하며 MTTR도 개선했습니다.

#OpenTelemetry#Kubernetes#MSA
2500

AI

Claude Code 비용/사용량을 한눈에: AWS에 Observability 플랫폼 구축하기

Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

#AWS#Observability#OpenTelemetry
9800

데브옵스

여기어때 Secret 플랫폼 구축기 Part 3: 시크릿 저장소를 운영 가능한 상태로 만들기 — 컨테이너화부터 CI/CD, 로그 수집까지

Secrethub를 운영 가능한 상태로 만들기 위해 컨테이너화, CI/CD, 로그 수집 구조를 정리했습니다. 서비스 단위가 아닌 플랫폼 레벨에서 관리 가능한 구조를 목표로 표준화를 진행했습니다.

#Docker#CI/CD#GitLab
4600

아키텍처

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클

장애 대응에서 가장 중요한 초동 조치와 이를 관리하는 라이프사이클을 정리했습니다. 시간 기반 메트릭으로 병목을 찾고 운영 개선으로 연결하는 방식을 소개했습니다.

#SRE#모니터링#AIOps
19000

데브옵스

OpenTelemetry와 Kafka를 활용한 안정적인 Observability 구축기

OpenTelemetry와 Kafka를 활용해 마이크로서비스 환경의 Observability 파이프라인을 구축한 사례를 소개했습니다.\n자동 계측, 중앙 Collector, Signal별 분리로 안정성과 확장성을 높였습니다.

#OpenTelemetry#Kafka#Observability
7900

AI

LLMOps로 확장하는 AI플랫폼 2.0

AI플랫폼 2.0에서 LLMOps를 지원하기 위한 운영 과제와 대응 방안을 정리했습니다. Studio, SDK, API Gateway, Labs를 중심으로 프롬프트 관리와 관측성, 보안을 강화했습니다.

#LLM#MLOps#API Gateway
2900

AI

AI 시대, 요즘 테스트 – UI 에서 API 중심으로

AI 시대에는 UI 중심 테스트보다 API 중심 테스트와 시나리오 기반 검증이 중요해졌습니다. 핵심 플로우만 UI로 확인하고, 나머지는 자동화와 Observability로 품질을 보장해야 했습니다.

#test#API#Observability
10600

데브옵스

표준을 통한 마이크로 서비스의 Observability 구축기

Kubernetes 기반 마이크로서비스의 가시성을 확보하기 위해 OpenTelemetry와 SigNoz를 활용한 Observability 구축 과정을 정리했습니다. Collector 파이프라인과 Auto-Instrumentation, 운영 효율 개선 포인트를 함께 소개했습니다.

#Kubernetes#OpenTelemetry#observability
4300

데브옵스

Vector + VRL로 완성하는 클라우드 네이티브 Observability 실전 가이드

Vector와 VRL을 활용해 로그·메트릭을 수집, 변환, 라우팅하는 Observability 파이프라인을 소개했습니다. Kubernetes 배포와 Loki, Elasticsearch, S3 연동까지 실습 중심으로 설명했습니다.

#Vector#VRL#Observability
1400

데브옵스

CI/CD 옵저버빌리티 도입 전략 가이드

CI/CD 옵저버빌리티는 파이프라인 전 과정을 관찰해 병목과 장애 지점을 찾는 접근입니다.\n조직 목표에 맞는 메트릭을 선정하고 모니터링과 알림을 자동화하는 것이 중요합니다.

#CI/CD#Observability#OpenTelemetry
1400

데브옵스

CI/CD 옵저버빌리티 도입 전략 가이드

CI/CD 옵저버빌리티의 개념과 필요성, 구현 방식, 모범 관행을 정리했습니다. 조직 목표에 맞는 메트릭을 정하고 파이프라인 가시성을 높이는 방법을 다뤘습니다.

#CI/CD#OpenTelemetry#Grafana
5300

데브옵스

모니터링 중앙화를 구축하는 가장 쉬운 방법, AWS CloudWatch cross-account-observability

AWS CloudWatch의 Cross-account-observability로 여러 계정의 모니터링을 중앙화하는 방법을 소개했습니다. 데이터 복제 없이 비용 효율적으로 운영할 수 있지만, 리전 제한과 Trace 과금은 주의가 필요합니다.

#AWS#CloudWatch#observability
8300

데브옵스

100여개의 대출 기관 API, 자동으로 운영하기

100여 개 대출 기관 API의 성공률을 메트릭과 알림으로 자동 모니터링하도록 개선했습니다. 그 결과 장애를 더 빠르게 발견하고 대응해 API 성공률을 99%까지 올렸습니다.

#AWS#모니터링#API
2800

기타

토스가 직접 소개하는 SLASH24 현장 A to Z

토스의 오프라인 개발자 컨퍼런스 SLASH24 현장을 소개한 글입니다. 서버, 프론트엔드, 데이터, 데브옵스 세션과 데브챗, 채용 상담 등 행사 구성을 함께 정리했습니다.

#컨퍼런스#MSA#MySQL
2200

데브옵스

DevOps LGTM 스택 도입기

AWS EKS 기반 MSA 환경에서 LGTM 스택을 도입해 관측 체계를 통합했습니다. 메트릭, 로그, 트레이스를 연결해 장애 파악과 운영 효율을 개선했습니다.

#Kubernetes#MSA#Observability
3800