필터 1
Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)
롯데ON
· 2026년 6월 4일
데브옵스

Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)

MSA 장애 대응의 복잡성을 줄이기 위해 RCA 에이전트 SentryOn을 도입한 과정을 소개했습니다. 도메인 지식, 데이터 정제, Skill 분리, 프롬프트 캐싱으로 정확도와 효율을 높였습니다.

#AIOps#AWS
4005분
GS리테일의 AIOps Agent 기반 운영 자동화 혁신
AWS
· 2026년 4월 16일
AI

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.

#AIOps#Amazon Bedrock
67005분
Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기
AWS
· 2026년 3월 27일
AI

Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기

삼성계정 서비스의 장애 대응을 Multi-Agent 기반 Agentic AIOps로 자동화한 사례를 소개했습니다. 관측 데이터 수집, RCA, 조치 제안을 분리해 3분 47초 만에 분석을 완료했습니다.

#AIOps#LLM
37005분
장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클
우아한 형제들
· 2026년 2월 3일
아키텍처

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클

장애 대응에서 가장 중요한 초동 조치와 이를 관리하는 라이프사이클을 정리했습니다. 시간 기반 메트릭으로 병목을 찾고 운영 개선으로 연결하는 방식을 소개했습니다.

#SRE#모니터링
189005분
SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임
인포그랩
· 2025년 8월 13일
데브옵스

SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임

AI가 SRE의 역할을 장애 대응 중심에서 예측과 품질 관리 중심으로 바꾸고 있음을 설명했습니다. 메르카리와 AIOps 사례를 통해 AI 신뢰성과 인간 협업의 필요성을 정리했습니다.

#SRE#AIOps
13005분
SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임
인포그랩
· 2025년 8월 13일
데브옵스

SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임

AI가 SRE를 장애 대응자에서 예측·자동화 중심의 운영 전략가로 바꾸고 있습니다. 메르카리 사례처럼 품질 검증과 안전장치를 갖춘 인간-AI 협업이 중요합니다.

#SRE#AIOps
80005분
무진장 힘들었지만 무진장 성장한 개발 이야기
무신사
· 2025년 7월 1일
아키텍처

무진장 힘들었지만 무진장 성장한 개발 이야기

무진장 이벤트의 초고트래픽을 버티기 위해 전시, 주문, 재고, 쿠폰, 운영 전반을 재설계했습니다. CQRS, 이벤트 기반 처리, AIOps와 피처 플래그로 안정성과 대응력을 높였습니다.

#CQRS#Redis
417005분