Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)

Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)
MSA 장애 대응의 복잡성을 줄이기 위해 RCA 에이전트 SentryOn을 도입한 과정을 소개했습니다. 도메인 지식, 데이터 정제, Skill 분리, 프롬프트 캐싱으로 정확도와 효율을 높였습니다.
#AIOps#AWS
4005분

MSA 장애 대응의 복잡성을 줄이기 위해 RCA 에이전트 SentryOn을 도입한 과정을 소개했습니다. 도메인 지식, 데이터 정제, Skill 분리, 프롬프트 캐싱으로 정확도와 효율을 높였습니다.


GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.


삼성계정 서비스의 장애 대응을 Multi-Agent 기반 Agentic AIOps로 자동화한 사례를 소개했습니다. 관측 데이터 수집, RCA, 조치 제안을 분리해 3분 47초 만에 분석을 완료했습니다.

장애 대응에서 가장 중요한 초동 조치와 이를 관리하는 라이프사이클을 정리했습니다. 시간 기반 메트릭으로 병목을 찾고 운영 개선으로 연결하는 방식을 소개했습니다.


AI가 SRE의 역할을 장애 대응 중심에서 예측과 품질 관리 중심으로 바꾸고 있음을 설명했습니다. 메르카리와 AIOps 사례를 통해 AI 신뢰성과 인간 협업의 필요성을 정리했습니다.


AI가 SRE를 장애 대응자에서 예측·자동화 중심의 운영 전략가로 바꾸고 있습니다. 메르카리 사례처럼 품질 검증과 안전장치를 갖춘 인간-AI 협업이 중요합니다.

무진장 이벤트의 초고트래픽을 버티기 위해 전시, 주문, 재고, 쿠폰, 운영 전반을 재설계했습니다. CQRS, 이벤트 기반 처리, AIOps와 피처 플래그로 안정성과 대응력을 높였습니다.