

SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임
AI가 SRE의 역할을 장애 대응 중심에서 예측과 품질 관리 중심으로 바꾸고 있음을 설명했습니다. 메르카리와 AIOps 사례를 통해 AI 신뢰성과 인간 협업의 필요성을 정리했습니다.
새로운 기술 블로그가 추가되었어요


AI가 SRE의 역할을 장애 대응 중심에서 예측과 품질 관리 중심으로 바꾸고 있음을 설명했습니다. 메르카리와 AIOps 사례를 통해 AI 신뢰성과 인간 협업의 필요성을 정리했습니다.


AI가 SRE를 장애 대응자에서 예측·자동화 중심의 운영 전략가로 바꾸고 있습니다. 메르카리 사례처럼 품질 검증과 안전장치를 갖춘 인간-AI 협업이 중요합니다.


AWS Network Firewall의 다중 VPC Endpoint와 Transit Gateway 네이티브 통합 기능을 소개했습니다. 단일 방화벽으로 여러 VPC 트래픽을 제어하는 방법과 운영 시 주의점을 정리했습니다.


CloudWatch Database Insights로 RDS와 Aurora 문제를 진단하는 실제 사례를 정리했습니다. 인덱스 부재, 스토리지 부족, 메모리 부족 상황에서 원인 파악과 조치 흐름을 보여줍니다.


생성형 AI와 데브옵스를 결합해 소프트웨어 딜리버리를 가속화하는 방안을 소개했습니다. 코드 이해와 테스트 생성, SDLC 병목 분석, 이슈 자동화 사례를 중심으로 설명했습니다.


삼성 계정의 리전 단위 장애 대응을 위해 Active-Active DR 아키텍처와 트래픽 전환 체계를 고도화한 사례입니다. Route 53 ARC와 CloudFront를 적용해 잔여 트래픽과 네트워크 지연을 줄였습니다.


삼성계정은 대규모 트래픽 속에서도 무중단 EKS 업그레이드를 위해 멀티 클러스터와 DNS 기반 트래픽 전환을 적용했습니다. 한 달간 3개 리전, 6개 클러스터를 전환하며 연동 서비스 이슈 없이 업그레이드를 마쳤습니다.
![[AWS Summit Korea 2025] 오픈소스로 점검하는 AWS 인프라 보안: 자동화로 시작하는 클라우드 보안 혁신](https://tech.cloud.nongshim.co.kr/wp-content/uploads/blog_main.png)

AWS 설정 오류로 생기는 보안 위험을 줄이기 위해 자동 점검의 필요성을 다뤘습니다. Prowler와 Service Screener로 CI/CD와 정기 점검을 구성하는 방법을 소개했습니다.

Nginx 설정을 공통화하고 멀티사이트 구조로 통합한 인프라 개선 사례를 소개했습니다. Promtail과 Loki, Ansible을 연계해 로그 수집과 배포 자동화까지 확장했습니다.


ExternalDNS로 EKS Ingress 도메인을 Route53에 자동 등록·관리하는 구성을 설명했습니다. 교차 계정 IAM 설정과 Helm 옵션, Ingress annotation, 삭제 동작 및 주의점까지 정리했습니다.


기존 모니터링의 한계를 짚고 옵저버빌리티의 필요성을 설명했습니다. 메트릭·로그·트레이스를 연결해 원인 분석과 장애 대응을 더 정확하게 만드는 방향을 제시했습니다.

QA 대응 프로세스에 GitLab, Jenkins, Jira Automation을 연동해 수동 작업을 자동화했습니다.그 결과 개발자 후속 대응 단계를 절반으로 줄여 업무 흐름을 개선했습니다.