
데브옵스
딜라이트룸의 ‘Amazon EKS Auto Mode’를 활용한 멀티 클러스터 운영 효율화 사례
두줄요약
딜라이트룸은 EKS Auto Mode로 멀티 클러스터 운영 복잡도를 크게 줄였습니다. 또한 로그 수집과 진단 자동화를 더해 장애 대응력도 높였습니다.
문제 상황
- 앱 인수와 사업 확장으로 EKS 클러스터 수가 늘어나 소규모 인프라 팀의 운영 부담이 급증한 상황
- 기존 EKS 업그레이드가 7개 컴포넌트 개별 관리, 호환성 매트릭스 확인, 블루-그린 전환까지 필요해 클러스터당 4~6시간 소요
원인 분석
- Self-managed Karpenter와 VPC CNI, kube-proxy, CoreDNS, EBS CSI driver 등 관리 대상이 분산된 구조
- EKS Auto Mode 전환 전에는 레이블 체계 차이, CoreDNS 부트스트랩 지연 같은 환경별 이슈를 직접 추적하기 어려운 제약
해결 방법
- Pulumi 기반 IaC로 인플레이스 전환과 클러스터별 설정 표준화
- Karpenter는 일시 제거 후 EKS Auto Mode를 활성화하는 우회 전략 적용
- CloudWatch Vended Logs와 NodeDiagnostic 자동화 스크립트로 옵저버빌리티 보강
적용해볼 점
- 멀티 클러스터 운영에서는 관리형 컴포넌트로 책임 경계를 AWS 쪽으로 옮기는 방안 검토
- 노드 레이블 체계 변경과 스케줄링 조건을 전환 전 사전 점검
- 노드 단위 장애를 대비해 로그 수집과 진단 절차 자동화
