목록 보기
Planet AD 서비스 안정화 가이드
데브옵스

Planet AD 서비스 안정화 가이드

SK플래닛
SK플래닛
2024년 4월 5일

두줄요약

Planet AD의 EKS, DNS, DB, DynamoDB 운영 이슈를 안정화한 사례를 정리했습니다. 또한 KEDA, RDS Proxy, 설정 최적화로 AWS 비용도 약 27% 절감했습니다.

문제 상황

  • EKS 오토스케일링 중 IP Pool 부족으로 노드 생성이 Pending 되는 현상
  • EKS 1.24 업그레이드 후 Containerd 전환으로 localhost 해석이 IPv6로 치우치며 500 에러 증가
  • 트래픽 스파이크에 비해 수동형 오토스케일링이 늦어 요청 실패와 DB 연결 실패 발생

원인 분석

  • EKS 기본 Warm Pool 설정으로 사용하지 않는 IP가 과다 확보되며 새 노드에 할당할 IP 부족
  • nginx upstream이 localhost를 사용할 때 IPv4/IPv6 혼선으로 upstream 접속 실패
  • CPU/RAM 기반 스케일링만으로는 트래픽 패턴을 선제 반영하기 어려움

해결 방법

  • WARM_ENI_TARGET 제거, WARM_IP_TARGET과 MINIMUM_IP_TARGET 조합으로 IP 낭비와 부족 문제 완화
  • localhost 대신 127.0.0.1 명시 및 IPv6 비활성화로 500 에러 방지
  • KEDA cron 스케일링, CPA로 CoreDNS 확장, RDS Proxy로 DB Connection 완화

적용해볼 점

  • 트래픽 패턴에 맞춘 선제 스케일링과 보조 오토스케일러 도입 검토
  • 쿠버네티스 네트워크와 런타임 변경 시 IPv4/IPv6 동작 점검
  • AWS 비용 최적화와 안정화를 함께 보는 운영 지표 설계

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...