

여기어때 CI/CD 개선기 Part 3: Helm Chart Registry 도입기
Helm Chart를 서비스별로 분산 관리하던 구조를 중앙 레지스트리와 ECR 기반으로 재정비했습니다. 버전 관리와 롤백, 환경별 배포 재현성을 높여 CI/CD 운영 효율을 개선했습니다.


Helm Chart를 서비스별로 분산 관리하던 구조를 중앙 레지스트리와 ECR 기반으로 재정비했습니다. 버전 관리와 롤백, 환경별 배포 재현성을 높여 CI/CD 운영 효율을 개선했습니다.


D-KMS의 고가용성을 위해 멀티 클러스터 이중화와 무중단 Canary 배포를 적용했습니다. 복잡한 배포 절차는 도구화와 GitHub Actions 자동화로 효율화했습니다.


삼성 계정의 리전 단위 장애 대응을 위해 Active-Active DR 아키텍처와 트래픽 전환 체계를 고도화한 사례입니다. Route 53 ARC와 CloudFront를 적용해 잔여 트래픽과 네트워크 지연을 줄였습니다.


삼성계정은 대규모 트래픽 속에서도 무중단 EKS 업그레이드를 위해 멀티 클러스터와 DNS 기반 트래픽 전환을 적용했습니다. 한 달간 3개 리전, 6개 클러스터를 전환하며 연동 서비스 이슈 없이 업그레이드를 마쳤습니다.


ExternalDNS로 EKS Ingress 도메인을 Route53에 자동 등록·관리하는 구성을 설명했습니다. 교차 계정 IAM 설정과 Helm 옵션, Ingress annotation, 삭제 동작 및 주의점까지 정리했습니다.


Amazon Q Developer로 애플리케이션 복원력을 높이는 방법을 소개했습니다. 단일 AZ 아키텍처를 다중 AZ, 오토스케일링, 캐싱, DR 전략으로 개선하는 사례를 정리했습니다.


멀티 EKS 운영의 복잡성을 줄이기 위해 Hub-and-Spoke 구조와 GitOps 자동화를 소개했습니다. Blue-Green 전환과 통합 관찰성으로 무중단 업그레이드와 안정적 운영을 지원합니다.

AWS Summit Seoul Community Session 발표 후기와 준비 과정을 공유한 글입니다. EKS 하이브리드 활용 사례와 CDC 기반 실시간 통합 아키텍처 경험, 발표 준비에서 얻은 교훈을 정리했습니다.


Nexthink는 15분 폴링 기반 알림의 한계를 해결하기 위해 Amazon Managed Service for Apache Flink를 도입했습니다. 이벤트 시간 처리와 상태 관리로 VDI 실시간 알림을 확장 가능하게 구축했습니다.

카카오뱅크 컨테이너플랫폼팀의 AWS GameDay 2025 우승 경험을 공유했습니다. 실제 장애 대응과 팀워크, 메시지 큐 최적화 전략이 승부를 갈랐습니다.

멀티 클러스터와 하이브리드 클러스터로 고가용성 인프라를 설계한 경험을 공유했습니다. GSLB, NodeLocal DNSCache, 분산 Control Plane로 장애 대응과 운영 유연성을 높였습니다.


AWS GPU 스팟 인스턴스와 EKS로 GPU 모니터링 PoC를 구축하는 과정을 정리했습니다. NVIDIA GPU Operator, Prometheus, Grafana로 GPU 메트릭을 수집하고 시각화했습니다.