

백패커의 Amazon EKS 운영 최적화 여정 2부: 운영 심화 및 장애 대응 사례
백패커의 Amazon EKS 운영 중 발생한 Spot 인스턴스 종료와 트래픽 급증 장애 사례를 정리했습니다. AZ Rebalance 조정, Custom Scheduler, nf_conntrack 튜닝과 모니터링 강화로 안정성을 높였습니다.
새로운 기술 블로그가 추가되었어요


백패커의 Amazon EKS 운영 중 발생한 Spot 인스턴스 종료와 트래픽 급증 장애 사례를 정리했습니다. AZ Rebalance 조정, Custom Scheduler, nf_conntrack 튜닝과 모니터링 강화로 안정성을 높였습니다.


AWS GPU 스팟 인스턴스와 EKS로 GPU 모니터링 PoC를 구축하는 과정을 정리했습니다. NVIDIA GPU Operator, Prometheus, Grafana로 GPU 메트릭을 수집하고 시각화했습니다.


백패커의 Amazon EKS 운영 중 발생한 CoreDNS, MySQL, Istio 관련 이슈와 해결 과정을 정리했습니다. 운영 환경에 맞춘 튜닝으로 안정성과 장애 대응력을 높인 사례를 소개했습니다.


GitLab Pipeline Execution Policy로 CI/CD 보안과 컴플라이언스를 중앙에서 강제하는 방법을 다루었습니다. 실습 예제로 정책 생성, 적용, 검증 절차까지 정리했습니다.


GitLab Pipeline Execution Policy로 CI/CD 보안과 컴플라이언스를 중앙에서 자동 강제하는 방법을 설명했습니다. 기존 파이프라인에 정책을 주입하거나 대체하는 적용 방식과 실습 절차를 정리했습니다.
무신사 Web 테스트 자동화 2.0의 개선 내용을 정리한 글입니다. GitHub Actions, DB화, step/fixture 구조로 유지보수성과 실행 효율을 높였습니다.


AWS DataZone에서 MWAA와 OpenLineage를 연결해 Airflow 데이터 계보를 작성하는 방법을 설명했습니다. CloudWatch 로그, SQL 파싱, DataZone API를 조합해 입력·출력 테이블 계보를 업데이트했습니다.


vCluster로 Kubernetes 클러스터 내부에 가상 클러스터를 만들고 격리하는 방법을 실습 중심으로 설명했습니다. 설치, 연결, 배포, 네트워크 동작까지 확인하며 운영 효율화 포인트를 정리했습니다.


vCluster로 기존 Kubernetes 클러스터 안에 가상 클러스터를 만들고 격리 환경을 구성하는 방법을 다루었습니다. 설치, 배포, 네트워크 동작까지 실습하며 멀티 테넌시 운영 방식을 설명했습니다.


Runway의 PostgreSQL 인프라를 K8s 환경에 맞게 개선한 과정을 정리했습니다. Bitnami HA의 Split Brain 문제를 겪은 뒤 CloudNativePG로 전환해 자동 복구와 안정성을 높였습니다.


AWS Lambda와 PyIceberg로 Amazon S3 Tables에 데이터를 적재하는 구성을 소개했습니다. 권한 설정과 서비스 비교를 함께 다뤄 워크로드에 맞는 선택 기준도 제시했습니다.


디프로모션은 성장 과정에서 기존 데이터 구조의 한계를 보완하기 위해 DynamoDB, zero-ETL, ElastiCache Serverless를 도입했습니다. 실시간 동기화와 캐시 최적화로 응답 속도와 운영 효율을 함께 개선했습니다.