세 개의 플랫폼, 하나의 배포 관측
세 플랫폼에 흩어진 배포 이력을 APM 트레이스 기반 신호로 통합했습니다.\n장애 스레드에 직전 배포를 자동 첨부해 대응 속도를 높였습니다.
EKS 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
20개 표시
세 플랫폼에 흩어진 배포 이력을 APM 트레이스 기반 신호로 통합했습니다.\n장애 스레드에 직전 배포를 자동 첨부해 대응 속도를 높였습니다.
Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.
MSA 장애 대응의 복잡성을 줄이기 위해 RCA 에이전트 SentryOn을 도입한 과정을 소개했습니다. 도메인 지식, 데이터 정제, Skill 분리, 프롬프트 캐싱으로 정확도와 효율을 높였습니다.
HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.

딜라이트룸은 EKS Auto Mode로 멀티 클러스터 운영 복잡도를 크게 줄였습니다. 또한 로그 수집과 진단 자동화를 더해 장애 대응력도 높였습니다.

EKS + ALB 환경에서 Blue/Green과 기본 Canary의 Promote 시 503이 발생하는 원인을 분석했습니다. Argo Rollouts Canary PingPong으로 selector 변경 없이 weight만 교대해 문제를 해결했습니다.
입사 10일 만에 인프라 온보딩을 문서, 검증, AI 대화의 3계층 구조로 다시 설계했습니다. 정책 자동화와 Multi-Agent 실습까지 더해 신규 입사자 경험을 개선했습니다.
GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.

Job 워크로드는 중단에 취약해 EKS 노드그룹 오토스케일링이 어려웠습니다. 이를 해결하기 위해 PodAffinity로 bin-packing을 유도하고, 애노테이션으로 축소 중 종료를 막았습니다.
Job 워크로드를 위한 EKS Node Group 오토스케일링 적용 과정을 정리한 글입니다. Bin-packing과 강제 종료 방지, kubelet maxPods 조정까지 함께 다뤘습니다.
EKS 애플리케이션 로그를 Athena와 Amazon Bedrock으로 자동 분석하는 파이프라인을 구축했습니다. 수작업 로그 분석을 줄이고 장애 원인과 패턴을 빠르게 파악하도록 구성했습니다.
EKS 장애를 자동 감지해 AWS DevOps Agent 조사로 연결하는 Operator 활용법을 소개했습니다.\n로그와 이벤트를 즉시 수집해 MTTR을 줄이고, Runbook과 GitHub 연동으로 원인 분석을 고도화했습니다.

여기어때는 Secrethub를 EKS 환경에 먼저 적용하고 ESO로 Secret을 자동 동기화하도록 설계했습니다. Spring Boot 공통 Loader와 Shadow Jar를 통해 전사 확산과 의존성 충돌 방지를 함께 해결했습니다.
민감 정보가 서비스별로 흩어져 있던 한계를 해결하기 위해 중앙 관리 플랫폼 Secrethub를 구축했습니다. 접근 통제와 감사, 권한 일원화, 개발 편의성을 위해 외부 솔루션 대신 자체 개발을 선택했습니다.
Stage 환경에서 Locust 트래픽을 기반으로 카오스 실험 결과를 정리했습니다. Pod 지연과 외부 API 차단이 서비스와 사용자 경험에 미치는 영향을 확인하고 개선 포인트를 도출했습니다.
무신사가 LLM 기반 코드 리뷰를 GitHub Actions와 Composite Action으로 표준화해 전사 인프라로 구축했습니다. 봇 노이즈 정리와 팀별 유연성을 함께 확보해 운영 가능한 AI 리뷰 체계를 만들었습니다.
SageMaker HyperPod에 Karpenter 기반 관리형 노드 오토스케일링이 추가되었습니다. KEDA와 함께 사용해 추론·학습 워크로드를 메트릭 기반으로 탄력적으로 확장할 수 있습니다.

Amazon ECS 기반 인프라를 Amazon EKS로 전환해 운영 유연성을 높이고 GitOps 체계를 구축했습니다. Binpacking과 Spot 전략으로 자원 활용률과 비용 효율도 크게 개선했습니다.

2025 AWS re:Invent 현장에서 확인한 AI·운영·보안의 기술 흐름을 정리했습니다. EKS 운영과 DevSecOps 자동화 사례를 중심으로 실무 인사이트를 공유했습니다.

Amazon EKS Auto Mode의 내부 구성과 동작 방식을 소개했습니다. 데이터 플레인 운영, 보안 패치, 노드 최적화를 AWS가 자동 처리하는 흐름을 설명했습니다.
