
[기술동향] 차단기는 멀쩡한데 전원이 꺼졌다? – 데이터센터 순시 전압 강하(Voltage Sag) 원인과 대응방안
데이터센터에서 차단기가 멀쩡해도 전원이 꺼지는 원인을 순시 전압 강하로 설명했습니다. 전력 품질 모니터링과 UPS, DVR, 운영 절차로 대응하는 방법을 정리했습니다.

데이터센터에서 차단기가 멀쩡해도 전원이 꺼지는 원인을 순시 전압 강하로 설명했습니다. 전력 품질 모니터링과 UPS, DVR, 운영 절차로 대응하는 방법을 정리했습니다.


EKS와 Spot, RabbitMQ, KEDA, Karpenter를 결합해 대규모 데이터 전처리 파이프라인을 구축했습니다. 단일 큐 병목을 없애 비용을 크게 줄이고 처리 시간도 수 일에서 수 시간으로 단축했습니다.


Amazon Bedrock 기반 Claude Code를 조직에서 안전하게 쓰기 위한 LLM Gateway 구축 방법을 설명했습니다. SSO 연동, 사용자별 예산 통제, 내부망 호출로 엔터프라이즈 운영성을 높였습니다.


AWS에서 데이터 거버넌스를 구현하기 위한 기반 전략과 태깅, 분류 체계를 정리했습니다. 조직 준비와 자동화 중심의 운영 지표까지 함께 제시했습니다.

여기어때의 통합 알림 플랫폼 NotiHub 설계와 핵심 의사결정을 정리했습니다. Kafka, Redis, HPA, 샤딩으로 안정성과 확장성을 함께 확보했습니다.

알림이 과잉·분산되며 중요한 신호가 묻히는 문제를 해결하기 위해 NotiHub를 구축했습니다. 기존 웹훅 호환성을 유지하면서 이벤트 기반 라우팅과 팀 단위 운영 체계를 도입했습니다.

EKS 애플리케이션 로그를 Athena와 Amazon Bedrock으로 자동 분석하는 파이프라인을 구축했습니다. 수작업 로그 분석을 줄이고 장애 원인과 패턴을 빠르게 파악하도록 구성했습니다.


분산 트레이닝에서 GPU 간 통신 오버헤드가 큰 병목이므로 인터커넥트 선택이 중요하다고 설명했습니다. AWS는 클라우드 환경의 멀티테넌시와 운영 효율성 때문에 EFA를 선택했다고 정리했습니다.

LINE Ads의 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 사례입니다. 성능 향상, 비용 절감, 버전 유연성을 함께 확보했습니다.

Host Level 카오스 엔지니어링으로 인프라 장애를 직접 재현하고 QA 관점에서 고객 경험과 데이터 정합성을 검증했습니다. 이를 통해 알림 체계, 자동 복구, 정기 테스트 프로세스를 강화했습니다.

AI 확산에 맞춰 인프라와 운영 전략이 어떻게 바뀌는지 여러 주제로 살펴봤습니다. 쿠버네티스 네트워크, 공공 AX, 복원력, AI 거버넌스 흐름을 함께 정리했습니다.


EKS 장애를 자동 감지해 AWS DevOps Agent 조사로 연결하는 Operator 활용법을 소개했습니다.\n로그와 이벤트를 즉시 수집해 MTTR을 줄이고, Runbook과 GitHub 연동으로 원인 분석을 고도화했습니다.