데브옵스 아티클

필터 0

선택된 필터 없음

· 2026년 4월 9일

데브옵스

[기술동향] 차단기는 멀쩡한데 전원이 꺼졌다? – 데이터센터 순시 전압 강하(Voltage Sag) 원인과 대응방안

데이터센터에서 차단기가 멀쩡해도 전원이 꺼지는 원인을 순시 전압 강하로 설명했습니다. 전력 품질 모니터링과 UPS, DVR, 운영 절차로 대응하는 방법을 정리했습니다.

Config의 Amazon EKS Spot 기반 대규모 RFM 데이터 파이프라인 구축

EKS와 Spot, RabbitMQ, KEDA, Karpenter를 결합해 대규모 데이터 전처리 파이프라인을 구축했습니다. 단일 큐 병목을 없애 비용을 크게 줄이고 처리 시간도 수 일에서 수 시간으로 단축했습니다.

#Amazon EKS#Spot Instances

34005분

Amazon Bedrock 기반 Claude Code, 조직에서 안전하게 운영하기: LLM Gateway 구축 가이드

· 2026년 4월 7일

데브옵스

Amazon Bedrock 기반 Claude Code, 조직에서 안전하게 운영하기: LLM Gateway 구축 가이드

Amazon Bedrock 기반 Claude Code를 조직에서 안전하게 쓰기 위한 LLM Gateway 구축 방법을 설명했습니다. SSO 연동, 사용자별 예산 통제, 내부망 호출로 엔터프라이즈 운영성을 높였습니다.

#Amazon Bedrock#Claude Code

60005분

AWS에서 데이터 거버넌스 구현하기: 자동화, 태깅 및 라이프사이클 전략 – 1부

· 2026년 4월 7일

데브옵스

AWS에서 데이터 거버넌스 구현하기: 자동화, 태깅 및 라이프사이클 전략 – 1부

AWS에서 데이터 거버넌스를 구현하기 위한 기반 전략과 태깅, 분류 체계를 정리했습니다. 조직 준비와 자동화 중심의 운영 지표까지 함께 제시했습니다.

#AWS#데이터 거버넌스

62005분

여기어때 이벤트 기반 통합 알림 플랫폼 구축기 Part 2. How?

· 2026년 4월 3일

데브옵스

여기어때 이벤트 기반 통합 알림 플랫폼 구축기 Part 2. How?

여기어때의 통합 알림 플랫폼 NotiHub 설계와 핵심 의사결정을 정리했습니다. Kafka, Redis, HPA, 샤딩으로 안정성과 확장성을 함께 확보했습니다.

#Kafka#Redis

68005분

여기어때 이벤트 기반 통합 알림 플랫폼 구축기 Part 1. Why?

· 2026년 4월 3일

데브옵스

여기어때 이벤트 기반 통합 알림 플랫폼 구축기 Part 1. Why?

알림이 과잉·분산되며 중요한 신호가 묻히는 문제를 해결하기 위해 NotiHub를 구축했습니다. 기존 웹훅 호환성을 유지하면서 이벤트 기반 라우팅과 팀 단위 운영 체계를 도입했습니다.

#Kafka#Redis

115005분

EKS Application 로그를 Amazon Bedrock으로 자동 요약하는 시스템 구축하기

· 2026년 4월 2일

데브옵스

EKS Application 로그를 Amazon Bedrock으로 자동 요약하는 시스템 구축하기

EKS 애플리케이션 로그를 Athena와 Amazon Bedrock으로 자동 분석하는 파이프라인을 구축했습니다. 수작업 로그 분석을 줄이고 장애 원인과 패턴을 빠르게 파악하도록 구성했습니다.

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS는 왜 인터커넥트 기술로 EFA를 사용하는가?

분산 트레이닝에서 GPU 간 통신 오버헤드가 큰 병목이므로 인터커넥트 선택이 중요하다고 설명했습니다. AWS는 클라우드 환경의 멀티테넌시와 운영 효율성 때문에 EFA를 선택했다고 정리했습니다.

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

LINE Ads의 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 사례입니다. 성능 향상, 비용 절감, 버전 유연성을 함께 확보했습니다.

QA가 서버를 죽여본 이유 – Host Level 카오스 엔지니어링 테스트

Host Level 카오스 엔지니어링으로 인프라 장애를 직접 재현하고 QA 관점에서 고객 경험과 데이터 정합성을 검증했습니다. 이를 통해 알림 체계, 자동 복구, 정기 테스트 프로세스를 강화했습니다.

케클s피드 3월호｜AI 시대, 인프라를 다시 생각하다

AI 확산에 맞춰 인프라와 운영 전략이 어떻게 바뀌는지 여러 주제로 살펴봤습니다. 쿠버네티스 네트워크, 공공 AX, 복원력, AI 거버넌스 흐름을 함께 정리했습니다.

Agent 로 최적화 하는 EKS 운영: AWS DevOps Agent + K8s Operator로 MTTR 줄이기

EKS 장애를 자동 감지해 AWS DevOps Agent 조사로 연결하는 Operator 활용법을 소개했습니다.\n로그와 이벤트를 즉시 수집해 MTTR을 줄이고, Runbook과 GitHub 연동으로 원인 분석을 고도화했습니다.

#EKS#Kubernetes Operator

68005분