모든 태그
태그

EKS 기술 블로그 글

EKS 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 88최신 20개 표시
홈에서 필터

최신 게시글

20개 표시

데브옵스

세 개의 플랫폼, 하나의 배포 관측

세 플랫폼에 흩어진 배포 이력을 APM 트레이스 기반 신호로 통합했습니다.\n장애 스레드에 직전 배포를 자동 첨부해 대응 속도를 높였습니다.

#EKS#ECS#APM
200

데브옵스

Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기

Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.

#Amazon EKS#NVIDIA OSMO#Kubernetes
2500

데브옵스

Agentic AIOps — RCA 에이전트 ‘SentryOn’ 도입기 (feat. Strands SDK)

MSA 장애 대응의 복잡성을 줄이기 위해 RCA 에이전트 SentryOn을 도입한 과정을 소개했습니다. 도메인 지식, 데이터 정제, Skill 분리, 프롬프트 캐싱으로 정확도와 효율을 높였습니다.

#AIOps#AWS#EKS
500

데브옵스

AWS DevOps Agent와 Custom MCP 서버를 활용한 HYBE의 인시던트 자동 조사 체계 구축 사례

HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.

#AWS DevOps Agent#MCP#EKS
4500

데브옵스

딜라이트룸의 ‘Amazon EKS Auto Mode’를 활용한 멀티 클러스터 운영 효율화 사례

딜라이트룸은 EKS Auto Mode로 멀티 클러스터 운영 복잡도를 크게 줄였습니다. 또한 로그 수집과 진단 자동화를 더해 장애 대응력도 높였습니다.

#Kubernetes#EKS#AWS
3300

데브옵스

EKS + ALB 환경에서 Argo Rollouts 503 에러 없는 카나리 배포 적용기

EKS + ALB 환경에서 Blue/Green과 기본 Canary의 Promote 시 503이 발생하는 원인을 분석했습니다. Argo Rollouts Canary PingPong으로 selector 변경 없이 weight만 교대해 문제를 해결했습니다.

#EKS#ALB#Argo Rollouts
7300

AI

입사 10일, AI로 인프라팀 온보딩을 다시 설계한 이야기

입사 10일 만에 인프라 온보딩을 문서, 검증, AI 대화의 3계층 구조로 다시 설계했습니다. 정책 자동화와 Multi-Agent 실습까지 더해 신규 입사자 경험을 개선했습니다.

#AWS#EKS#Claude Code
200

AI

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.

#AIOps#Amazon Bedrock#MCP
6800

데브옵스

Our Journey to Autoscaling EKS Node Groups for Job Workloads

Job 워크로드는 중단에 취약해 EKS 노드그룹 오토스케일링이 어려웠습니다. 이를 해결하기 위해 PodAffinity로 bin-packing을 유도하고, 애노테이션으로 축소 중 종료를 막았습니다.

#AWS#EKS#Kubernetes
2100

데브옵스

Job 워크로드를 위한 EKS Node Group 오토스케일링 도입기

Job 워크로드를 위한 EKS Node Group 오토스케일링 적용 과정을 정리한 글입니다. Bin-packing과 강제 종료 방지, kubelet maxPods 조정까지 함께 다뤘습니다.

#EKS#Kubernetes#AWS
3300

데브옵스

EKS Application 로그를 Amazon Bedrock으로 자동 요약하는 시스템 구축하기

EKS 애플리케이션 로그를 Athena와 Amazon Bedrock으로 자동 분석하는 파이프라인을 구축했습니다. 수작업 로그 분석을 줄이고 장애 원인과 패턴을 빠르게 파악하도록 구성했습니다.

#AWS#EKS#Athena
5000

데브옵스

Agent 로 최적화 하는 EKS 운영: AWS DevOps Agent + K8s Operator로 MTTR 줄이기

EKS 장애를 자동 감지해 AWS DevOps Agent 조사로 연결하는 Operator 활용법을 소개했습니다.\n로그와 이벤트를 즉시 수집해 MTTR을 줄이고, Runbook과 GitHub 연동으로 원인 분석을 고도화했습니다.

#EKS#Kubernetes Operator#AWS
7100

데브옵스

여기어때 Secret 플랫폼 구축기 Part 2: 시크릿 저장소를 전체 서비스에 적용하기까지

여기어때는 Secrethub를 EKS 환경에 먼저 적용하고 ESO로 Secret을 자동 동기화하도록 설계했습니다. Spring Boot 공통 Loader와 Shadow Jar를 통해 전사 확산과 의존성 충돌 방지를 함께 해결했습니다.

#Kubernetes#AWS#EKS
4400

데브옵스

여기어때 Secret 플랫폼 구축기 Part 1: 왜 시크릿 저장소를 만들었는가

민감 정보가 서비스별로 흩어져 있던 한계를 해결하기 위해 중앙 관리 플랫폼 Secrethub를 구축했습니다. 접근 통제와 감사, 권한 일원화, 개발 편의성을 위해 외부 솔루션 대신 자체 개발을 선택했습니다.

#AWS Secrets Manager#HashiCorp Vault#EKS
8200

데브옵스

[요기요 카오스 엔지니어링 (2)] 카오스 실험 결과 정리하기

Stage 환경에서 Locust 트래픽을 기반으로 카오스 실험 결과를 정리했습니다. Pod 지연과 외부 API 차단이 서비스와 사용자 경험에 미치는 영향을 확인하고 개선 포인트를 도출했습니다.

#카오스 엔지니어링#AWS FIS#Istio
4600

AI

무신사의 AI 코드 리뷰 프로세스 구축기

무신사가 LLM 기반 코드 리뷰를 GitHub Actions와 Composite Action으로 표준화해 전사 인프라로 구축했습니다. 봇 노이즈 정리와 팀별 유연성을 함께 확보해 운영 가능한 AI 리뷰 체계를 만들었습니다.

#LLM#GitHub Actions#EKS
17900

데브옵스

Amazon SageMaker HyperPod의 오토스케일링 알아보기

SageMaker HyperPod에 Karpenter 기반 관리형 노드 오토스케일링이 추가되었습니다. KEDA와 함께 사용해 추론·학습 워크로드를 메트릭 기반으로 탄력적으로 확장할 수 있습니다.

#AWS#Kubernetes#Karpenter
3100

데브옵스

마이다스인의 플랫폼 혁신 여정, Part1: Amazon EKS 전환

Amazon ECS 기반 인프라를 Amazon EKS로 전환해 운영 유연성을 높이고 GitOps 체계를 구축했습니다. Binpacking과 Spot 전략으로 자원 활용률과 비용 효율도 크게 개선했습니다.

#AWS#EKS#ECS
4500

데브옵스

2025 re:Invent 여정

2025 AWS re:Invent 현장에서 확인한 AI·운영·보안의 기술 흐름을 정리했습니다. EKS 운영과 DevSecOps 자동화 사례를 중심으로 실무 인사이트를 공유했습니다.

#AWS#EKS#Kubernetes
2600

데브옵스

Amazon EKS Auto Mode의 내부 동작 방식

Amazon EKS Auto Mode의 내부 구성과 동작 방식을 소개했습니다. 데이터 플레인 운영, 보안 패치, 노드 최적화를 AWS가 자동 처리하는 흐름을 설명했습니다.

#AWS#Kubernetes#EKS
3000