
케클s피드 6월호|AI 시대, 인프라 운영 역량이 더 중요해진 이유
AI 시대에는 도입보다 안정적인 운영과 인프라 역량이 더 중요해졌습니다. 이번 호는 시장 흐름과 플랫폼 엔지니어링, 클라우드 아키텍처, 보안·NPU 사례를 함께 다뤘습니다.

AI 시대에는 도입보다 안정적인 운영과 인프라 역량이 더 중요해졌습니다. 이번 호는 시장 흐름과 플랫폼 엔지니어링, 클라우드 아키텍처, 보안·NPU 사례를 함께 다뤘습니다.

Flava DBaaS의 쿠버네티스 기반 아키텍처와 운영 구조를 소개했습니다. 또한 마이그레이션 도구와 서버리스, AI 기반 확장 방향까지 설명했습니다.

kt cloud가 플랫폼 엔지니어링으로 개발 환경의 복잡성을 줄이는 방안을 소개했습니다. 개발자가 더 빠르고 예측 가능하게 시작하도록 Self-Service와 자동화를 강화했습니다.


GitLab CI/CD 변수의 마스킹 한계를 재현하고, job 단위로 시크릿을 제한하는 Secrets Manager를 소개했습니다. 별도 Vault 운영 부담을 줄이면서 감사와 범위 통제를 강화하는 방법을 정리했습니다.

LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.

OpenStack 기반 개인용 샌드박스 이미지를 단일 VM에 GitOps 방식으로 구성했습니다.부팅 후 ArgoCD와 Flux가 Git 변경을 반영해 git push만으로 업데이트되도록 실험했습니다.

Verda와 IMON의 인프라를 OpenTofu와 Terragrunt로 코드화해 GitOps 체계를 구축했습니다. Slack과 AI 에이전트를 연결해 자연어 기반 코드 생성과 변경 자동화까지 확장했습니다.

Spark Connect를 멀티세션 서비스로 운영하며 생기는 단일 장애점과 리소스 경합 문제를 다뤘습니다. replica, Gateway, 부하 점수 기반 세션 배치로 안정성을 높인 과정을 정리했습니다.


Amazon S3 Files 도입 전에 비용, 성능, 공존 문제를 실측과 문서로 점검하는 방법을 정리했습니다. 소형 파일 과금, 읽기 경계, Mountpoint 충돌을 먼저 확인해야 합니다.
![[의존성의 방향을 따라 4/5] PR을 전파하는 Distributer](https://flex.team/blog/og/main.jpg)

50개 이상의 레포에 흩어진 버전업 PR을 Wave 순서에 맞춰 자동 전파하고 머지하는 방식을 설명했습니다. CI, flaky test, 에스컬레이션까지 묶어 대규모 업그레이드 운영을 자동화했습니다.


Amazon MWAA와 S3 Vectors, Bedrock AgentCore로 클라우드 정책 수집과 검색을 자동화했습니다. 역할별 Strands Agent와 MCP 도구로 DevOps, SecOps, Compliance, FinOps 분석을 분리했습니다.


에잇퍼센트가 Kiro CLI와 AI 프롬프트 세트로 EC2 기반 서비스를 Amazon ECS Fargate로 현대화했습니다. 현업을 병행하면서도 무중단 배포와 비용 절감을 함께 달성했습니다.