
Istio 3-2편: Partially Enrolled Pod와 Untaint Controller
Ambient mode에서 Pod은 Ready인데 mesh 트래픽이 실패하는 partially enrolled 문제를 다뤘습니다. istio-cni 준비 전에는 일반 Pod이 스케줄되지 않도록 startup taint와 untaint-controller를 활용했습니다.

Ambient mode에서 Pod은 Ready인데 mesh 트래픽이 실패하는 partially enrolled 문제를 다뤘습니다. istio-cni 준비 전에는 일반 Pod이 스케줄되지 않도록 startup taint와 untaint-controller를 활용했습니다.

공유 dev 병목을 없애기 위해 브랜치 하나로 격리 환경을 만드는 Environment Variant 설계를 소개했습니다. ArgoCD ApplicationSet으로 생성과 회수를 자동화해 환경 생명주기를 git과 연결했습니다.

AI 연구용 GPU가 부족하고 활용률도 낮아 효율적 운영이 필요했습니다. 데스크톱 가상화로 연구 규모에 맞게 나누고 자동 회수해 공정성을 높였습니다.

상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.

SSL/TLS 인증서 유효기간이 계속 단축되는 흐름과 그에 따른 운영 리스크를 정리했습니다. 자동화와 모니터링을 중심으로 한 대응 전략도 함께 제시했습니다.

플랫폼팀이 코드 바깥의 환경 실체를 선언으로 만드는 방식을 설명했습니다. Kafka 토픽 선언과 검증, 추적 가능한 거버넌스 사례를 다뤘습니다.

Alert 생성과 전달, 대응 흐름을 IaC와 표준화된 Slack 메시지로 정리한 개선 과정을 소개했습니다. 반복 Alert 재사용, grouped Alert, AI 연동, 모니터링 자체 감시까지 운영 개선을 다뤘습니다.


AWS DevOps Agent로 성능 테스트 분석을 자동화하는 활용 사례를 소개했습니다. JMeter 부하 테스트에서 병목 원인을 찾고 수정 후 재검증하는 흐름을 보여주었습니다.

Istio Ambient mode에서 워크로드 재시작 시 간헐적 503이 발생한 원인을 추적했습니다. 오래된 HBONE connection 재사용과 ztunnel의 graceful close 부재가 핵심이었고, reset retry로 증상을 완화했습니다.

Istio Ambient mode에서 Pod IP 재사용과 stale connection 재사용이 겹쳐 간헐적 503이 발생했습니다. 로그와 pcap, socket을 교차 검증하고 reset retry로 증상을 완화했습니다.
네이버 클라우드 플랫폼 MCP를 클로드 코드에서 사용할 수 있게 베타 출시했습니다. 복잡한 서버 초기 설정을 채팅만으로 처리하려는 사용성 개선 사례입니다.
![[인프라를 소프트웨어처럼 1/5] Infrastructure as Code, 그리고 그다음](https://flex.team/blog/og/main.jpg)

Terraform plan은 변경점만 보여 주고 실제 동작은 보장하지 못한다고 설명했습니다. IaC를 넘어 테스트 가능성과 재현 가능성을 갖춘 IaS 관점이 필요하다고 강조했습니다.