우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.

EKS에서 EBS 볼륨의 AZ 종속성 때문에 파드 어태치 실패가 발생하는 사례를 정리했습니다. 멀티 AZ가 필요하면 Affinity로 고정하거나 EFS로 전환하는 방식이 핵심입니다.

Amazon Linux 1 지원 종료로 EKS 노드그룹 전환이 필요해졌습니다. 운영 구조를 유지하려면 새 노드그룹 교체가 기본 전략이 되고, 필요 시 신규 클러스터도 고려해야 했습니다.

20년 레거시 정산 시스템을 분할정복과 데이터 모델 개선으로 개편했습니다. 대규모 배치는 테스트 자동화, 카나리 투입, Jenkins 기반 운영으로 안정성과 성능을 함께 높였습니다.

쿠버네티스 실무 역량 강화를 위해 Kubestronaut에 도전한 경험을 공유했습니다. 자격 취득 과정에서 아키텍처 이해와 보안, 운영 감각을 함께 넓혔습니다.

OpenStack과 Kubernetes의 보완적 관계와 글로벌 오픈소스 재단 협력 흐름을 바탕으로 NEXT 플랫폼 아키텍처를 소개했습니다. Kubernetes 위 OpenStack, OVN 네트워크 통합, AI 워크로드 대응 방향을 다뤘습니다.


EKS에서 Istio Ambient Mode를 이용해 사이드카 오버헤드를 줄이고 리소스 효율성을 높이는 방법을 소개했습니다. Ztunnel과 Waypoint로 보안, 관찰성, 트래픽 제어를 유연하게 구성하는 과정을 설명했습니다.

AWS Cloud Native로의 앱 현대화 전략과 3년간의 아키텍처 개선 여정을 정리했습니다. 모놀리식의 운영 문제를 해결하기 위해 컨테이너, 서버리스, MSA, IaC를 단계적으로 적용했습니다.

KEDA로 Loki 로그 시스템의 오토스케일링을 재구성해 비용과 안정성을 함께 개선했습니다. CPU·메모리뿐 아니라 Fluentd 버퍼 메트릭을 활용하고 HPA 제약으로 과대 확장도 줄였습니다.


KubeVirt GPU VM을 위해 Ceph CSI와 RBD PVC를 연동하고 OS 이미지를 영구 rootdisk로 구성했습니다. 또한 Multus Bridge 네트워크와 CPU pinning, GPU Passthrough 설정으로 VM을 안정적으로 생성했습니다.


Kubernetes를 DevOps 면접과 실무에서 설명하는 8가지 핵심 질문과 답변으로 정리했습니다. 주요 개념과 운영 트러블슈팅 점검 루틴까지 함께 다뤘습니다.


Kubernetes를 제대로 이해하는 DevOps 엔지니어를 구분하는 면접·실무 질문 8가지를 정리했습니다. 장애 진단 루틴과 오토스케일링, 네트워킹까지 핵심 개념을 함께 설명했습니다.