
MLXP : Kubernetes LLM Serving 최적화 기술 도입기
Kubernetes 환경에 LLM 서빙 최적화 기술을 도입하며 발생한 충돌과 해결 과정을 공유했습니다. Istio, 스케줄러, Pod 보호 정책과의 실전 문제를 진단한 사례입니다.

Kubernetes 환경에 LLM 서빙 최적화 기술을 도입하며 발생한 충돌과 해결 과정을 공유했습니다. Istio, 스케줄러, Pod 보호 정책과의 실전 문제를 진단한 사례입니다.

안드로이드 빌드 대기 시간을 줄이기 위해 N3R과 GitHub ARC를 결합한 운영 경험을 공유했습니다. 사내망 제약 환경에서 동적 할당과 다층 캐시로 CI/CD 병목을 완화한 사례입니다.

Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.

Kubernetes Gateway API의 Policy 객체로 트래픽 제어를 세밀하게 나누는 방법을 정리했습니다. Ingress Annotation 대신 표준 CRD와 attach 방식 차이를 이해하는 것이 핵심입니다.

ArgoCD 배포를 정적 YAML 대신 HelmRelease와 FluxCD로 전환하는 방법을 정리했습니다. values 분리, 순서 보장, 에어갭 배포까지 운영 포인트를 함께 다뤘습니다.

Kubernetes 기반 GPU 클러스터를 안정적으로 운영하기 위한 유지 관리 방안을 정리했습니다. 자동화, 관측, 스케줄링 통합, 네트워크·보안 분리를 통해 장애 대응과 성능 안정성을 높이는 방법을 소개했습니다.

Git 평문 시크릿과 K8s Secret 오브젝트를 함께 없애기 위한 Vault 도입 전략을 정리했습니다. 운영 설계와 예외 처리, 감사 로그와 토큰 회수까지 함께 챙겨야 합니다.

MSA 장애 대응의 복잡성을 줄이기 위해 RCA 에이전트 SentryOn을 도입한 과정을 소개했습니다. 도메인 지식, 데이터 정제, Skill 분리, 프롬프트 캐싱으로 정확도와 효율을 높였습니다.

AWS Unified Operations는 주요 핵심 워크로드를 위해 사전 예방과 신속 대응을 결합한 운영 지원 체계입니다. 전담 전문가와 AI 인사이트로 마이그레이션, 보안, 최적화까지 함께 지원했습니다.
ISMS-P 인증체계가 강화되며 심사 방식과 사후관리에 변화가 있었습니다. 기업은 인증 대응뿐 아니라 지속적인 보안 운영 관리도 함께 준비해야 합니다.


Amazon GameLift Servers의 DDoS Protection 기능을 소개하며, 멀티플레이어 게임에 맞춘 상시 방어 방식을 설명했습니다. Player Gateway와 토큰 검증으로 서버 IP를 숨기고 첫 패킷부터 보호하는 통합 방법도 안내했습니다.


HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.