
Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기
Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.
#Amazon EKS#NVIDIA OSMO
25005분

Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.


AWS 분산 트레이닝에서 GPU 간 통신 기술의 발전과 최적화 방향을 정리했습니다.\nMoE와 Dense 모델에 따라 NCCL, NVSHMEM, PPLX-kernels의 선택 기준을 설명했습니다.


AWS EFA 환경에서 NCCL이 GPU 간 집합 통신을 어떻게 최적화하는지 소개했습니다. 기본 설정과 플러그인 구조, 알고리즘 선택 원리까지 함께 정리했습니다.


AWS EC2의 ENI와 네트워크 카드 구조, EFA 할당 규칙을 설명했습니다. p5와 p6 인스턴스의 분산 트레이닝용 네트워크 구성과 운영 포인트를 정리했습니다.


분산 트레이닝에서 GPU 간 통신 오버헤드가 큰 병목이므로 인터커넥트 선택이 중요하다고 설명했습니다. AWS는 클라우드 환경의 멀티테넌시와 운영 효율성 때문에 EFA를 선택했다고 정리했습니다.


Amazon EKS에 vLLM DLC를 적용해 DeepSeek 모델을 배포하는 과정을 설명했습니다. EFA와 FSx for Lustre를 활용해 고성능 추론 환경을 구성했습니다.