모든 태그
태그

EFA 기술 블로그 글

EFA 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 6최신 6개 표시
홈에서 필터

최신 게시글

6개 표시

데브옵스

Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기

Amazon EKS에서 NVIDIA OSMO를 활용한 Physical AI 워크플로 운영 레퍼런스 아키텍처를 소개했습니다. GPU 스케줄링, 아티팩트 보존, 모니터링, 보안을 함께 다루는 방법을 설명했습니다.

#Amazon EKS#NVIDIA OSMO#Kubernetes
2500

AI

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU 간 고속 통신 기술

AWS 분산 트레이닝에서 GPU 간 통신 기술의 발전과 최적화 방향을 정리했습니다.\nMoE와 Dense 모델에 따라 NCCL, NVSHMEM, PPLX-kernels의 선택 기준을 설명했습니다.

#AWS#분산 트레이닝#GPUDirect RDMA
3000

AI

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS 환경에서 NCCL을 이용한 GPU 간 통신

AWS EFA 환경에서 NCCL이 GPU 간 집합 통신을 어떻게 최적화하는지 소개했습니다. 기본 설정과 플러그인 구조, 알고리즘 선택 원리까지 함께 정리했습니다.

#AWS#NCCL#EFA
4200

데브옵스

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS의 인터커넥트 기반 기술, ENI 소개

AWS EC2의 ENI와 네트워크 카드 구조, EFA 할당 규칙을 설명했습니다. p5와 p6 인스턴스의 분산 트레이닝용 네트워크 구성과 운영 포인트를 정리했습니다.

#AWS#EFA#ENI
4400

데브옵스

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS는 왜 인터커넥트 기술로 EFA를 사용하는가?

분산 트레이닝에서 GPU 간 통신 오버헤드가 큰 병목이므로 인터커넥트 선택이 중요하다고 설명했습니다. AWS는 클라우드 환경의 멀티테넌시와 운영 효율성 때문에 EFA를 선택했다고 정리했습니다.

#AWS#분산 트레이닝#EFA
2800

AI

Amazon EKS에서vLLM Deep Learning Container를 사용하여LLM 배포하기

Amazon EKS에 vLLM DLC를 적용해 DeepSeek 모델을 배포하는 과정을 설명했습니다. EFA와 FSx for Lustre를 활용해 고성능 추론 환경을 구성했습니다.

#Amazon EKS#vLLM#LLM
4300