

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS 환경에서 NCCL을 이용한 GPU 간 통신
AWS EFA 환경에서 NCCL이 GPU 간 집합 통신을 어떻게 최적화하는지 소개했습니다. 기본 설정과 플러그인 구조, 알고리즘 선택 원리까지 함께 정리했습니다.
#AWS#NCCL
41005분


AWS EFA 환경에서 NCCL이 GPU 간 집합 통신을 어떻게 최적화하는지 소개했습니다. 기본 설정과 플러그인 구조, 알고리즘 선택 원리까지 함께 정리했습니다.


슈퍼브에이아이가 SageMaker HyperPod로 ZERO 모델의 대규모 분산 학습 효율을 높인 사례를 소개했습니다. 저가 리허설과 데이터 사전 로드로 비용과 학습 지연을 줄였습니다.