메가존클라우드2024년 4월 15일AIData Parallelism in Machine Learning Training대규모 머신러닝 학습에서 데이터 병렬성과 동기/비동기 업데이트 방식을 설명했습니다. 또한 Ring-AllReduce로 통신 병목과 상태 불일치 문제를 완화하는 방법을 소개했습니다.#ML#distributed training#GPU900