Velopers 홈

새로운 기술 블로그가 추가되었어요

오늘 새 글

0개

오늘 조회수

43회

필터 1

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

vLLM Tensor Parallelism으로 G5/G6의 24GB GPU 여러 장에 LLM을 분산 서빙하는 방법을 설명했습니다. 벤치마크에서 TP=4는 응답 속도와 처리량을 크게 개선했으며, 비용 효율적인 대안으로 제시했습니다.