Velopers
모든 블로그모든 태그공지주간 인기글

새로운 기술 블로그가 추가되었어요

아임웹

오늘 새 글

0개

오늘 조회수

43회

최근 7일 인기 글AI로 웹 엔지니어 없이 LINE 앱 안에서 그룹 영상 통화 서비스 만들기라인 · 54회최근 30일 활발한 블로그AWS23개 발행 · 총 388개 · 18,937회
필터 1
Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기
AWS
·2026년 5월 26일
AI

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

vLLM Tensor Parallelism으로 G5/G6의 24GB GPU 여러 장에 LLM을 분산 서빙하는 방법을 설명했습니다. 벤치마크에서 TP=4는 응답 속도와 처리량을 크게 개선했으며, 비용 효율적인 대안으로 제시했습니다.

#AWS#EC2
17005분

Powered by Velopers

이용약관개인정보처리방침공지사항