Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기
vLLM Tensor Parallelism으로 G5/G6의 24GB GPU 여러 장에 LLM을 분산 서빙하는 방법을 설명했습니다. 벤치마크에서 TP=4는 응답 속도와 처리량을 크게 개선했으며, 비용 효율적인 대안으로 제시했습니다.

vllm 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
9개 표시
vLLM Tensor Parallelism으로 G5/G6의 24GB GPU 여러 장에 LLM을 분산 서빙하는 방법을 설명했습니다. 벤치마크에서 TP=4는 응답 속도와 처리량을 크게 개선했으며, 비용 효율적인 대안으로 제시했습니다.

대규모 서비스의 이미지 콘텐츠 모더레이션을 위해 멀티모달 LLM과 전통적 ML을 결합한 구조를 소개했습니다. 정확도, 지연 시간, 비용, 정책 유연성을 함께 개선하는 최적화 과정을 다뤘습니다.

Amazon EKS에 vLLM DLC를 적용해 DeepSeek 모델을 배포하는 과정을 설명했습니다. EFA와 FSx for Lustre를 활용해 고성능 추론 환경을 구성했습니다.

SageMaker AI에서 GPT-OSS 120B 추론 성능 테스트와 GPU 용량 산정 방법을 다뤘습니다. vLLM과 SGLang을 비교하며 워크로드별 성능 지표와 최적화 포인트를 정리했습니다.
vLLM의 핵심 기술과 성능 최적화 옵션, 그리고 v1 엔진의 구조 개선을 정리했습니다.\n기능 호환성과 운영 단순성을 높이면서 성능을 끌어올린 흐름을 함께 설명했습니다.

LLM 서비스는 TTFT, ITL, 토큰 처리량 같은 지표로 부하테스트해야 합니다.\nvLLM 예제를 통해 병목과 네트워크 문제를 점검하고 사용자 체감 성능을 개선할 수 있습니다.

vLLM을 활용한 LLM 서빙 최적화 방법을 배치 전략, 어텐션 최적화, 추론 전략으로 나눠 설명했습니다. 온라인 서빙과 오프라인 서빙의 차이와 간단한 구현 예시도 함께 소개했습니다.

검색어와 문서를 함께 고려해 사용자 의도를 세분화하는 LLM 기반 모델을 설계했습니다. 이를 통해 추천의 맥락 정확도를 높이고 CTR도 개선했습니다.
LLM을 서비스에 적용할 때의 속도와 서빙 복잡도를 줄이는 방법을 소개했습니다. vllm, Triton, Kserve를 활용해 쉽게 배포하고 운영하는 흐름을 정리했습니다.
