태그

vllm 기술 블로그 글

vllm 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 9개최신 9개 표시

#LLM995 #AWS635 #검색285 #Kubernetes412 #모니터링256 #Docker117 #REST API79 #Airflow67 #EC246 #Amazon EKS24 #멀티모달21 #지식 증류10

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

vLLM Tensor Parallelism으로 G5/G6의 24GB GPU 여러 장에 LLM을 분산 서빙하는 방법을 설명했습니다. 벤치마크에서 TP=4는 응답 속도와 처리량을 크게 개선했으며, 비용 효율적인 대안으로 제시했습니다.

#AWS#EC2#vLLM

1700

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

2026년 3월 30일

대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)

대규모 서비스의 이미지 콘텐츠 모더레이션을 위해 멀티모달 LLM과 전통적 ML을 결합한 구조를 소개했습니다. 정확도, 지연 시간, 비용, 정책 유연성을 함께 개선하는 최적화 과정을 다뤘습니다.

#LLM#멀티모달#computer vision

4200

대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)

2025년 10월 27일

Amazon EKS에서vLLM Deep Learning Container를 사용하여LLM 배포하기

Amazon EKS에 vLLM DLC를 적용해 DeepSeek 모델을 배포하는 과정을 설명했습니다. EFA와 FSx for Lustre를 활용해 고성능 추론 환경을 구성했습니다.

#Amazon EKS#vLLM#LLM

4300

Amazon EKS에서vLLM Deep Learning Container를 사용하여LLM 배포하기

2025년 10월 24일

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

SageMaker AI에서 GPT-OSS 120B 추론 성능 테스트와 GPU 용량 산정 방법을 다뤘습니다. vLLM과 SGLang을 비교하며 워크로드별 성능 지표와 최적화 포인트를 정리했습니다.

#SageMaker AI#LLM#vLLM

6900

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

2025년 4월 28일

vLLM의 기술적 혁신과 성능 향상 이야기

vLLM의 핵심 기술과 성능 최적화 옵션, 그리고 v1 엔진의 구조 개선을 정리했습니다.\n기능 호환성과 운영 단순성을 높이면서 성능을 끌어올린 흐름을 함께 설명했습니다.

#vLLM#LLM#Torch.compile

7300

2025년 4월 24일

LLM 기반 서비스의 부하테스트

LLM 서비스는 TTFT, ITL, 토큰 처리량 같은 지표로 부하테스트해야 합니다.\nvLLM 예제를 통해 병목과 네트워크 문제를 점검하고 사용자 체감 성능을 개선할 수 있습니다.

#LLM#부하테스트#vLLM

9700

2025년 2월 12일

vLLM로 효율적인 모델 서빙하기

vLLM을 활용한 LLM 서빙 최적화 방법을 배치 전략, 어텐션 최적화, 추론 전략으로 나눠 설명했습니다. 온라인 서빙과 오프라인 서빙의 차이와 간단한 구현 예시도 함께 소개했습니다.

#vLLM#LLM#배치

8600

2025년 1월 3일

[DAN 24] 검색과 피드의 만남: LLM으로 완성하는 초개인화 서비스 ② 사용자 검색 의도 세분화

검색어와 문서를 함께 고려해 사용자 의도를 세분화하는 LLM 기반 모델을 설계했습니다. 이를 통해 추천의 맥락 정확도를 높이고 CTR도 개선했습니다.

#LLM#검색#지식 증류

3500

[DAN 24] 검색과 피드의 만남: LLM으로 완성하는 초개인화 서비스 ② 사용자 검색 의도 세분화

2024년 11월 26일

데브옵스

LLM 쉽고 빠르게 서빙하기

LLM을 서비스에 적용할 때의 속도와 서빙 복잡도를 줄이는 방법을 소개했습니다. vllm, Triton, Kserve를 활용해 쉽게 배포하고 운영하는 흐름을 정리했습니다.

#LLM#vllm#Triton Inference Server

4500

관련 태그

최신 게시글

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

대규모 서비스 환경에서의 이미지 콘텐츠 모더레이션(feat. 멀티모달 LLM)

Amazon EKS에서vLLM Deep Learning Container를 사용하여LLM 배포하기

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

vLLM의 기술적 혁신과 성능 향상 이야기

LLM 기반 서비스의 부하테스트

vLLM로 효율적인 모델 서빙하기

[DAN 24] 검색과 피드의 만남: LLM으로 완성하는 초개인화 서비스 ② 사용자 검색 의도 세분화

LLM 쉽고 빠르게 서빙하기