데보션2025년 2월 12일AIvLLM로 효율적인 모델 서빙하기vLLM을 활용한 LLM 서빙 최적화 방법을 배치 전략, 어텐션 최적화, 추론 전략으로 나눠 설명했습니다. 온라인 서빙과 오프라인 서빙의 차이와 간단한 구현 예시도 함께 소개했습니다.#vLLM#LLM#배치8600