태그

Flash Attention 기술 블로그 글

Flash Attention 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 1개최신 1개 표시

vLLM로 효율적인 모델 서빙하기

vLLM을 활용한 LLM 서빙 최적화 방법을 배치 전략, 어텐션 최적화, 추론 전략으로 나눠 설명했습니다. 온라인 서빙과 오프라인 서빙의 차이와 간단한 구현 예시도 함께 소개했습니다.