kubernetes에서 Local LLM 편리하게 사용하기

데브옵스

kubernetes에서 Local LLM 편리하게 사용하기

데보션

데보션2024년 12월 30일

두줄요약

Kubernetes에서 로컬 LLM을 쓰는 세 가지 접근을 직접 Pod, KServe, KubeAI로 나누어 정리했습니다. 간단한 실습부터 운영 관점의 제약과 선택 포인트까지 함께 살펴봤습니다.

핵심 내용

Kubernetes에서 로컬 LLM을 쓰는 방법을 단순 Pod 직접 구동, KServe, KubeAI로 나눠 정리
Ollama, LM Studio, vLLM, kubectl-ai 같은 도구를 활용한 질의·서빙 흐름 소개
KServe는 서버리스 기반의 확장성·고가용성, KubeAI는 가벼운 구조와 간편한 사용성 강조

구조와 흐름

직접 Pod 배포는 ollama Pod와 Service를 만들고 모델을 내려받아 API로 호출하는 방식
KServe는 InferenceService로 모델을 배포하고, 포트포워딩 후 추론 API로 검증하는 흐름
KubeAI는 Helm으로 설치하고 모델 차트를 추가해 웹 채팅과 API 호출을 함께 사용하는 흐름

주의할 점

직접 Pod 방식은 개별 자원 관리, 모니터링, 고가용성 구성이 수동으로 필요
KServe 설치는 Knative 버전 차이와 환경 의존성 때문에 스크립트 수정이 필요할 수 있음
대형 LLM은 CPU 모드나 구형 GPU 환경에서 동작이 제한될 수 있음

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...