
데브옵스
kubernetes에서 Local LLM 편리하게 사용하기
두줄요약
Kubernetes에서 로컬 LLM을 쓰는 세 가지 접근을 직접 Pod, KServe, KubeAI로 나누어 정리했습니다. 간단한 실습부터 운영 관점의 제약과 선택 포인트까지 함께 살펴봤습니다.
핵심 내용
- Kubernetes에서 로컬 LLM을 쓰는 방법을 단순 Pod 직접 구동, KServe, KubeAI로 나눠 정리
- Ollama, LM Studio, vLLM, kubectl-ai 같은 도구를 활용한 질의·서빙 흐름 소개
- KServe는 서버리스 기반의 확장성·고가용성, KubeAI는 가벼운 구조와 간편한 사용성 강조
구조와 흐름
- 직접 Pod 배포는 ollama Pod와 Service를 만들고 모델을 내려받아 API로 호출하는 방식
- KServe는 InferenceService로 모델을 배포하고, 포트포워딩 후 추론 API로 검증하는 흐름
- KubeAI는 Helm으로 설치하고 모델 차트를 추가해 웹 채팅과 API 호출을 함께 사용하는 흐름
주의할 점
- 직접 Pod 방식은 개별 자원 관리, 모니터링, 고가용성 구성이 수동으로 필요
- KServe 설치는 Knative 버전 차이와 환경 의존성 때문에 스크립트 수정이 필요할 수 있음
- 대형 LLM은 CPU 모드나 구형 GPU 환경에서 동작이 제한될 수 있음
