

AI 서비스의 안정성과 비용 최적화 둘다 잡은 Runway Autoscaling 개발 여정
Runway 추론 서비스의 Autoscaling 과정에 자원 한도 검증을 추가해 멀티테넌트 환경의 비용과 안정성을 함께 개선했습니다. Kubernetes Admission Webhook과 Runway API를 연동해 KPA와 HPA 모두에 일관된 정책을 적용했습니다.
#Kubernetes#Autoscaling
33005분


Runway 추론 서비스의 Autoscaling 과정에 자원 한도 검증을 추가해 멀티테넌트 환경의 비용과 안정성을 함께 개선했습니다. Kubernetes Admission Webhook과 Runway API를 연동해 KPA와 HPA 모두에 일관된 정책을 적용했습니다.


Kubernetes에서 로컬 LLM을 쓰는 세 가지 접근을 직접 Pod, KServe, KubeAI로 나누어 정리했습니다. 간단한 실습부터 운영 관점의 제약과 선택 포인트까지 함께 살펴봤습니다.