AI 서비스의 안정성과 비용 최적화 둘다 잡은 Runway Autoscaling 개발 여정

데브옵스

AI 서비스의 안정성과 비용 최적화 둘다 잡은 Runway Autoscaling 개발 여정

마키나락스

마키나락스2025년 5월 27일

두줄요약

Runway 추론 서비스의 Autoscaling 과정에 자원 한도 검증을 추가해 멀티테넌트 환경의 비용과 안정성을 함께 개선했습니다. Kubernetes Admission Webhook과 Runway API를 연동해 KPA와 HPA 모두에 일관된 정책을 적용했습니다.

문제 상황

Runway 추론 서비스의 Autoscaling 과정에서 워크스페이스·프로젝트 자원 한도 검증이 빠져 있는 상태
요청량 급증 시 허용 자원을 초과해 Replica가 늘어나며 비용 증가와 멀티테넌트 자원 침해 가능성 존재

원인 분석

초기에는 리소스 생성·수정 시점만 한도 검증을 수행해 Autoscaling 경로가 사각지대에 놓임
KPA와 HPA, 향후 KEDA까지 스케일링 주체가 다양해 단일 컴포넌트 수정 방식의 확장성 한계 존재

해결 방법

Kubernetes Admission Control Webhook으로 Deployment scale UPDATE 요청을 가로채 자원 검증 수행
Runway API가 허용 가능한 최대 Replica 수를 계산하고, Webhook이 desiredScale과 비교해 허용/거부 판단
namespaceSelector, objectSelector로 호출 범위를 제한하고, HA·경량화·테스트로 부하와 장애 위험을 완화

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...