
데브옵스
AI 서비스의 안정성과 비용 최적화 둘다 잡은 Runway Autoscaling 개발 여정
두줄요약
Runway 추론 서비스의 Autoscaling 과정에 자원 한도 검증을 추가해 멀티테넌트 환경의 비용과 안정성을 함께 개선했습니다. Kubernetes Admission Webhook과 Runway API를 연동해 KPA와 HPA 모두에 일관된 정책을 적용했습니다.
문제 상황
- Runway 추론 서비스의 Autoscaling 과정에서 워크스페이스·프로젝트 자원 한도 검증이 빠져 있는 상태
- 요청량 급증 시 허용 자원을 초과해 Replica가 늘어나며 비용 증가와 멀티테넌트 자원 침해 가능성 존재
원인 분석
- 초기에는 리소스 생성·수정 시점만 한도 검증을 수행해 Autoscaling 경로가 사각지대에 놓임
- KPA와 HPA, 향후 KEDA까지 스케일링 주체가 다양해 단일 컴포넌트 수정 방식의 확장성 한계 존재
해결 방법
- Kubernetes Admission Control Webhook으로 Deployment scale UPDATE 요청을 가로채 자원 검증 수행
- Runway API가 허용 가능한 최대 Replica 수를 계산하고, Webhook이 desiredScale과 비교해 허용/거부 판단
- namespaceSelector, objectSelector로 호출 범위를 제한하고, HA·경량화·테스트로 부하와 장애 위험을 완화
