
데브옵스
요기요 카오스 엔지니어링 (1) 카오스 실험 시작하기
두줄요약
요기요의 카오스 엔지니어링 도입 과정과 실험 설계 방법을 공유했습니다. Istio와 권한 설정 이슈를 해결하며 AWS FIS로 네트워크 지연 주입을 성공시켰습니다.
문제 상황
- 운영 중인 요기요 마이크로서비스에 카오스 엔지니어링을 적용해 시스템 안정성과 장애 내성을 점검하려는 과제
- 실험 대상으로 membership-yo를 선택하고 stage-integration 환경에서 네트워크 지연, 외부 API 차단 시나리오를 검증할 필요
해결 방법
- AWS FIS로 pod network latency를 주입하고, 외부 API 아웃바운드 차단으로 정합성과 기능 영향 확인
- Istio 적용으로 FIS pod가 API server와 통신하지 못한 문제는 sidecar 주입 비활성화로 해결
- root 권한이 필요한 임시 컨테이너 이슈는 stage 전용 PodTemplate에 보안 설정을 완화해 대응
적용해볼 점
- 장애 주입 전 대상 서비스와 실험 환경 범위를 먼저 좁히는 접근
- 시나리오별 주입 도구와 모니터링 지표를 사전에 정의하는 준비
- 서비스 보안 설정과 실험 도구 요구사항의 충돌 여부를 함께 점검하는 필요