목록 보기
요기요 카오스 엔지니어링 (1) 카오스 실험 시작하기
데브옵스

요기요 카오스 엔지니어링 (1) 카오스 실험 시작하기

요기요
요기요
2025년 10월 23일

두줄요약

요기요의 카오스 엔지니어링 도입 과정과 실험 설계 방법을 공유했습니다. Istio와 권한 설정 이슈를 해결하며 AWS FIS로 네트워크 지연 주입을 성공시켰습니다.

문제 상황

  • 운영 중인 요기요 마이크로서비스에 카오스 엔지니어링을 적용해 시스템 안정성과 장애 내성을 점검하려는 과제
  • 실험 대상으로 membership-yo를 선택하고 stage-integration 환경에서 네트워크 지연, 외부 API 차단 시나리오를 검증할 필요

해결 방법

  • AWS FIS로 pod network latency를 주입하고, 외부 API 아웃바운드 차단으로 정합성과 기능 영향 확인
  • Istio 적용으로 FIS pod가 API server와 통신하지 못한 문제는 sidecar 주입 비활성화로 해결
  • root 권한이 필요한 임시 컨테이너 이슈는 stage 전용 PodTemplate에 보안 설정을 완화해 대응

적용해볼 점

  • 장애 주입 전 대상 서비스와 실험 환경 범위를 먼저 좁히는 접근
  • 시나리오별 주입 도구와 모니터링 지표를 사전에 정의하는 준비
  • 서비스 보안 설정과 실험 도구 요구사항의 충돌 여부를 함께 점검하는 필요

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...