[요기요 카오스 엔지니어링 (2)] 카오스 실험 결과 정리하기

3
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 카오스 실험 환경과 결과에서 얻은 인사이트를 정리한 글입니다.

실험 개요

  • Stage 환경에서 Locust로 운영 유사 트래픽 재현하며 AWS FIS로 지연 및 차단 장애 주입
  • 주요 실험: Pod 네트워크 지연(500ms → 250ms) 및 외부 API 차단

500ms 실험 주요 관찰

  • Pod CPU 및 RPS 급감, P99 최대 30초까지 증가
  • Redisson 관련 Netty 스레드/커넥션 소진으로 HTTP 500 발생
  • Istio가 UH 플래그로 빠른 503 응답 반환해 클라이언트 RPS 요동 발생

250ms 실험 주요 관찰

  • RPS 약 15~17로 안정화, P99 약 5초로 지연 증가하지만 에러 거의 없음

외부 API 장애 관찰

  • Outbound IP 차단으로 외부 탈퇴 API 실패 발생하나 다른 멤버십 기능은 정상 유지

도출된 인사이트

  • Redisson 에러에 대한 명확한 예외처리 필요
  • 구독자 주문 실패 방지를 위한 비동기 처리 검토
  • Redis Queue 관리·확장으로 Pod 헬스 유지 방안 필요
  • AWS FIS의 기능과 제약을 파악하여 향후 활용 계획 수립

연관 게시글