[요기요 카오스 엔지니어링 (2)] 카오스 실험 결과 정리하기
데브옵스
[요기요 카오스 엔지니어링 (2)] 카오스 실험 결과 정리하기
두줄요약
Stage 환경에서 Locust 트래픽을 기반으로 카오스 실험 결과를 정리했습니다. Pod 지연과 외부 API 차단이 서비스와 사용자 경험에 미치는 영향을 확인하고 개선 포인트를 도출했습니다.
핵심 내용
- Stage 환경에서 Locust 기반 트래픽을 지속 발생시키고 장애를 주입해 카오스 실험 결과를 검증
- Pod Network Latency 주입 시 500ms에서는 Redis 연결과 Istio 헬스체크 문제로 503, 500ms 수준의 실패가 크게 발생
- 250ms에서는 RPS가 감소했지만 비교적 안정적으로 유지되어 Happy Path 통과
- 외부 API 차단 실험에서는 회원 탈퇴만 실패하고 다른 멤버십 기능과 DB 정합성은 유지
적용해볼 점
- Redisson 에러 예외처리 보강으로 원인 식별성 개선
- 멤버십 실패 시 비동기 처리 검토로 주문 흐름 유지
- Redis Queue 병목 완화와 헬스체크 기준 재점검
- 외부 벤더 장애에 대한 기능별 내성 확인과 확장 실험