

쿠키런: 킹덤 길드 업데이트 이후 서비스 이슈 되돌아보기
길드 업데이트 이후 CockroachDB 클러스터에서 Hot Range로 인한 과부하 이슈를 회고했습니다. 점검 방식 조정, 테이블 단위 백업, Split과 Decommission으로 장애를 수습했습니다.
새로운 기술 블로그가 추가되었어요


길드 업데이트 이후 CockroachDB 클러스터에서 Hot Range로 인한 과부하 이슈를 회고했습니다. 점검 방식 조정, 테이블 단위 백업, Split과 Decommission으로 장애를 수습했습니다.


AWS 도쿄 리전 AZ 장애로 쿠키런: 킹덤의 DB 노드 일부가 동시 장애를 겪었습니다. 백업과 비상 복구 절차, Locality 재설계로 유저 데이터 유실 없이 복구했습니다.


CockroachDB 장애로 서비스가 멈춘 상황에서 원시 sst 파일을 직접 파고들어 복구 가능성을 탐색했습니다. 내부 저장 형식과 인코딩을 분석해 데이터를 꺼내는 방향을 모색했습니다.


쿠키런: 킹덤 출시 직후 발생한 대규모 장애를 신입 입사자의 시점에서 회고한 글입니다. 데이터 이주와 정합성 검증을 통해 서비스를 복구한 과정을 담았습니다.


런칭 직후 Ballast 파일 경로 오류로 CockroachDB 클러스터가 전역 장애를 겪었습니다. SST 파일 복원과 데이터 재구성을 통해 서비스를 다시 열고, 이후 재발 방지 프로세스도 강화했습니다.


CockroachDB를 쿠키런: 킹덤의 메인 데이터베이스로 선택한 이유와 운영 시 고려할 점을 정리했습니다. 분산 구조, 복제, MVCC, 핫스팟 대응 같은 핵심 개념도 함께 설명했습니다.


쿠키런: 킹덤 런칭을 앞두고 데브옵스 팀이 인프라와 데이터베이스, Kubernetes 운영 체계를 준비한 과정을 회고했습니다. 전사 테스트와 반복 부하 테스트로 규모를 검증했고, 런칭 후에는 모니터링과 스토리지 증가 추적까지 이어갔습니다.