Building Resilient, High Performance ScyllaDB Clusters with Super Disk

데브옵스

Building Resilient, High Performance ScyllaDB Clusters with Super Disk

하이퍼커넥트

하이퍼커넥트2025년 5월 15일

두줄요약

ScyllaDB에 Local NVMe와 EBS를 묶은 Super Disk 구성을 도입해 복구 시간을 크게 줄였습니다. 또한 Windmill으로 교체·복구 절차를 자동화해 운영 안정성과 효율을 높였습니다.

문제 상황

ScyllaDB 운영 중 cluster rolling update와 node 장애 복구 시간이 과도하게 길어지는 문제
Local NVMe 기반 인스턴스 특성상 재부팅 시 데이터 유실과 긴 데이터 재동기화 시간 발생
유지보수, EKS 업그레이드, AMI 교체 시 node 교체 작업 지연과 전송 비용 증가

원인 분석

ScyllaDB가 Linux page cache보다 자체 Embedded Cache와 디스크 I/O에 더 크게 의존하는 구조
Local SSD만 사용할 경우 복구는 빠르지만 영속성이 약하고, Persistent Disk만 사용할 경우 읽기 지연 발생
기존 방식은 장애 시 다른 node에서 전체 데이터를 복사해야 해서 복구 시간이 길어짐

해결 방법

Local NVMe와 EBS를 RAID1으로 묶고 write-mostly 설정을 적용해 쓰기는 EBS, 읽기는 Local SSD 중심으로 구성
EBS detach나 instance 장애 상황에서도 degraded 상태로 서비스 유지 및 빠른 재복구 가능
Windmill으로 Kubernetes/AWS/ScyllaDB 관련 교체·복구 워크플로를 자동화

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...