오늘
Redis 6.x에서 Valkey 9.0으로: 운영 캐시 성능과 비용을 함께 개선한 전환기
Redis OSS 6.x 캐시를 Valkey 9.0으로 전환해 성능과 비용을 함께 개선한 사례를 정리했습니다. 업그레이드 중 client 재연결과 클러스터 대응 검증이 핵심이었습니다.

오늘
Redis OSS 6.x 캐시를 Valkey 9.0으로 전환해 성능과 비용을 함께 개선한 사례를 정리했습니다. 업그레이드 중 client 재연결과 클러스터 대응 검증이 핵심이었습니다.
세 플랫폼에 흩어진 배포 이력을 APM 트레이스 기반 신호로 통합했습니다.\n장애 스레드에 직전 배포를 자동 첨부해 대응 속도를 높였습니다.
자연어를 SQL로 바꾸는 과정에서 LLM이 만든 쿼리를 그대로 믿지 않고 여러 단계로 검증하는 구조를 소개했습니다. 도메인 지식은 DB에 담고, 실행 전후 게이트와 회귀 평가로 안전성과 품질을 지켰습니다.
아임웹이 기술 블로그를 새로 런칭하며 외부 플랫폼의 한계를 보완하고 자체 도메인 기반 구조를 만들었습니다. 또한 운영 설정, 작성 가이드, 외부 접점까지 함께 정비해 기술 조직의 포트폴리오로 삼았습니다.
13년 된 단일 Writer 구조에서 전사 장애가 반복되자, 새로운 DB 전환보다 캐싱과 쿼리 최적화를 먼저 적용했습니다. 그 결과 Writer 연결과 응답 시간이 크게 줄고, 장애 탐지와 복구 체계도 함께 개선했습니다.
인프라 인입 이슈를 AI 트리아지로 자동 분류하고 런북으로 라우팅하는 설계를 정리했습니다.\n분류와 실행을 분리하고, 사용자 컨펌 전 외부 액션을 막는 안전한 운영 원칙을 소개했습니다.
Datadog RUM 도입 과정에서 세션 과금 구조를 분석하고 의미 있는 세션만 남기는 전략을 적용했습니다. 봇 필터링과 샘플링 최적화로 비용을 약 90% 줄이며 관측 품질도 높였습니다.
개밥먹기는 만든 사람이 직접 써보며 사용자 불편을 찾는 방법이라고 설명했습니다. 이제는 AI에게 고객처럼 사용해 보게 하여 빠르게 점검할 수 있다고 제안했습니다.
Slack에서 자연어로 SQL을 실행하는 봇 쿼리곰을 전사 필수 도구로 만든 사례를 다뤘습니다. 멀티에이전트 검증, Hybrid RAG, 이중 메모리로 신뢰와 재방문을 끌어올렸습니다.
입사 10일 만에 인프라 온보딩을 문서, 검증, AI 대화의 3계층 구조로 다시 설계했습니다. 정책 자동화와 Multi-Agent 실습까지 더해 신규 입사자 경험을 개선했습니다.
MySQL Online DDL과 pt-osc의 메타데이터 잠금 차이를 비교했습니다. 바쁜 테이블은 pt-osc, 일반 변경은 INSTANT/INPLACE를 우선 검토하는 기준을 제시했습니다.
13년치 조직 기억을 Knowledge DB로 묶어 AI 에이전트가 작업 전 맥락을 먼저 보게 만든 사례입니다.\n장애 대응과 온보딩 효율을 높이되, 원본 검증과 guardrail로 hallucination을 줄였습니다.
공동구매 트래픽 폭증으로 재고 처리의 lock 경합이 병목이 되자 Redis와 Kafka 중심으로 구조를 재설계했습니다. 재고 경로를 단일화하고 비동기 반영과 fallback을 더해 약 20배 트래픽을 안정적으로 견뎠습니다.
AI 시대에는 남과 비교하는 FOMO보다 자기만의 해자를 쌓는 태도가 중요하다고 말했습니다. 통제 가능한 목표에 집중하며 많이 만들고 시도해 역량을 축적하자고 제안했습니다.
하나의 프롬프트로 세 AI를 역할 분담해 인프라 운영을 자동화한 사례를 소개했습니다. 작업 난이도에 따라 모드를 바꾸고 교차 검증을 넣어 속도와 안전성을 함께 높였습니다.
120일 동안 AI 에이전트 실수 15건을 guardrail로 바꾸며 인프라 방어선을 강화한 기록입니다.\nCLAUDE.md와 Memory를 겹쳐 세션 한계를 보완하고, 가용성을 99.981%까지 끌어올렸습니다.
인프라팀이 CLAUDE.md와 정책 파일로 AI 에이전트의 행동 기준을 통일했습니다. 반복 작업을 정책화해 온보딩, 장애 대응, 자동화를 함께 개선했습니다.