
사이트 신뢰성에 대한 지표는 어떻게 구성할까? (Feat. SRE)
서비스 전반의 모니터링과 별개로, 사이트 신뢰성을 위한 서비스 레벨 지표와 목표 범위를 고민한 글입니다. SRE 관점에서 Request 기준의 신뢰성 측정 체계를 구성하려는 방향을 다뤘습니다.
새로운 기술 블로그가 추가되었어요

서비스 전반의 모니터링과 별개로, 사이트 신뢰성을 위한 서비스 레벨 지표와 목표 범위를 고민한 글입니다. SRE 관점에서 Request 기준의 신뢰성 측정 체계를 구성하려는 방향을 다뤘습니다.


Airflow 개발 환경을 Docker compose로 컨테이너화해 배포와 유사한 상태에서 실행·디버깅할 수 있게 구성했습니다. PyCharm 연동, Executor 분리, 설정 통합으로 개발 생산성과 관리 편의도 높였습니다.

우분투 20 이상이 설치된 라즈베리파이 4에서 raspi-config와 카메라 설정 방법을 정리했습니다.\nbcm2711-rpi-4-b.dtb 오류 대응과 카메라 인식 확인 절차를 함께 다뤘습니다.

AWX를 이용해 CI/CD 파이프라인을 구성하고 레거시 배포 환경을 개선한 사례를 소개했습니다. 카카오페이의 배포 운영 맥락에서 적용 내용을 간단히 정리했습니다.


후기 서비스의 조회 병목을 해결하기 위해 AWS Opensearch를 도입한 사례를 정리했습니다. CQRS와 이벤트 기반 구조로 전환하고 성능 테스트와 모니터링까지 함께 적용했습니다.


GitHub Actions로 백엔드팀의 일부 CI/CD를 자동화하고, Reusable workflow와 Composite action으로 공통 작업을 재사용했습니다. 또한 캐시와 Marketplace 액션을 활용해 배포 편의성과 운영 효율을 높였습니다.

Karpenter를 도입해 EKS 노드 확장 속도를 높이고 비용 최적화를 시도했습니다. 스파크성 트래픽과 Spot 운영 이슈를 보완하며 안정성과 효율을 함께 개선했습니다.


스프링부트 3.0 네이티브 이미지를 쿠버네티스에 적용한 배포 방식의 변화를 다뤘습니다. 실행 시간과 이미지 크기 개선 효과를 수치로 보여줬습니다.

Slack Hubot으로 Jira, ArgoCD, Jenkins, Ansible을 연계해 업무를 자동화한 사례를 소개했습니다. ChatOps 도입으로 배포와 운영의 속도, 정확성, 공유 투명성을 높였습니다.


GitHub Action으로 lint, conflict, build 실패를 자동 점검하고 Slack 알림으로 공론화하는 방법을 소개했습니다. 배포 전 소스 안정성을 높이기 위한 Workflow 구성과 적용 사례를 설명했습니다.

Vector를 활용해 멀티 CDN 로그와 트래픽 모니터링 체계를 통합한 사례를 다뤘습니다. 로그 정규화, 메트릭 변환, 버퍼링과 모니터링까지 쿠버네티스 기반으로 고도화했습니다.


Terraform으로 EKS를 구성해 실시간 데이터 파이프라인과 CDC 파이프라인 구축을 다뤘습니다. 인프라를 선언적으로 관리하며 실시간 처리 환경을 준비하는 내용입니다.