
k3d(k3s distribution in docker)로 k8s 빠르게 구축하기
k3d로 k3s 기반의 Kubernetes 개발·테스트 환경을 빠르게 구축하는 방법을 소개했습니다.\nIngress와 CNI 조합, 설치 방식, 기본 테스트까지 함께 정리했습니다.

k3d로 k3s 기반의 Kubernetes 개발·테스트 환경을 빠르게 구축하는 방법을 소개했습니다.\nIngress와 CNI 조합, 설치 방식, 기본 테스트까지 함께 정리했습니다.

Karpenter 도입 과정에서 마주한 스케줄링 정합성, AMI 운영, Node Churn 문제를 정리했습니다. 적절한 budget과 리소스 보정으로 비용을 줄이고 안정성을 개선했습니다.

OBS 플랫폼에 SLI/SLO를 도입해 공용 미디어 플랫폼의 신뢰성을 측정하고 운영에 활용한 사례를 공유했습니다. 로그 기반 메트릭 수집과 Recording Rules로 대시보드 성능을 개선하고 알람 체계를 구성했습니다.


2025년 SRE 트렌드로 SLO, Toil, 옵저버빌리티, 인시던트 관리가 정리됐습니다. 성능 목표 관리와 운영 자동화, 사후 검토 문화의 중요성이 강조됐습니다.


2025년 SRE 트렌드로 SLO, Toil, 옵저버빌리티, 인시던트 관리 전략을 정리했습니다. 성능 목표와 자동화, 도구 선택, 사후 검토 문화의 중요성을 짚었습니다.

SRE 관점에서 SLI, SLO, SLA의 차이와 필요성을 설명하고 사용자 여정 기반으로 신뢰성을 정량화하는 방법을 소개했습니다. 또한 오류 예산을 활용해 안정성과 개발 속도를 함께 관리하는 운영 방향을 정리했습니다.

장애 대응의 목표를 서비스 정상화에 두고, 에스컬레이션과 기록, 종료 공유, 포스트모템까지의 절차를 체계화했습니다. FRT 기준 티어링과 역할 분담, 커뮤니케이션 중심 대응 원칙도 함께 제시했습니다.


Hyperconnect SRE팀이 Azar 핵심 컴포넌트를 대상으로 첫 장애 모의 훈련을 진행한 과정을 공유했습니다. 실제형 시나리오와 stage 환경 보강을 통해 완화 우선 대응과 팀 간 지표 공유의 중요성을 확인했습니다.