필터 1
플랫폼은 왜 계속 다시 설계되어야 할까 - Server Platform Team 이야기
라포랩스
· 2026년 5월 26일
기타

플랫폼은 왜 계속 다시 설계되어야 할까 - Server Platform Team 이야기

서버 플랫폼 팀이 조직 성장에 맞춰 플랫폼을 계속 재설계하는 이유를 소개했습니다. AI 시대의 분석·개발·운영 변화와 그에 따른 가드레일까지 함께 다뤘습니다.

#SRE#CI/CD
82005분
신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례
라인
· 2026년 4월 22일
아키텍처

신뢰성 향상을 위한 SLO/SLI 도입 3편 - 서비스 적용 사례

SLI/SLO를 서비스 관점에서 정의하고 운영에 적용하는 방법을 정리했습니다. 오류 예산과 대시보드를 활용해 신뢰성과 개발 리소스 균형을 맞추는 사례를 소개했습니다.

#SRE#SLO
30005분
라포랩스 직무 인터뷰 시리즈 Colon: Backend Chapter Leader
라포랩스
· 2026년 3월 30일
기타

라포랩스 직무 인터뷰 시리즈 Colon: Backend Chapter Leader

라포랩스 Backend Chapter Leader의 커리어와 팀 운영 방식, AI Native 전환 방향을 소개했습니다. 시니어 엔지니어의 역할을 팀 임팩트와 리더십 중심으로 설명했습니다.

#AWS#SRE
87005분
SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기
라인
· 2026년 3월 24일
데브옵스

SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기

SRE 반복 작업과 문의 대응을 Slack 워크플로 중심의 봇으로 자동화한 개발기입니다. 배포와 일반 요청 처리 시간을 크게 줄이고 운영 가시성도 높였습니다.

#SRE#Slack
104005분
신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
라인
· 2026년 3월 19일
백엔드

신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

#SRE#SLI/SLO
68005분
“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다
무신사
· 2026년 2월 24일
백엔드

“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다

장애 심각도를 기술 지표가 아니라 사용자 경험과 비즈니스 영향으로 정의한 사례를 소개했습니다. CUJ와 CSP, SLI, SEV를 연결해 대시보드와 얼럿 운영까지 체계화했습니다.

#SRE#SLI
28005분
추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업
무신사
· 2026년 2월 22일
데브옵스

추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업

3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.

#SRE#SLO
17005분
장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클
우아한 형제들
· 2026년 2월 3일
아키텍처

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클

장애 대응에서 가장 중요한 초동 조치와 이를 관리하는 라이프사이클을 정리했습니다. 시간 기반 메트릭으로 병목을 찾고 운영 개선으로 연결하는 방식을 소개했습니다.

#SRE#모니터링
189005분
운영 비용을 95% 절감한 서버리스 온콜 시스템 구축기
올리브영
· 2025년 12월 24일
데브옵스

운영 비용을 95% 절감한 서버리스 온콜 시스템 구축기

외부 온콜 솔루션의 비용과 안정성 한계를 해결하기 위해 서버리스 기반 온콜 시스템을 구축했습니다. 이메일 트리거, 큐 기반 제어, SMS 이중화로 안정성과 비용 효율을 함께 높였습니다.

#AWS#server
88005분
[AWS re:Invent 2025 Keynote 요약] AI Agent 시대의 개막, 그리고 르네상스 개발자
여기어때
· 2025년 12월 24일
기타

[AWS re:Invent 2025 Keynote 요약] AI Agent 시대의 개막, 그리고 르네상스 개발자

AWS re:Invent 2025에서 AI 에이전트와 이를 지원하는 인프라·플랫폼의 방향을 정리했습니다. 개발자는 AI를 보조 도구로 활용하되, 검증과 책임, 시스템 사고를 더 강화해야 한다고 강조했습니다.

#AWS#LLM
39005분
우아한형제들이 장애를 놓치지 않고 탐지하는 방법
우아한 형제들
· 2025년 12월 2일
데브옵스

우아한형제들이 장애를 놓치지 않고 탐지하는 방법

기존 시스템 지표 모니터링의 한계를 보완하기 위해 서비스 이상 탐지 시스템을 도입했습니다. 중앙값 기반 탐지와 대응 자동화로 정밀도와 탐지율을 높이고 전파 시간을 크게 줄였습니다.

#SRE#모니터링
39005분
Our Journey to Using Host Network in Kubernetes Pods
당근마켓
· 2025년 10월 22일
데브옵스

Our Journey to Using Host Network in Kubernetes Pods

Kubernetes Pod의 Host Network 설정 개념과 장단점을 설명하고, DaemonSet과 Job Pod에 적용한 사례를 공유했습니다. IP 절감과 시작 속도 개선 효과를 얻었지만 포트 충돌 예외 처리가 필요했습니다.

#Kubernetes#SRE
85005분