
SRE 팀의 반복 작업을 10분의 1로 줄인 SRE 봇 개발기
SRE 반복 작업과 문의 대응을 Slack 워크플로 중심의 봇으로 자동화한 개발기입니다. 배포와 일반 요청 처리 시간을 크게 줄이고 운영 가시성도 높였습니다.

SRE 반복 작업과 문의 대응을 Slack 워크플로 중심의 봇으로 자동화한 개발기입니다. 배포와 일반 요청 처리 시간을 크게 줄이고 운영 가시성도 높였습니다.

AI 데이터센터에서 진상 역률과 무효전력으로 인한 전압 불안정 문제를 설명했습니다. SVC와 SVG 같은 보상장치로 전압 안정성을 확보하는 방법을 소개했습니다.

채널코퍼레이션이 Istio를 프로덕션에 도입하며 Sidecar 대신 Ambient mode를 선택한 배경을 정리했습니다. 또한 ztunnel, waypoint, HBONE 기반의 동작 원리와 장단점을 개괄했습니다.

Istio 서비스 메시 도입 배경과 Ambient mode 선택 이유를 정리했습니다. Sidecar보다 자원 효율과 확장성이 좋지만, 운영 복잡도와 장애 영향 범위 확대라는 단점도 함께 다뤘습니다.

Kubernetes 환경에서 OpenTelemetry를 도입해 로그·메트릭·트레이스를 통합 수집했습니다. 기존 정책과의 호환성과 데이터 무결성을 보완하며 MTTR도 개선했습니다.

Calico eBPF 모드와 Cilium을 쿠버네티스 CNI 관점에서 비교 분석했습니다. 안정성과 범용성, 성능과 관측성의 차이를 중심으로 선택 기준을 정리했습니다.
국립한밭대학교와 건양대학교 학생 대상 네이버클라우드 아카데미 Advanced 과정을 소개했습니다. 10일간의 집중 교육과 실무 아키텍처 설계, 프로젝트 구현 내용을 돌아보았습니다.


AWS 비밀 관리를 생성, 저장, 교체, 모니터링 관점에서 중앙화와 분산화로 나누어 비교했습니다. 조직 규모와 보안 요구에 맞춰 혼합 구성을 선택하고 IaC와 중앙 감사를 활용하는 방법을 제안했습니다.


MCP와 FastMCP로 EBS 성능 분석과 스냅샷 크기 계산을 자연어 기반으로 자동화하는 방법을 소개했습니다.대규모 볼륨 환경에서 병목 진단과 비용 최적화를 빠르게 수행하는 활용 사례를 정리했습니다.

구 LINE과 구 Yahoo Japan의 대규모 프라이빗 클라우드를 Flava로 통합한 아키텍처를 소개했습니다. 단일 리소스 풀, 업스트림 추종, VPC 기본화, 자동화와 관찰 가능성으로 운영 효율을 높였습니다.


AWS Batch와 EFS, ECR, DCV를 이용해 Isaac GR00T 미세 조정 파이프라인을 구축하는 방법을 소개했습니다. 시뮬레이션 평가와 체크포인트 시각화를 연결해 반복 가능한 로봇 학습 흐름을 만들었습니다.


AWS Organizations로 Aurora와 RDS의 자동 마이너 버전 업그레이드를 순서대로 롤아웃하는 정책을 소개했습니다. 개발, QA, 프로덕션을 단계적으로 검증하며 운영 가시성과 제어를 높이는 방법을 설명했습니다.