
우아한형제들이 장애를 놓치지 않고 탐지하는 방법
기존 시스템 지표 모니터링의 한계를 보완하기 위해 서비스 이상 탐지 시스템을 도입했습니다. 중앙값 기반 탐지와 대응 자동화로 정밀도와 탐지율을 높이고 전파 시간을 크게 줄였습니다.

기존 시스템 지표 모니터링의 한계를 보완하기 위해 서비스 이상 탐지 시스템을 도입했습니다. 중앙값 기반 탐지와 대응 자동화로 정밀도와 탐지율을 높이고 전파 시간을 크게 줄였습니다.

AI를 단순한 보조 도구가 아니라 업무 전환의 수단으로 보는 관점을 제시했습니다. ANTI 지표로 AI-Native 전환 수준을 측정하고 Level 4 업무를 늘리는 방법을 설명했습니다.

네이버 통합검색의 장애 대응을 위해 LLM Devops Agent를 설계하고 평가한 사례를 소개했습니다. v1의 한계를 바탕으로 v2 구조와 이상 탐지, 알람·액션 추천 방향을 공유했습니다.

레거시 검색 시스템을 OpenSearch 기반 MSA로 분리해 안정성과 운영성을 높였습니다. 대규모 마이그레이션과 문서화, 모니터링 체계를 정비해 향후 AI 검색 확장 기반도 마련했습니다.

로컬 LLM과 mcp-agent를 연결해 빌드 실패 분석과 크래시 로그 요약, Slack 리포트 자동화를 구현한 사례를 소개했습니다. AI를 프로젝트 자동화 동료로 활용하는 방법을 공유했습니다.


전시 API 서버의 트래픽 증가와 Scale-in 전환에 맞춰 성능 최적화 과정을 정리했습니다. MongoDB 커넥션, 재시도 정책, 캐시와 조회 로직을 조정해 TPS와 안정성을 함께 높였습니다.

JVM JIT Compiler 웜업의 기본과 기존 API 호출식 웜업의 부작용을 짚고, 라이브러리만 데우는 방식을 소개했습니다. 구현과 검증을 통해 이점과 한계를 함께 정리했습니다.

Telegraf를 활용한 커스텀 Exporter 개발 경험과 적용 가이드를 소개한 세션입니다. 오픈소스 기반 Exporter 도입 배경, 성능 검토, 적용 후 개선점을 공유했습니다.

OpenTelemetry와 Collector의 기본 개념, 생태계 구성요소를 정리한 발표 세션을 공유했습니다. SEER 전환 준비와 OpenTelemetry 기여 경험도 함께 소개했습니다.


미리디는 멀티모달 AI 디자인 품질을 높이기 위해 프롬프트 엔지니어의 역할을 중요하게 보고 있습니다. 프롬프트 설계뿐 아니라 실험, 평가 지표, 협업 역량까지 요구하고 있습니다.

카카오페이는 반복 수작업을 줄이기 위해 Kubeflow 기반 AI 플랫폼을 구축했습니다.\nH200 GPU, 하이브리드 클러스터, MIG로 성능과 자원 효율을 함께 다듬었습니다.

VPC Flow Logs로 내부망 통신 상태를 자동으로 진단한 사례를 소개했습니다.\n퍼블릭 클라우드 환경에서 네트워크 문제를 로그 기반으로 추적하는 접근을 다뤘습니다.