

올리브영 QA의 AWS Lambda를 통한 On call 도입기
슬랙 기반 인시던트 전파의 지연 문제를 해결하기 위해 AWS Lambda와 CloudWatch Logs를 활용한 온콜 자동화 과정을 소개했습니다. Jira 티켓 생성과 담당자 알림까지 이어지는 흐름으로 장애 대응 속도를 높였습니다.
새로운 기술 블로그가 추가되었어요


슬랙 기반 인시던트 전파의 지연 문제를 해결하기 위해 AWS Lambda와 CloudWatch Logs를 활용한 온콜 자동화 과정을 소개했습니다. Jira 티켓 생성과 담당자 알림까지 이어지는 흐름으로 장애 대응 속도를 높였습니다.

캐치테이블이 Terraform과 AWS로 인프라를 토폴로지 기반으로 관리하는 방식을 소개했습니다.\n네트워크와 도메인, ACM을 분리 운영하며 운영 편의성과 안정성을 높인 사례입니다.

kubectl로 파드를 만들 때 내부에서 어떤 요청과 상태 변화가 오가는지 감사 로그를 따라가며 설명했습니다. kube-apiserver, kube-scheduler, kubelet의 역할 분담과 audit log 활용 포인트를 정리했습니다.

Terraform으로 온프레미스 서버 생성과 운영 자동화를 다룬 글입니다. AWX와 Prometheus 연동을 포함한 인프라 관리 흐름을 소개합니다.


AWS Well-Architected와 Terraform으로 안전한 마이그레이션·현대화 방안을 소개했습니다. 또한 Sentinel, Drift Detection, Continuous Validation을 활용한 운영 거버넌스 구성 사례를 설명했습니다.


버즈빌의 AWS 비용 최적화 사례를 소개하는 글입니다. 2023년 한 해 동안 월간 약 1.2억 원, 연간 14억 원을 절약한 경험을 공유합니다.

쿠버네티스 네이티브 워크플로와 LitmusChaos로 Flink 스트리밍 파이프라인의 카오스 테스트를 자동화한 사례를 소개했습니다. 네트워크 지연, 파드 삭제, 노드 실패를 검증하며 복구 전략과 운영 개선점을 정리했습니다.

Amazon Lightsail은 클라우드 초보자를 위한 입문형 서비스로, 저렴한 정액제와 1TB 트래픽을 제공합니다. 다만 확장성과 세부 설정에 제약이 있어 소규모 서비스에 적합합니다.

Argo Events로 이벤트성 트래픽에 맞춘 인프라 스케일링 자동화를 구성한 사례를 소개했습니다. Helm 템플릿 충돌과 권한 설정 문제를 해결한 과정도 함께 정리했습니다.


올리브영 QA가 Datadog을 이용해 배포 전후 이슈를 감지하고 로그, RUM, Synthetics로 품질을 관리한 사례를 소개했습니다. 추가로 Session Replay와 User Journeys 같은 기능의 활용 가능성도 살펴보았습니다.

Tekton과 PIPE를 활용해 대용량 스트리밍 파이프라인의 성능 테스트를 자동화한 사례를 소개했습니다. 동적 설정과 지표 수집을 결합해 반복 실험과 결과 공유를 빠르게 수행했습니다.

Planet AD의 EKS, DNS, DB, DynamoDB 운영 이슈를 안정화한 사례를 정리했습니다. 또한 KEDA, RDS Proxy, 설정 최적화로 AWS 비용도 약 27% 절감했습니다.