JVM heap은 멀쩡한데 왜 메모리가 터질까? — Docker 환경 네이티브 메모리 삽질기 (Part 1)
Docker 환경에서 힙은 멀쩡한데 메모리가 계속 늘어나는 원인을 추적한 글입니다. NMT로 JVM 내부를 확인했지만 실제 RSS와 차이가 있어 네이티브 메모리 문제를 의심했습니다.
모니터링 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
20개 표시
Docker 환경에서 힙은 멀쩡한데 메모리가 계속 늘어나는 원인을 추적한 글입니다. NMT로 JVM 내부를 확인했지만 실제 RSS와 차이가 있어 네이티브 메모리 문제를 의심했습니다.
AI 협업 시대에는 테스트 코드가 미래 세션의 AI가 읽는 실행 가능한 프롬프트라는 관점이 중요합니다. @DisplayName과 실패 케이스로 비즈니스 의도를 남기고, 인간 검토와 교차 검증으로 맥락을 보완했습니다.
에이전틱 AI를 프로덕션에 올리기 위한 AgentOps와 파운데이션, 게이트웨이 패턴을 소개했습니다. Amazon Bedrock AgentCore로 모델, 도구, 에이전트 접근을 통합하는 방법을 설명했습니다.
SSL/TLS 인증서 유효기간이 계속 단축되는 흐름과 그에 따른 운영 리스크를 정리했습니다. 자동화와 모니터링을 중심으로 한 대응 전략도 함께 제시했습니다.
RUM 기반의 엔드투엔드 모니터링 서비스 nFront RUM을 소개했습니다. 외부 작업 없이 품질 측정과 AI 리포트를 제공하는 내부 솔루션을 다뤘습니다.
X
토스 QA Platform 팀이 매주 반복되는 대규모 릴리즈에서 품질을 지키는 방식과 자체 테스트 도구들을 소개했습니다. AI와 자동화를 활용하되 사람은 품질 기준과 최종 판단에 집중하는 방향을 제시했습니다.

매 세션 초기화되는 AI의 한계를 넘어 자율 성장하는 에이전트 프레임워크 GNOSIS를 소개했습니다. 설계 원칙, 구현 사례, 검증과 안전 보장 논점을 함께 다뤘습니다.
서드파티 SDK 환경의 한계를 보완하기 위해 전용 JavaScript 에러 모니터링 시스템을 AI Agent로 구축한 사례를 공유했습니다. 외부 SaaS 대체 가능성과 사내 인프라 기반 도구의 가능성을 함께 살펴봤습니다.
에이아이트릭스가 인도네시아 발리에서 열린 HIMSS APAC 참가 후기를 공유했습니다. 부스 데모와 의료진 반응, 지역 의료정보 인프라 흐름을 소개했습니다.
AI 에이전트의 자율성 확대에 따른 보안과 책임 문제를 다뤘습니다. 하네스 엔지니어링과 Datadog Agent Builder로 가드레일을 두는 방법을 소개했습니다.
AI 에이전트의 조용한 실패를 잡기 위한 에이전트 옵저버빌리티 개념과 APM·LLM 옵저버빌리티와의 차이를 정리했습니다. Langfuse와 Gemini로 PR 리뷰 에이전트를 추적·평가하는 실습과 운영 시 유의사항도 다뤘습니다.

공공 특화 에이전트인 AI국민비서 구축 경험과 노하우를 공유한 발표 글입니다. 모델 선택, 속도 최적화, Safety 대응, 평가 체계까지 다뤘습니다.
캔버스 에디터 드래그 성능 저하의 원인을 React가 아닌 Layout Thrashing으로 분석했습니다. Read와 Write를 분리한 4-Phase 배칭으로 reflow를 줄여 60fps를 회복했습니다.
AI 에이전트가 실제 업무를 수행하려면 프롬프트만이 아니라 실행 환경 설계가 중요하다고 설명했습니다. 도구, 권한, 테스트, 로그, 승인 흐름까지 포함한 하네스 엔지니어링을 강조했습니다.
AWS Unified Operations는 주요 핵심 워크로드를 위해 사전 예방과 신속 대응을 결합한 운영 지원 체계입니다. 전담 전문가와 AI 인사이트로 마이그레이션, 보안, 최적화까지 함께 지원했습니다.
VictoriaMetrics의 내부 구조를 수집, 저장, 쿼리 흐름 중심으로 소개했습니다. 대규모 분산 메트릭 시스템 운영 관점의 이해 포인트를 정리했습니다.
현대오토에버가 GenAI Sandbox와 해커톤으로 전사 GenAI 실험 환경을 구축했습니다. 14개 팀이 참여해 업무 자동화와 생산성 향상 사례를 만들었습니다.

KBO 리그 이닝 교체 때 몰리는 광고 요청을 분산하기 위해 prefetching과 내부 캐시 구조를 적용했습니다. 그 결과 외부 광고 서버 부하와 지연을 줄이고 버퍼링 지표도 개선했습니다.
Kafka 파티션 수를 처리량과 컨슈머 catch-up 기준으로 계산하는 산정식을 정리했습니다. 운영 환경 실측값을 반영해 토픽별 초기 파티션 수를 일관되게 정하는 방법을 제안했습니다.