DynamoDB 핫 파티션을 해결하는 3가지 방법 (2): 인덱스 테이블로 GSI 떼어내기 구현편
DynamoDB managed GSI의 핫 파티션을 피하기 위해 인덱스 테이블 분리와 전파 파이프라인 구현 과정을 다뤘습니다. 운영 중에는 버스트 제어와 SQS 적체를 조정해 안정적으로 변경분을 반영했습니다.
ETL 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
20개 표시
DynamoDB managed GSI의 핫 파티션을 피하기 위해 인덱스 테이블 분리와 전파 파이프라인 구현 과정을 다뤘습니다. 운영 중에는 버스트 제어와 SQS 적체를 조정해 안정적으로 변경분을 반영했습니다.
Oracle 마이그레이션을 데이터 이전이 아닌 Use Case 이전으로 접근하는 전략을 소개했습니다. Lakehouse Federation, Lakebridge, GenAI Migration으로 단계적 자동화를 제안했습니다.
![[Databricks Data + AI Summit 2026] Oracle에서 Databricks Lakehouse로의 마이그레이션 전략](https://tech.cloud.nongshim.co.kr/wp-content/uploads/2606_databricks.png)
200개 이상 DB를 BigQuery로 옮기던 ELT 운영 문제를 DT Platform으로 분리·표준화했습니다. UI와 DSL, 자동 마이그레이션으로 리드타임과 리뷰 병목을 줄였습니다.
Amazon OpenSearch Service로 다국어 이력서 검색 파이프라인과 인덱싱 구조를 재설계했습니다. 전처리, 정규화, 임베딩 입력 전략이 검색 정확도를 크게 좌우했습니다.

Hive 기반 전체 재작성 ETL의 한계를 Iceberg와 Flink로 개선한 사례를 소개했습니다. 체크포인트, 2PC, 파티셔닝 최적화로 데이터 반영 속도를 12배 높였습니다.

기획서가 없는 블랙박스 시스템을 내재화하며, 입력·출력 정의와 병렬 검증으로 동일성을 증명했습니다. Kafka와 CDC, OpenSearch를 활용해 조회·업데이트·E2E 전환을 안전하게 검증했습니다.

DynamoDB Export/Glue/Import로 UserBadge를 분리해 16억 건 규모 마이그레이션을 수행했습니다. 비용은 36% 줄고 시간은 7일에서 약 6시간으로 단축했습니다.
User 테이블의 Badge 트래픽 병목을 분리해 온라인 마이그레이션으로 이전했습니다. AWS 관리형 서비스를 활용해 비용과 시간을 크게 줄이고 안정성도 높였습니다.
16억 건 규모의 User 테이블에서 Badge 업데이트가 쓰로틀링을 유발한 원인을 분석했습니다. Badge를 별도 테이블로 분리하고, Export/Import와 Glue로 안전한 마이그레이션 전략을 설계했습니다.
Badge 업데이트가 User 테이블 전체를 느리게 만든 원인을 분석하고, 별도 테이블 분리 전략을 설명했습니다. 16억 건 규모를 안전하게 옮기기 위해 Export/Import와 Glue 기반 마이그레이션을 설계했습니다.
정산파일 자동화 과정에서 파일 기반 예외 업무를 내부 DB 구조로 옮기고, 규칙과 검증 로직을 재설계했습니다. 파트너별 기준은 YAML 설정으로 분리해 유지보수성과 추적 가능성을 높였습니다.
Amazon RDS와 Aurora를 OpenSearch Ingestion과 연동해 준실시간 검색 동기화를 구현하는 방법을 소개했습니다. 초기 스냅샷과 CDC를 활용해 검색 인덱스를 자동으로 최신 상태로 유지하는 흐름을 설명했습니다.

카라트는 사용자 활성화 분석을 공통 Activation Layer로 표준화했습니다. 팀별 ad hoc 쿼리 대신 DBT 기반 모델로 신뢰성과 운영 안정성을 높였습니다.
이젬코는 AWS Glue, Athena, QuickSight, QuickSuite로 화장품 품질 데이터 분석 플랫폼을 구축했습니다. 운영 DB 부하를 줄이면서 자연어 질의 기반 AI 분석과 시각화 대시보드를 제공했습니다.

여행 상품 운영의 수작업 과정을 AI로 자동화한 구축 사례를 소개했습니다. 데이터 통합, 카테고리 매칭, 번역, 적재 최적화와 프롬프트 개선 과정을 다뤘습니다.
Trino는 빠른 실시간 분석과 멀티 소스 조인에 적합하고, Spark는 대규모 배치와 ETL에 유리하다고 설명했습니다. 두 엔진을 역할 분담하는 하이브리드 전략과 Trino의 운영 한계도 함께 정리했습니다.

Data Ontology 구축을 위해 Data Lineage로 Mart 데이터의 속성과 관계를 추출하는 방법을 소개했습니다. JsqlParser 기반 Table Level Lineage 파싱으로 WITH, INSERT, JOIN 흐름을 분석했습니다.

Step Functions와 Glue ETL로 고객사별 변경 데이터만 병렬 처리하는 아키텍처를 소개했습니다. 이를 통해 비용을 줄이고 준실시간 캠페인 분석 환경을 구축했습니다.

분산된 데이터 플랫폼의 메타데이터를 통합 관리하는 DataHub의 개념과 주요 기능을 소개했습니다. 검색, 계보 추적, 거버넌스, 접근 제어 관점에서 활용 포인트를 정리했습니다.

Amazon Bedrock의 비정형 데이터 처리 기능과 활용 사례를 정리했습니다. 멀티모달 처리와 GraphRAG로 RAG 품질을 높이는 방법을 소개했습니다.
