태그

ETL 기술 블로그 글

ETL 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 34개최신 20개 표시

#AWS Glue19 #DynamoDB54 #migration38 #LLM995 #AWS635 #S395 #Spark49 #Kafka228 #Amazon Bedrock112 #Airflow67 #BigQuery56 #OpenSearch47

DynamoDB 핫 파티션을 해결하는 3가지 방법 (2): 인덱스 테이블로 GSI 떼어내기 구현편

DynamoDB managed GSI의 핫 파티션을 피하기 위해 인덱스 테이블 분리와 전파 파이프라인 구현 과정을 다뤘습니다. 운영 중에는 버스트 제어와 SQS 적체를 조정해 안정적으로 변경분을 반영했습니다.

#DynamoDB#AWS#Kinesis

1320

DynamoDB 핫 파티션을 해결하는 3가지 방법 (2): 인덱스 테이블로 GSI 떼어내기 구현편

2026년 6월 24일

백엔드

[Databricks Data + AI Summit 2026] Oracle에서 Databricks Lakehouse로의 마이그레이션 전략

Oracle 마이그레이션을 데이터 이전이 아닌 Use Case 이전으로 접근하는 전략을 소개했습니다. Lakehouse Federation, Lakebridge, GenAI Migration으로 단계적 자동화를 제안했습니다.

#Databricks#Oracle#migration

1300

[Databricks Data + AI Summit 2026] Oracle에서 Databricks Lakehouse로의 마이그레이션 전략

2026년 6월 4일

백엔드

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

200개 이상 DB를 BigQuery로 옮기던 ELT 운영 문제를 DT Platform으로 분리·표준화했습니다. UI와 DSL, 자동 마이그레이션으로 리드타임과 리뷰 병목을 줄였습니다.

#ELT#ETL#Airflow

13300

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

2026년 5월 18일

백엔드

GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱

Amazon OpenSearch Service로 다국어 이력서 검색 파이프라인과 인덱싱 구조를 재설계했습니다. 전처리, 정규화, 임베딩 입력 전략이 검색 정확도를 크게 좌우했습니다.

#Amazon OpenSearch Service#검색#ETL

2900

GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱

2026년 4월 3일

백엔드

Hive에서 Iceberg로: 데이터 반영 속도 12배 향상의 비밀

Hive 기반 전체 재작성 ETL의 한계를 Iceberg와 Flink로 개선한 사례를 소개했습니다. 체크포인트, 2PC, 파티셔닝 최적화로 데이터 반영 속도를 12배 높였습니다.

#Apache Iceberg#Apache Flink#Kafka

6400

2026년 3월 20일

백엔드

기획서 없이 내재화하기: 검증 로직으로 동일함을 증명하다

기획서가 없는 블랙박스 시스템을 내재화하며, 입력·출력 정의와 병렬 검증으로 동일성을 증명했습니다. Kafka와 CDC, OpenSearch를 활용해 조회·업데이트·E2E 전환을 안전하게 검증했습니다.

#Kafka#CDC#OpenSearch

12300

2026년 2월 26일

백엔드

메시지 전송 트래픽 100배에도 끄떡 없는 User 테이블로 뜯어고치기 (2)

DynamoDB Export/Glue/Import로 UserBadge를 분리해 16억 건 규모 마이그레이션을 수행했습니다. 비용은 36% 줄고 시간은 7일에서 약 6시간으로 단축했습니다.

#DynamoDB#AWS Glue#S3

000

메시지 전송 트래픽 100배에도 끄떡 없는 User 테이블로 뜯어고치기 (2)

2026년 2월 26일

백엔드

메시지 전송 트래픽 100배에도 끄떡 없는 User 테이블로 뜯어고치기 (2)

User 테이블의 Badge 트래픽 병목을 분리해 온라인 마이그레이션으로 이전했습니다. AWS 관리형 서비스를 활용해 비용과 시간을 크게 줄이고 안정성도 높였습니다.

#DynamoDB#AWS Glue#S3

1600

메시지 전송 트래픽 100배에도 끄떡 없는 User 테이블로 뜯어고치기 (2)

2026년 1월 22일

백엔드

메시지 트래픽 100배에도 끄떡 없게 고객 테이블 뜯어고치기 (1)

16억 건 규모의 User 테이블에서 Badge 업데이트가 쓰로틀링을 유발한 원인을 분석했습니다. Badge를 별도 테이블로 분리하고, Export/Import와 Glue로 안전한 마이그레이션 전략을 설계했습니다.

#DynamoDB#AWS Glue#ETL

000

메시지 트래픽 100배에도 끄떡 없게 고객 테이블 뜯어고치기 (1)

2026년 1월 22일

백엔드

메시지 트래픽 100배에도 끄떡 없게 고객 테이블 뜯어고치기 (1)

Badge 업데이트가 User 테이블 전체를 느리게 만든 원인을 분석하고, 별도 테이블 분리 전략을 설명했습니다. 16억 건 규모를 안전하게 옮기기 위해 Export/Import와 Glue 기반 마이그레이션을 설계했습니다.

#DynamoDB#AWS Glue#ETL

1100

2026년 1월 19일

백엔드

“정산파일 자동화”를 하려다, 규칙과 검증을 다시 설계하다

정산파일 자동화 과정에서 파일 기반 예외 업무를 내부 DB 구조로 옮기고, 규칙과 검증 로직을 재설계했습니다. 파트너별 기준은 YAML 설정으로 분리해 유지보수성과 추적 가능성을 높였습니다.

#Google Apps Script#YAML#ETL

8600

“정산파일 자동화”를 하려다, 규칙과 검증을 다시 설계하다

2026년 1월 16일

데브옵스

Amazon RDS 및 Amazon Aurora와 Amazon OpenSearch Ingestion 통합하기

Amazon RDS와 Aurora를 OpenSearch Ingestion과 연동해 준실시간 검색 동기화를 구현하는 방법을 소개했습니다. 초기 스냅샷과 CDC를 활용해 검색 인덱스를 자동으로 최신 상태로 유지하는 흐름을 설명했습니다.

#AWS#Amazon RDS#Amazon Aurora

5200

Amazon RDS 및 Amazon Aurora와 Amazon OpenSearch Ingestion 통합하기

2026년 1월 2일

아키텍처

Standardizing User Activation: How We Built a Shared Data Layer at Karrot

카라트는 사용자 활성화 분석을 공통 Activation Layer로 표준화했습니다. 팀별 ad hoc 쿼리 대신 DBT 기반 모델로 신뢰성과 운영 안정성을 높였습니다.

#DBT#Airflow#ETL

7100

Standardizing User Activation: How We Built a Shared Data Layer at Karrot

2025년 12월 9일

화장품 스마트팩토리 솔루션 전문기업 이젬코와 Amazon QuickSuite로 구현한 AI 기반 품질 데이터 분석 플랫폼

이젬코는 AWS Glue, Athena, QuickSight, QuickSuite로 화장품 품질 데이터 분석 플랫폼을 구축했습니다. 운영 DB 부하를 줄이면서 자연어 질의 기반 AI 분석과 시각화 대시보드를 제공했습니다.

#AWS Glue#Amazon Athena#Amazon QuickSight

4600

화장품 스마트팩토리 솔루션 전문기업 이젬코와 Amazon QuickSuite로 구현한 AI 기반 품질 데이터 분석 플랫폼

2025년 12월 9일

AICX: 수작업의 한계를 넘다. AI 기반 여행 상품 운영 자동화 구축기

여행 상품 운영의 수작업 과정을 AI로 자동화한 구축 사례를 소개했습니다. 데이터 통합, 카테고리 매칭, 번역, 적재 최적화와 프롬프트 개선 과정을 다뤘습니다.

#LLM#prompt#ETL

7200

AICX: 수작업의 한계를 넘다. AI 기반 여행 상품 운영 자동화 구축기

2025년 10월 16일

백엔드

효율적인 데이터 분석을 위한 Trino와 Spark의 하이브리드 사용 방법

Trino는 빠른 실시간 분석과 멀티 소스 조인에 적합하고, Spark는 대규모 배치와 ETL에 유리하다고 설명했습니다. 두 엔진을 역할 분담하는 하이브리드 전략과 Trino의 운영 한계도 함께 정리했습니다.

#Trino#Spark#Kubernetes

7200

효율적인 데이터 분석을 위한 Trino와 Spark의 하이브리드 사용 방법

2025년 7월 14일

아키텍처

Data Lineage를 활용한 Data Ontology 출발

Data Ontology 구축을 위해 Data Lineage로 Mart 데이터의 속성과 관계를 추출하는 방법을 소개했습니다. JsqlParser 기반 Table Level Lineage 파싱으로 WITH, INSERT, JOIN 흐름을 분석했습니다.

#Java#Data Lineage#Ontology

10700

2025년 6월 26일

데브옵스

AWS Glue ETL을 활용한 CRM 데이터의 효율적인 병렬처리 전략

Step Functions와 Glue ETL로 고객사별 변경 데이터만 병렬 처리하는 아키텍처를 소개했습니다. 이를 통해 비용을 줄이고 준실시간 캠페인 분석 환경을 구축했습니다.

#AWS Glue#ETL#Step Functions

4200

2025년 4월 4일

기타

Datahub(오픈 소스 메타데이터 플랫폼)

분산된 데이터 플랫폼의 메타데이터를 통합 관리하는 DataHub의 개념과 주요 기능을 소개했습니다. 검색, 계보 추적, 거버넌스, 접근 제어 관점에서 활용 포인트를 정리했습니다.

#DataHub#메타데이터#데이터 거버넌스

8900

2025년 2월 26일

비정형 데이터! Amazon Bedrock으로 제대로 활용하기

Amazon Bedrock의 비정형 데이터 처리 기능과 활용 사례를 정리했습니다. 멀티모달 처리와 GraphRAG로 RAG 품질을 높이는 방법을 소개했습니다.

#AWS#Amazon Bedrock#RAG

3700

관련 태그

최신 게시글

DynamoDB 핫 파티션을 해결하는 3가지 방법 (2): 인덱스 테이블로 GSI 떼어내기 구현편

[Databricks Data + AI Summit 2026] Oracle에서 Databricks Lakehouse로의 마이그레이션 전략

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱

Hive에서 Iceberg로: 데이터 반영 속도 12배 향상의 비밀

기획서 없이 내재화하기: 검증 로직으로 동일함을 증명하다

메시지 전송 트래픽 100배에도 끄떡 없는 User 테이블로 뜯어고치기 (2)

메시지 전송 트래픽 100배에도 끄떡 없는 User 테이블로 뜯어고치기 (2)

메시지 트래픽 100배에도 끄떡 없게 고객 테이블 뜯어고치기 (1)

메시지 트래픽 100배에도 끄떡 없게 고객 테이블 뜯어고치기 (1)

“정산파일 자동화”를 하려다, 규칙과 검증을 다시 설계하다

Amazon RDS 및 Amazon Aurora와 Amazon OpenSearch Ingestion 통합하기

Standardizing User Activation: How We Built a Shared Data Layer at Karrot

화장품 스마트팩토리 솔루션 전문기업 이젬코와 Amazon QuickSuite로 구현한 AI 기반 품질 데이터 분석 플랫폼

AICX: 수작업의 한계를 넘다. AI 기반 여행 상품 운영 자동화 구축기

효율적인 데이터 분석을 위한 Trino와 Spark의 하이브리드 사용 방법

Data Lineage를 활용한 Data Ontology 출발

AWS Glue ETL을 활용한 CRM 데이터의 효율적인 병렬처리 전략

Datahub(오픈 소스 메타데이터 플랫폼)

비정형 데이터! Amazon Bedrock으로 제대로 활용하기