
백엔드
제조업 데이터를 활용한 BI 대시보드 통합 및 자동화 후기
두줄요약
Airflow와 PySpark로 제조업 기준 정보와 생산 데이터를 통합해 Spotfire 대시보드를 자동화했습니다.\n대용량 처리와 정기 갱신으로 현장 의사결정 속도와 데이터 신뢰성을 높였습니다.
문제 상황
- 생산, 품질, 설비, 물류 등 각 팀의 기준 정보가 서로 다른 형태로 관리되는 상황
- 시스템에 없는 기준 정보는 현장 인터뷰와 수작업 조사에 의존해야 하는 제약
- 대용량 제조 데이터를 정기 수집·가공해 Spotfire 대시보드로 실시간 시각화해야 하는 요구
해결 방법
- Apache Airflow DAG로 수집, 전처리, 적재, 대시보드 갱신 흐름 자동화
- PySpark로 워크시트 기준 정보 정규화, 수작업 조사 데이터 병합, 제조 데이터 조인 처리
- Parquet 포맷 저장과 Spotfire Schedule Updates 연동으로 최신 데이터 재조회 구성
성능/운영 포인트
- Airflow와 Spark 로그, 태스크 상태 모니터링으로 장애 대응 속도 향상
- PySpark 분산 처리로 수십 GB 규모 데이터 처리 시간 단축
- 표준 코드, 컬럼명, 데이터 타입 사전 정의와 검증 로직으로 정합성 강화
적용해볼 점
- 팀별 이질적 기준 정보는 초기에 표준 키와 포맷을 먼저 정의
- 외부 워크시트와 수작업 조사 데이터를 하나의 기준 테이블로 통합
- BI 대시보드는 자동 갱신과 컬럼 기반 파일 포맷을 함께 고려
