

AX 시대를 위한 한글 문서: 오픈소스 생태계 현황 분석과 활성화 전략
한글 문서는 AI 학습에 유리한 공개형 포맷이며, PDF 변환보다 직접 추출이 더 효율적이라고 설명했습니다. 오픈소스 도구와 개발자 지원을 강화해 생태계를 키워야 한다고 제안했습니다.
#HWPX#오픈소스
35005분


한글 문서는 AI 학습에 유리한 공개형 포맷이며, PDF 변환보다 직접 추출이 더 효율적이라고 설명했습니다. 오픈소스 도구와 개발자 지원을 강화해 생태계를 키워야 한다고 제안했습니다.


HWPX 본문 구조와 section.xml·header.xml의 참조 관계를 Python으로 파싱하는 과정을 설명했습니다.문단과 run, 서식 정보를 연결해 텍스트·표·그림을 추출하는 방법을 다루었습니다.


HWPX를 ZIP 기반 XML 포맷으로 보고 Python 내장 라이브러리로 메타정보를 추출하는 방법을 설명했습니다. 문서 시작 번호, 커서 위치, 바이너리 목록을 `Document` 객체로 구조화하는 흐름을 다뤘습니다.


HWPX는 XML 기반의 ZIP 패키지 구조로 문서 데이터를 저장하는 개방형 포맷입니다. 주요 파일과 폴더의 역할, 본문과 메타데이터가 어떻게 구성되는지 정리했습니다.