

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2)
HWPX 본문 구조와 section.xml·header.xml의 참조 관계를 Python으로 파싱하는 과정을 설명했습니다.문단과 run, 서식 정보를 연결해 텍스트·표·그림을 추출하는 방법을 다루었습니다.
#Python#XML
108005분


HWPX 본문 구조와 section.xml·header.xml의 참조 관계를 Python으로 파싱하는 과정을 설명했습니다.문단과 run, 서식 정보를 연결해 텍스트·표·그림을 추출하는 방법을 다루었습니다.


Python의 `olefile`과 `zlib`로 HWP `DocInfo`를 읽고, 레코드 헤더를 분해해 문서 속성·BinData·글꼴 정보를 파싱하는 방법을 설명했습니다. 또한 가변 길이 데이터와 확장 크기 처리로 HWP의 레코드 기반 구조를 이해할 수 있게 정리했습니다.