

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)
Python으로 HWP 본문 Section을 읽고 문단, 글자 모양, 문단 모양, 제어문자를 순서대로 파싱하는 방법을 설명했습니다. 샘플 파일을 통해 실제 서식과 파싱 결과가 일치함을 확인했습니다.
#Python#HWP
71005분


Python으로 HWP 본문 Section을 읽고 문단, 글자 모양, 문단 모양, 제어문자를 순서대로 파싱하는 방법을 설명했습니다. 샘플 파일을 통해 실제 서식과 파싱 결과가 일치함을 확인했습니다.


Python의 `olefile`과 `zlib`로 HWP `DocInfo`를 읽고, 레코드 헤더를 분해해 문서 속성·BinData·글꼴 정보를 파싱하는 방법을 설명했습니다. 또한 가변 길이 데이터와 확장 크기 처리로 HWP의 레코드 기반 구조를 이해할 수 있게 정리했습니다.


HWP 포맷의 내부 구조와 문서 정보 저장 방식을 살펴보았습니다. File Header와 DocInfo, BodyText 등 주요 스트림의 역할도 함께 설명했습니다.