워드 문서 파일 형식: DOC 포맷의 구조와 이해 (1)
15
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Microsoft Word DOC(.doc) 포맷의 내부 구조와 파싱 과정을 단계적으로 설명합니다.

핵심 개념

  • OLE2(Compound File) 기반의 Storage와 Stream 구조
  • FIB(File Information Block)를 기준으로 데이터 위치(fc)와 크기(lcb) 추적
  • CP, PLC, STTB, RG 등 데이터 집합을 통해 텍스트와 속성 매핑

파일 구성과 파싱

  • WordDocument, 0Table/1Table, SummaryInformation, Data 등 주요 스트림 역할
  • Clx 구조(Pr c/Pcdt)를 통해 텍스트의 논리적 CP와 물리적 fc 연결
  • MS-DOC 공식 명세를 따라 구조 탐색하고 C++로 바이너리 데이터 읽기 및 유효성 검증

연관 게시글