LLM이지만 PDF는 읽고 싶어: 복잡한 PDF를 LLM이 이해하는 방법
AI
LLM이지만 PDF는 읽고 싶어: 복잡한 PDF를 LLM이 이해하는 방법
두줄요약
복잡한 PDF를 LLM이 이해하도록 돕는 PaLADIN을 소개했습니다. 표·차트·숫자 처리 아키텍처와 성능 평가, 서비스 적용 사례를 함께 다뤘습니다.
핵심 내용
- 복잡한 PDF를 LLM이 이해하도록 돕는 LLM-friendly PDF parser PaLADIN 소개
- 표, 차트, 숫자 인식과 표현을 위한 아키텍처와 모델 구성 설명
- Parsing 성능 평가, 속도 최적화, 증권사 리포트 서비스 적용 사례 공유
구조와 흐름
- PDF 중요성 및 LLM-friendly PDF parsing 필요성 제기
- NVIDIA와의 기술 탐색과 PoC를 거쳐 PaLADIN 아키텍처 설계
- 요소 검출, 표 추출, 차트 추출, OCR, 평가와 서비스 적용으로 전개
성능/운영 포인트
- Parsing 평가셋 구축과 parsing 능력 평가, 속도 측정, 성능 비교 수행
- AIB 증권사 리포트 서비스 적용 예시로 실사용 맥락 제시
- Table Cell 좌표 오류와 차트 정확도 개선을 향후 과제로 제시
