PDF를 맹인 읽을 수 있는 형식으로 자동 변환

2024-7-7 • tag-icon

시각 장애가 있는 친구가 있는데 그 친구에게 읽어보라고 주고 싶은 PDF가 있습니다.

PDF는 아름답게 디자인된 텍스트로 구성된 약 200페이지입니다(텍스트가 포함된 몇 장의 그림과 그림이 있지만 수동 정리로 찾을 수 있을 만큼 드물습니다). 불행히도 PDF의 논리적 구조는 잘못 표현되었습니다. PDF는 2열 텍스트 흐름을 인식하지 못하며 색인 및 목차 항목 중 어느 것도 실제로 링크가 아닙니다.

나는 Linux 시스템에 쉽게 액세스할 수 있고 Windows XP 시스템에 약간 덜 쉽게 액세스할 수 있으며 사후 처리를 자동화하기 위한 정규식 및 스크립팅 언어에 대한 방법을 알고 있습니다.

지금까지 나는 PDF를 수직으로 반으로 자르는 방법을 찾았습니다.http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/, 상호 참조 스트림 또는 기타 이름이 포함되지 않도록 PDF를 PDF1.4로 변환한 후), 대부분의 콘텐츠가 올바른 순서가 되도록 한 다음 pdftohtml일부 마크업이 포함된 텍스트를 추출하는 데 사용합니다. 불행하게도 이것은 문서의 논리적 구조를 재현할 수 없습니다(일부 기울임꼴 표시는 인식하지만 이미 모든 장, 섹션 및 하위 섹션 헤드라인을 잃어버렸습니다. 이러한 헤드라인은 단락 구분은 물론 일관된 글꼴 크기 및 색상 사용을 사용하여 항상 강조 표시됩니다). 등.)

나는 큰 기대를 품고 있었다구경그러나 해당 변환 도구는 잘못 표시된 2열 PDF도 처리할 수 없으며, 단락을 함께 유지하는 데 몇 가지 이점이 있지만 사용된 글꼴에서 구조를 파생할 수도 없습니다.

내 PDF를 시각 장애인이 접근할 수 있는 형식으로 변환하려면 어떻게 해야 합니까?

관련 정보