私には視覚障害のある友人がおり、彼に読んでもらいたい PDF があります。
PDF は約 200 ページに及ぶ美しくデザインされたテキストで構成されています (テキストを含む画像や図もいくつかありますが、それらは手動クリーンアップで拾い上げられるほどまれです)。残念ながら、PDF の論理構造は適切に表現されていません。PDF は 2 列のテキスト フローを認識しておらず、索引や目次のエントリはどれも実際にはリンクではありません。
私は Linux マシンに簡単にアクセスでき、Windows XP マシンにもそれほど簡単ではありませんがアクセスでき、ポスト処理を自動化するための正規表現とスクリプト言語の使い方を知っています。
これまでのところ、PDFを縦半分に切る方法を見つけました(http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/、PDF を PDF1.4 に変換して、crossrefstream などを含まないようにした後、ほとんどのコンテンツが正しい順序になるようにしてから、を使用してpdftohtml
マークアップ付きのテキストを抽出します。残念ながら、これではドキュメントの論理構造を再現できません (一部の斜体マークは認識されますが、章、セクション、サブセクションの見出しはすべて失われます。これらの見出しは常に一貫したフォント サイズと色を使用して強調表示され、段落区切りなども表示されません)。
私は大きな期待を抱いていた口径ただし、この変換ツールは、マークアップが不適切な 2 列の PDF を処理することもできず、段落をまとめる上でいくつかの利点はあるものの、使用されているフォントから構造を導き出すこともできません。
PDF を視覚障碍者がアクセスしやすい形式に変換するにはどうすればよいですか?