Conversão automática de PDF para formato legível às cegas

Conversão automática de PDF para formato legível às cegas

Tenho um amigo cego e tenho um PDF que gostaria de lhe dar para ler.

O PDF tem cerca de 200 páginas de texto lindamente desenhado (com algumas imagens e figuras contendo texto, mas são raras o suficiente para serem coletadas por limpeza manual). Infelizmente, a estrutura lógica do PDF é mal representada: o PDF não tem conhecimento de seu fluxo de texto de duas colunas e nenhuma das entradas do índice e do índice são realmente links.

Tenho acesso fácil a uma máquina Linux e um acesso um pouco menos fácil a uma máquina Windows XP, e conheço expressões regulares e linguagens de script para automatizar a pós-procissão.

Até agora encontrei uma maneira de cortar o PDF ao meio verticalmente (usando o código dohttp://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/, após converter o PDF para PDF1.4 para não conter um crossrefstream ou como foi chamado), de modo que a maior parte do conteúdo esteja na ordem correta e, em seguida, use pdftohtmlpara extrair o texto com alguma marcação. Infelizmente, isto não é capaz de reproduzir a estrutura lógica do documento (reconhece algumas marcações em itálico, mas já perde todos os títulos dos capítulos, seções e subseções, que são sempre destacados usando o uso consistente do tamanho e da cor da fonte, sem mencionar as quebras de parágrafo etc.)

Eu tinha grandes esperanças emCalibre, mas essa ferramenta de conversão também não consegue lidar com PDFs de duas colunas mal marcados e também não consegue derivar estrutura das fontes usadas, embora tenha algumas vantagens em manter os parágrafos juntos.

Como faço para converter meu PDF em um formato adequado para acesso por pessoas cegas?

informação relacionada