Como copiar texto de um PDF sem perder a formatação?

Como copiar texto de um PDF sem perder a formatação?

Quando copio o texto de um arquivo PDF para um editor de texto, ele fica mutilado de várias maneiras. A formatação como negrito e itálico é perdida; quebras de linha suaves em um parágrafo de texto são convertidas em quebras de linha rígidas; travessões para quebrar uma palavra em duas linhas são preservados mesmo quando não deveriam; e aspas simples e duplas são substituídas por ? sinais.

Idealmente, eu gostaria de poder copiar texto de um PDF e converter a formatação em códigos HTML, "aspas inteligentes" convertidas em "e 'e quebras de linha feitas corretamente. Existe alguma maneira de fazer isso?

Responder1

Em primeiro lugar, você precisa entender o que é um PDF. Os PDFs são projetados para imitar uma página impressa e são projetadosapenascomo formato de saída, não como formato de entrada. um PDF é basicamente um mapa contendo a localização exata de caracteres (letras individuais ou pontuação, etc.) ou imagens.Na maioria dos casos, um PDF nem mesmo armazena informações sobre ondepalavratermina e outro começa, muito menos coisas como pausas suaves versus quebras fortes para finais de parágrafo.

(Alguns PDFs recentes armazenam algumas informações sobre essas coisas, mas essa é uma tecnologia nova e você teria sorte se encontrasse PDFs como esse. Mesmo que o fizesse, seu visualizador de PDF talvez não soubesse disso.)

De qualquer forma, cabe ao seu software implementar algum tipo de “inteligência artificial” para extrair apenas da localização de caracteres individuais o que é uma palavra, o que é um parágrafo e assim por diante. Diferentes softwares farão isso melhor do que outros e também dependerão de como o PDF foi feito. Em qualquer caso, você devenuncaespere resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. É muito melhor tentar obtê-lo, se puder.

A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional (o caro, não o leitor gratuito) para converter o PDF em HTML. Mesmo isso não produzirá resultados perfeitos.

Existe um software gratuito que pode ser usado para extrair texto de PDFs com parte da formatação intacta, mas, novamente, não espere resultados perfeitos. Veja, por exemplo,calibre (que pode ser convertido para o formato RTF),pdftohtml/pdfreflowou oProcessador de texto AbiWord(com todos os plugins de importação/exportação habilitados). Há também um plugin de importação de PDF para OpenOffice.

Mas, por favor, não espere perfeição com nenhum desses resultados. Você está indo contra a corrente aqui. PDF simplesmente não é um formato de entrada editável.

Responder2

Outra opção é baixar e começar a usar o visualizador de PDF gratuito, Foxit (é bom). Então você pode 'Salvar como' e escolher .txt para convertê-lo em um arquivo de texto. Isso preservará toda a formatação. Não sei se você pode fazer o mesmo no Adobe porque parei de usá-lo há um tempo quando converti para o Foxit.

Responder3

Existe uma ferramenta online muito boa chamadaSej-da. Trata-se de manipulação avançada de PDF. Não há software para download. Como é umnovoferramenta online ainda está em versão beta. Ele permite extrair texto de um PDF, além de fornecer uma infinidade de outras funcionalidades do PDF

http://www.sejda.com/

Uma breve revisão em vídeo das funções sejda foi feita em 14 de novembro de 2012 pela Revisão 3 e pode ser encontrada aqui:

http://revision3.com/tzdaily/sejda-online-pdf

Responder4

Você pode usar o Adobe Acrobat Pro para isso.

Para tabelas: Com o Acrobat 9/10 havia um recurso de seleção de tabelas. Com o Acrobat X, basta clicar em Salvar como > Planilha > Excel. Ele até concatena páginas em longas planilhas. Recurso incrível.

Para texto: existe um recurso semelhante para exportar para MS Word. Salvar como > Word > Documento do Word.

Fontes:

informação relacionada