Formato de linhas ao copiar de PDF

Formato de linhas ao copiar de PDF

Estou tentando copiar texto de um arquivo PDF para word, porém quando colo o texto em um arquivo word, as linhas do arquivo PDF ficam "mais curtas", então não ocupa toda a linha do word e tenho que fazer isso manualmente junte as frases para que pareça normal (usando backspace).

Eu tentei o copiador de PDF, embora funcione, ele removeu todas as quebras de linha, então não há parágrafos retidos, mas o arquivo que estou tentando copiar é muito grande e preciso que os parágrafos reais sejam retidos. Existe uma maneira de fazer com que as palavras se ajustem às linhas o máximo possível e respeitem também os parágrafos reais?

Responder1

O texto no PDF consiste em fragmentos de texto posicionados de forma absoluta e, no caso geral, as quebras de linha e de parágrafo não são indicadas especificamente. Portanto, a tarefa de determiná-los corretamente torna-se mais um OCR, que é uma tarefa complexa, e você provavelmente precisará de um software complexo para obter resultados satisfatórios.

O próprio MS Word, por exemplo, possui o recurso de importar documentos PDF, mas também nem sempre reconhece perfeitamente as quebras (por exemplo, quando os fragmentos de texto estão um pouco ‘inclinados’, como é o caso dos documentos digitalizados e editados por OCR. documentos).

informação relacionada