Como converter um arquivo PDF persa para o formato Microsoft Word?

Como converter um arquivo PDF persa para o formato Microsoft Word?

Eu tenho um arquivo pdf que é escrita persa e é umDireita para esquerda. Como o persa usa o formato UTF-8, não posso convertê-lo em texto simples no Microsoft Word, nem copiar e colar o texto resultante de caracteres ilegíveis. Eu tentei muitos softwares comounipdfe e-Pdf Converter, porém, após a conversão, os caracteres ainda não são exibidos corretamente. Eu até tentei OCR, mas novamente apareceu o mesmo problema. O pdf não possui nenhuma senha ou restrição.

Alguém tem alguma outra ideia?

Editar: na verdade tentei criar um arquivo no MS Word e convertê-lo em PDF, depois disso novamente tive o mesmo problema com o arquivo PDF (até a codificação era conhecida)

Responder1

Eu tive o mesmo problema ao converter arquivos PDF para Word. Após copiar/colar no Word, a formatação mudou e causou problemas. Tentei vários conversores online, mas eles também falharam.
O único método que funcionou foi o seguinte:

  1. Abra o arquivo pdf com o Adobe Acrobat Reader e, no menu arquivo, escolha imprimir. Nos nomes das impressoras, escolha Adobe Acrobat. Sim, você está prestes a criar um PDF a partir de um PDF!
  2. Abra o novo arquivo PDF com o Google Chrome (arraste e solte o arquivo no Chrome).
  3. Agora basta selecionar todo o texto (ctrl + A) e copiar/colar em um arquivo Word em branco.

Responder2

Muitas vezes, arquivos PDF em scripts não latinos (especialmente scripts RTL como árabe, hebraico e farsi) são gerados por software que meio que modifica o texto em LTR no nível da palavra ou do fragmento de frase, ou apenas de alguma forma obtém os glifos corretos para display, mas você obtém algo sem sentido para o texto 'lógico'. Nestes casos, há muito pouco a ser feito, exceto escrever um retroconversor personalizado, o que efetivamente não é uma opção.

No entanto, se você conseguir descobrir como o arquivo é criado - o que geralmente é indicado nos metadados acessíveis por meio de leitores de PDF comuns - poderá haver uma opção para abrir o arquivo no aplicativo que o gerou, ou pelo menos você poderia fazer sua pergunta mais específica.

Responder3

Atualmente tenho trabalhado para converter um PDF em um texto persa editável. A melhor solução que encontrei é usar o Google Doc da seguinte maneira.

  1. Você deve converter páginas PDF em imagens. Para isso você pode usar o Adobe Acrobat Reader (não o Adobe Reader que é gratuito) ou no Linux eu uso o GIMP para abrir um PDF e depois seleciono abrir cada página em uma imagem separada. A escolha é sua.
  2. Faça upload dos arquivos de imagem para o Google Drive
  3. Vá para o Google Drive e clique com o botão direito em cada imagem e clique emopen with google doc
  4. espere até que o Google Doc abra um texto editável da sua imagem
  5. Copie para o Word

Não sei se existe algum método automatizado. Espero que algum dia eu tenha tempo para fazer um pedido para fazer isso automaticamente.

Responder4

Eu sei que é tarde demais para responder, mas para quem tiver a mesma pergunta, eu poderia sugerirDelix.irque é um conversor persa de OCR e PDF para Word.

Isenção de responsabilidade: sou o fundador do delix.ir e espero que não seja tratado como uma propaganda.

informação relacionada