¿Cómo convertir un archivo pdf persa al formato de Microsoft Word?

¿Cómo convertir un archivo pdf persa al formato de Microsoft Word?

Tengo un archivo pdf que es escritura persa y es unDe derecha a izquierda. Dado que el persa usa el formato UTF-8, no puedo convertirlo a texto sin formato en Microsoft Word, ni tampoco puedo copiar y pegar el texto que genera caracteres ilegibles. He probado muchos software comounipdfy e-Pdf Converter, sin embargo, después de la conversión, los caracteres aún no se muestran correctamente. Incluso probé el OCR pero nuevamente apareció el mismo problema. El pdf no tiene contraseña ni restricciones.

¿Alguien tiene alguna otra idea?

Editar: De hecho, intenté crear un archivo en MS Word y convertirlo a PDF, después de eso nuevamente tuve el mismo problema con el archivo PDF (incluso se conocía la codificación).

Respuesta1

Tuve el mismo problema al convertir archivos pdf a word. Después de copiar y pegar en Word, el formato cambió y causó problemas. Probé varios convertidores en línea pero también fallaron.
El único método que funcionó fue el siguiente:

  1. Abra el archivo pdf con Adobe Acrobat Reader, luego en el menú archivo elija imprimir. De los nombres de las impresoras, elija Adobe Acrobat. Sí, ¡estás a punto de crear un pdf a partir de un pdf!
  2. Abra el nuevo archivo pdf con Google Chrome (arrastre y suelte el archivo en Chrome).
  3. Ahora simplemente seleccione todo el texto (ctrl + A) y cópielo/péguelo en un archivo de Word en blanco.

Respuesta2

Muy a menudo, los archivos PDF en escrituras no latinas (especialmente escrituras RTL como árabe, hebreo y farsi) son generados por software que en cierto modo LTR-ifica el texto a nivel de palabra o fragmento de oración, o simplemente de alguna manera obtiene los glifos correctos para pantalla pero obtienes galimatías para el texto "lógico". En estos casos, hay muy poco que hacer excepto escribir un convertidor personalizado que efectivamente no es una opción.

Sin embargo, si puede descubrir cómo se crea el archivo (lo que a menudo se indica en los metadatos accesibles mediante lectores de PDF comunes), podría haber una opción para abrir el archivo en la aplicación que lo generó, o al menos podría hacerlo. tu pregunta es más específica.

Respuesta3

Actualmente he trabajado para convertir un pdf a un texto persa editable. La mejor solución que he encontrado es utilizar Google Doc de la siguiente manera.

  1. Debes convertir páginas pdf a imágenes. Para esto puedes usar Adobe Acrobat Reader (no Adobe Reader, que es gratuito) o en Linux uso GIMP para abrir un PDF y luego selecciono abrir cada página en una imagen separada. Es tu propia elección.
  2. Sube los archivos de imagen a Google Drive
  3. Vaya a Google Drive y haga clic derecho en cada imagen y luego haga clicopen with google doc
  4. Espere hasta que Google Doc abra un texto editable de su imagen.
  5. copiarlo a word

No sé si existe algún método automatizado. Espero que algún día tenga tiempo para hacer una solicitud para hacer esto automáticamente.

Respuesta4

Sé que es demasiado tarde para responder, pero para cualquiera que tenga la misma pregunta, podría sugerirDelix.irque es un conversor persa de OCR y PDF a Word.

Descargo de responsabilidad: soy el fundador de delix.ir y espero que no sea tratado como un anuncio.

información relacionada