PDF compuesto por imágenes de texto: ¿cómo convertirlo a un archivo de texto?

PDF compuesto por imágenes de texto: ¿cómo convertirlo a un archivo de texto?

Tengo un PDF compuesto por muchas páginas escaneadas. A continuación se muestra un fragmento de ejemplo del texto (no se preocupe por la privacidad, ya que este es un documento disponible públicamente). Como puedes ver, es muy difícil de leer.

Ejemplo de PDF

Me gustaría ejecutar un programa que pueda leer este PDF, determinar el texto y generar un archivo que contenga el texto (archivo de texto, rebajas, archivo de Linux sin sufijos, incluso otro PDF limpio, cualquiera servirá), de modo que es más fácil de leer para mí y para los demás. No me importa demasiado el formato más allá de cosas como el espaciado adecuado de las oraciones.

Probé pdftotext, pero genera un archivo que (en un editor de texto) parece ser simplemente "^L^L^L" una y otra vez. También probé ocrmypdf, pero tampoco funcionó (aunque no estoy seguro de haberlo usado correctamente). Las complicaciones incluyen la relativa "suciedad" de las imágenes, que el texto contiene varios errores tipográficos, espacios adicionales y palabras mal escritas. ¿Qué otras opciones (utilizables en Linux) sugieres para extraer el texto de este documento?

Respuesta1

La salida deGratisOCR, usando el mayorMotor Tesseract OCR v.5.1, Esta abajo. Esto eranooptimizado ajustando los parámetros de la imagen (por ejemplo, contraste), ni seleccionando una fuente específica (probablemente se usó un ancho fijo), ni seleccionando uno de los archivos de vocabulario de entrenamiento (o creando uno nuevo con palabras como "Aronburg" específicas al tema), y sin duda mejoraría con esos cambios.

Si este es elsoloelemento a procesar, no valdría la pena el esfuerzo de mejorar el procesamiento, pero si tiene más imágenes, puede modificar la configuración de OCR para obtener mejores resultados.

eae lUlUlUlUllCU

' casi destruido, y nat angoliniano

¿INTRODUCCIÓN?

Esta descripción del gran señor, y sus resultados siguientes, es quizás la más grande jamás escrita por un autor, en la línea de cualquier guerra fabulosa, que alguna vez pueda titularse, con tal nae nama,.La guerra. Duró unos jabalíes y siete en esta historia, y el autor de este libro ha tardado más de once años en escribirlo. los detalles largos y gráficos, y ha luchado día a día para ganar |.

porque aunque christ inn sd estuvo del lado de esta larga y sangrienta guerra, y aunque christ = dans había estado amenazado con la derrota, a causa de un extraño misterio de Aronburg |" |

que no pudo ser resuelto por nadie, ni siquiera por mí mismo, finalmente ganaron cuando cambiaron la marea en contra. El enemigo en la terrible batalla de Aronburgs Rune: .

Aunque el misterio de Aronurg, como el asesinato del niño de Aronburg, amenazaba a mi

Enod las cosas de los tres estados cristianos, durante toda la duración de la gran guerra angoleña de Glandco, y se predijo que la solución de la guerra de Aronburg o la venganza de sus "asesinos" era la única esperanza para cualquier posibilidad. de la nación cristiana que ganó el cable, Abbieannia logró aplastar a Glondelinin, después de que Claverinia se arruinara, y '

Gon será aniquilado en hor anaiose

Respuesta2

Esto es para una sola persona que probablemente tardará un mínimo de cuatro años y siete meses, o con suerte sólo once u años. La mejor solución es ver si es posible que un fantasma de la multitud escriba este "Clásico" (o molestar a Google's Charity Branch), pero es necesario tener reglas básicas sobre si se deben conservar los errores ortográficos.

ingrese la descripción de la imagen aquí

Sólo las páginas anteriores están escritas a máquina y muchas de las posteriores son monocromáticas, por lo que sería necesario escanearlas nuevamente en escala de grises para tener la posibilidad de realizar OCR o transcripción humana. ingrese la descripción de la imagen aquí

información relacionada