
Recientemente convertí un PDF a Microsoft Word y tengo un problema después de cambiar el margen y el tamaño del papel del archivo convertido. Hay una marca de párrafo en medio del diálogo. Aquí está el ejemplo:
"Cuando Fillmore estaba muriendo, tenía mucha hambre. Pero su médico estaba tratando de matar de hambre su fiebre o lo que fuera.
Sin embargo, Fillmore no dejaba de querer comer, así que finalmente el médico le dio una pequeña cucharadita de sopa.
Y todo Sarcástico, Fillmore dijo: "El alimento es sabroso" y luego murió.
Se suponía que este diálogo estaba en el mismo párrafo y hay muchos de los mismos problemas en el artículo convertido. ¿Cómo lo soluciono? (Espero poder solucionarlo todo de una vez, lo cual supone un ahorro de tiempo).
Respuesta1
Por lo que entiendo sobre el problema anterior, está relacionado con el procesamiento de OCR, y OCR simplemente convierte lo que entiende y crea un documento, muchas veces haciendo traducciones incorrectas relacionadas con los caracteres que pueden malinterpretarse. De todos modos, esta no es una ciencia EXACTA todavía, ya que los programas OCR han evolucionado muy bien, pero su interpretación aún no es 100% positiva. Siempre necesitamos corregir esos errores, manualmente.
Respuesta2
No creo que las estructuras de párrafos de un documento PDF sean las mismas que las de cualquier programa de procesamiento de textos. Es solo la posición del texto en la hoja y los caracteres se representan como una imagen impresa o un carácter asociado, pero no creo que lleve a cabo la información de formato como Color, Párrafos y Línea siguiente o Ingresar código.