
Cuando copio texto de un archivo PDF y lo coloco en un editor de texto, termina destrozado de diversas maneras. Se pierden los formatos como negrita y cursiva; los saltos de línea suaves dentro de un párrafo de texto se convierten en saltos de línea duros; los guiones para dividir una palabra en dos líneas se conservan incluso cuando no deberían serlo; y las comillas simples y dobles se reemplazan por? señales.
Idealmente, me gustaría poder copiar texto de un PDF y convertir el formato a códigos HTML, convertir las "comillas tipográficas" a "y ', y hacer los saltos de línea correctamente. ¿Hay alguna forma de hacer esto?
Respuesta1
En primer lugar, debes entender qué es un PDF. Los archivos PDF están diseñados para imitar una página impresa y están diseñadossolocomo formato de salida, no como formato de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de caracteres (letras individuales o puntuación, etc.) o imágenes.En la mayoría de los casos, un PDF ni siquiera almacena información sobre dóndepalabratermina y otro comienza, y mucho menos cosas como pausas suaves versus pausas duras para los finales de párrafo.
(Algunos archivos PDF recientes almacenan información sobre este tema, pero es una tecnología nueva y tendrías suerte de encontrar archivos PDF como ese. Incluso si lo hicieras, es posible que tu visor de PDF no lo sepa).
De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de caracteres individuales qué es una palabra, qué es un párrafo, etc. Diferentes programas harán esto mejor que otros y también dependerá de cómo se creó el PDF. En cualquier caso, deberíasnuncaEspere resultados perfectos. No es lo mismo tener el PDF de salida que tener el documento de origen. Es mucho mejor intentar conseguirlo si puedes.
La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Ni siquiera eso dará resultados perfectos.
Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con parte del formato intacto, pero nuevamente, no espere resultados perfectos. Ver, por ejemplo,calibre (que se puede convertir al formato RTF),pdftohtml/pdfreflujoo elProcesador de textos AbiWord(con todos los complementos de importación/exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.
Pero no espere la perfección con ninguno de estos resultados. Estás yendo contra la corriente aquí. PDF simplemente no pretende ser un formato de entrada editable.
Respuesta2
Otra opción es descargar y empezar a utilizar el visor de PDF gratuito, Foxit (es bueno). Luego puede "Guardar como" y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace un tiempo cuando me convertí a Foxit.
Respuesta3
Hay una muy buena herramienta en línea llamadaSej-da. Se trata de manipulación avanzada de PDF. No hay ningún software para descargar. Como es unnuevoherramienta en línea actualmente todavía se encuentra en Beta. Le permite extraer texto de un PDF, además de proporcionar una gran variedad de otras funcionalidades de PDF.
Una breve revisión en video de las funciones de sejda se realizó el 14 de noviembre de 2012 en la Revisión 3 y se puede encontrar aquí:
Respuesta4
Puede utilizar Adobe Acrobat Pro para esto.
Para tablas: con Acrobat 9/10 había una función de selección de tablas. Con Acrobat X puedes simplemente hacer clic en Guardar como > Hoja de cálculo > Excel. Incluso concatena páginas en una larga hoja de cálculo. Característica impresionante.
Para texto: existe una función similar para exportar a MS Word. Guardar como > Word > Documento de Word.
Fuentes:
- http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
- Lo acabo de hacer y funcionó de maravilla.