¿Cómo copiar texto de un PDF sin perder formato?

Question 1

En primer lugar, debes entender qué es un PDF. Los archivos PDF están diseñados para imitar una página impresa y están diseñadossolocomo formato de salida, no como formato de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de caracteres (letras individuales o puntuación, etc.) o imágenes.En la mayoría de los casos, un PDF ni siquiera almacena información sobre dóndepalabratermina y otro comienza, y mucho menos cosas como pausas suaves versus pausas duras para los finales de párrafo.

(Algunos archivos PDF recientes almacenan información sobre este tema, pero es una tecnología nueva y tendrías suerte de encontrar archivos PDF como ese. Incluso si lo hicieras, es posible que tu visor de PDF no lo sepa).

De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de caracteres individuales qué es una palabra, qué es un párrafo, etc. Diferentes programas harán esto mejor que otros y también dependerá de cómo se creó el PDF. En cualquier caso, deberíasnuncaEspere resultados perfectos. No es lo mismo tener el PDF de salida que tener el documento de origen. Es mucho mejor intentar conseguirlo si puedes.

La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Ni siquiera eso dará resultados perfectos.

Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con parte del formato intacto, pero nuevamente, no espere resultados perfectos. Ver, por ejemplo,calibre (que se puede convertir al formato RTF),pdftohtml/pdfreflujoo elProcesador de textos AbiWord(con todos los complementos de importación/exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.

Pero no espere la perfección con ninguno de estos resultados. Estás yendo contra la corriente aquí. PDF simplemente no pretende ser un formato de entrada editable.

Answer

En primer lugar, debes entender qué es un PDF. Los archivos PDF están diseñados para imitar una página impresa y están diseñadossolocomo formato de salida, no como formato de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de caracteres (letras individuales o puntuación, etc.) o imágenes.En la mayoría de los casos, un PDF ni siquiera almacena información sobre dóndepalabratermina y otro comienza, y mucho menos cosas como pausas suaves versus pausas duras para los finales de párrafo.

(Algunos archivos PDF recientes almacenan información sobre este tema, pero es una tecnología nueva y tendrías suerte de encontrar archivos PDF como ese. Incluso si lo hicieras, es posible que tu visor de PDF no lo sepa).

De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de caracteres individuales qué es una palabra, qué es un párrafo, etc. Diferentes programas harán esto mejor que otros y también dependerá de cómo se creó el PDF. En cualquier caso, deberíasnuncaEspere resultados perfectos. No es lo mismo tener el PDF de salida que tener el documento de origen. Es mucho mejor intentar conseguirlo si puedes.

La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Ni siquiera eso dará resultados perfectos.

Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con parte del formato intacto, pero nuevamente, no espere resultados perfectos. Ver, por ejemplo,calibre (que se puede convertir al formato RTF),pdftohtml/pdfreflujoo elProcesador de textos AbiWord(con todos los complementos de importación/exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.

Pero no espere la perfección con ninguno de estos resultados. Estás yendo contra la corriente aquí. PDF simplemente no pretende ser un formato de entrada editable.

Question 2

Otra opción es descargar y empezar a utilizar el visor de PDF gratuito, Foxit (es bueno). Luego puede "Guardar como" y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace un tiempo cuando me convertí a Foxit.

Answer

Otra opción es descargar y empezar a utilizar el visor de PDF gratuito, Foxit (es bueno). Luego puede "Guardar como" y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace un tiempo cuando me convertí a Foxit.

Question 3

Hay una muy buena herramienta en línea llamadaSej-da. Se trata de manipulación avanzada de PDF. No hay ningún software para descargar. Como es unnuevoherramienta en línea actualmente todavía se encuentra en Beta. Le permite extraer texto de un PDF, además de proporcionar una gran variedad de otras funcionalidades de PDF.

http://www.sejda.com/

Una breve revisión en video de las funciones de sejda se realizó el 14 de noviembre de 2012 en la Revisión 3 y se puede encontrar aquí:

http://revision3.com/tzdaily/sejda-online-pdf

Answer

Hay una muy buena herramienta en línea llamadaSej-da. Se trata de manipulación avanzada de PDF. No hay ningún software para descargar. Como es unnuevoherramienta en línea actualmente todavía se encuentra en Beta. Le permite extraer texto de un PDF, además de proporcionar una gran variedad de otras funcionalidades de PDF.

http://www.sejda.com/

Una breve revisión en video de las funciones de sejda se realizó el 14 de noviembre de 2012 en la Revisión 3 y se puede encontrar aquí:

http://revision3.com/tzdaily/sejda-online-pdf

Question 4

Puede utilizar Adobe Acrobat Pro para esto.

Para tablas: con Acrobat 9/10 había una función de selección de tablas. Con Acrobat X puedes simplemente hacer clic en Guardar como > Hoja de cálculo > Excel. Incluso concatena páginas en una larga hoja de cálculo. Característica impresionante.

Para texto: existe una función similar para exportar a MS Word. Guardar como > Word > Documento de Word.

Fuentes:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Lo acabo de hacer y funcionó de maravilla.

Answer

Puede utilizar Adobe Acrobat Pro para esto.

Para tablas: con Acrobat 9/10 había una función de selección de tablas. Con Acrobat X puedes simplemente hacer clic en Guardar como > Hoja de cálculo > Excel. Incluso concatena páginas en una larga hoja de cálculo. Característica impresionante.

Para texto: existe una función similar para exportar a MS Word. Guardar como > Word > Documento de Word.

Fuentes:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
Lo acabo de hacer y funcionó de maravilla.

¿Cómo copiar texto de un PDF sin perder formato?

Respuesta1

Respuesta2

Respuesta3

Respuesta4

información relacionada