
Mi pregunta no se refiere explícitamente a LaTeX en sí, sino al PDF resultante. Para resumir: quiero poder copiar texto de un archivo PDF a un archivo TXT como un texto continuo. Creo que este es un problema común para muchas personas.
Estoy trabajando en un documento LaTeX que está compilado en un archivo PDF. Mi texto contiene muchossaltos de palabrasal final de una línea. A veces necesito copiar el texto resultante del PDF alTexto sin formatoarchivo (*.txt
).Desafortunadamente:
Los archivos PDF están diseñados para imitar una página impresa y están diseñados únicamente como formato de salida, no como formato de entrada. un PDF es básicamente un mapa que contiene la ubicación exacta de caracteres (letras individuales o puntuación, etc.) o imágenes.En la mayoría de los casos, un PDF ni siquiera almacena información sobre dónde termina una palabra y comienza otra, y mucho menos cosas como saltos suaves versus saltos duros para los finales de párrafo.
Por lo tanto, no debería sorprenderme que cuando compilo el siguiente texto en PDF:
\documentclass{article}
\usepackage{graphicx}
\begin{document}
\title{Introduction to \LaTeX{}}
\author{Author's Name}
\maketitle
\begin{abstract}
The abstract text goes here.
\end{abstract}
\section{Introduction}
This is \LaTeX text that will be copied and pasted. Verylongword. Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is a hill near Porangahau, south of Waipukurau in southern Hawke's Bay, New Zealand.
\subsection{Subsection Heading Here}
This text comes from Wikipedia.: The name "Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu" translates roughly as "The summit where Tamatea, the man with the big knees, the slider, climber of mountains, the land-swallower who travelled about, played his nose flute to his loved one".
\end{document}
lo que resulta en:
y copio el texto completo en un archivo TXT, obtengo:
Introduction to L A TEX
Author’s Name
April 29, 2017
Abstract
The abstract text goes here.
1
Introduction
This is L A TEXtext that will be copied and pasted. Verylongword. Taumatawhakatangi-
hangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is
a hill near Porangahau, south of Waipukurau in southern Hawke’s Bay, New
Zealand.
1.1
Subsection Heading Here
This text comes from Wikipedia.: The name ”Taumatawhakatangihangakoauauo-
tamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu” translates roughly
as ”The summit where Tamatea, the man with the big knees, the slider, climber
of mountains, the land-swallower who travelled about, played his nose flute to
his loved one”.
lo masirritanteSon los saltos de palabra y finales de línea que se convierten en nuevas líneas, de modo que el texto copiado no es continuo. ¿Existe algún truco que pueda ayudarme a copiar texto de un archivo PDF a un archivo TXT como texto continuo?
Copiar texto directamente desde la fuente TEX no es una opción, ya que el ejemplo anterior está muy simplificado: la fuente TEX típica contiene macros, comandos de formato, etc.
Respuesta1
Publicar (como wiki de la comunidad) el comentario de Marijn sobre el cual el OP dijo “¡Gracias @Marijn! Puedes publicar tu respuesta para que pueda aceptarla”.
Hayuna preguntasobre esto en Stack Overflow, y de las respuestas allí, la que el OP considera que funciona mejor esdetex(opendetex). Esto se ejecuta en el archivo TeX de origen en lugar del archivo PDF.
Solo para completar, otras opciones mencionadas en la respuesta de Stack Overflow son:
- catdvique se ejecuta en el archivo DVI
- Conversión a HTML (con htlatex / tex4t / hyperlatex /hevea), luego extrayendo texto del archivo HTML
- Pandoc, un conversor versátil entre muchos formatos
- LaTeX2RTF para convertir a RTF y luego extraer el texto de alguna manera
- untex
Vea más en las preguntas frecuentes de TeX:Conversión de (La)TeX a texto plano
Nota: Esta es una wiki de la comunidad, así que edite la respuesta en lugar de dejar comentarios, si es posible.
Respuesta2
Como ya mencionaste que esta no es una pregunta específica de LaTeX, no debería sorprenderte que mi respuesta tampoco esté relacionada con LaTeX :).
Probablemente una forma sea utilizar el llamadoSoftware OCR (reconocimiento óptico de caracteres).
- El software OCR puede comprender imágenes y convertirlas en texto editable.
- El software OCR incluso puede comprender el diseño de varias columnas, etc.
- Soy lector de una famosa revista informática alemana llamadaConnecticut.
- En el número 6/2017 hubo una buena reseña del software.Abbyy FineReader 14(que tiene una prueba de prueba de 30 días).
- O pruebe con otro software de OCR comoGratisOCRo simplemente busque en Google otras opciones :).