
Minha pergunta não se refere explicitamente ao LaTeX em si, mas ao PDF resultante. Para resumir a história: quero poder copiar texto de PDF para arquivo TXT como um texto contínuo. Acredito que este seja um problema comum para muitas pessoas.
Estou trabalhando em um documento LaTeX compilado em um arquivo PDF. Meu texto contém muitosquebras de palavrasno final de uma linha. Às vezes preciso copiar o texto resultante do PDF para otexto simplesarquivo ( *.txt
).Infelizmente:
Os PDFs são projetados para imitar uma página impressa e são projetados apenas como formato de saída, não como formato de entrada. um PDF é basicamente um mapa contendo a localização exata de caracteres (letras individuais ou pontuação, etc.) ou imagens.Na maioria dos casos, um PDF nem mesmo armazena informações sobre onde uma palavra termina e outra começa, muito menos coisas como quebras suaves versus quebras bruscas para finais de parágrafo.
Portanto, não deveria me surpreender quando compilar o seguinte texto em PDF:
\documentclass{article}
\usepackage{graphicx}
\begin{document}
\title{Introduction to \LaTeX{}}
\author{Author's Name}
\maketitle
\begin{abstract}
The abstract text goes here.
\end{abstract}
\section{Introduction}
This is \LaTeX text that will be copied and pasted. Verylongword. Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is a hill near Porangahau, south of Waipukurau in southern Hawke's Bay, New Zealand.
\subsection{Subsection Heading Here}
This text comes from Wikipedia.: The name "Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu" translates roughly as "The summit where Tamatea, the man with the big knees, the slider, climber of mountains, the land-swallower who travelled about, played his nose flute to his loved one".
\end{document}
o que resulta em:
e copio o texto inteiro para o arquivo TXT, recebo:
Introduction to L A TEX
Author’s Name
April 29, 2017
Abstract
The abstract text goes here.
1
Introduction
This is L A TEXtext that will be copied and pasted. Verylongword. Taumatawhakatangi-
hangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is
a hill near Porangahau, south of Waipukurau in southern Hawke’s Bay, New
Zealand.
1.1
Subsection Heading Here
This text comes from Wikipedia.: The name ”Taumatawhakatangihangakoauauo-
tamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu” translates roughly
as ”The summit where Tamatea, the man with the big knees, the slider, climber
of mountains, the land-swallower who travelled about, played his nose flute to
his loved one”.
A maioriairritantesão as quebras de palavras e os finais de linha que se transformam em novas linhas, para que o texto copiado não seja contínuo. Existe algum truque que possa me ajudar a copiar texto de PDF para arquivo TXT como texto contínuo?
Copiar texto diretamente da fonte TEX não é uma opção, pois o exemplo acima é muito simplificado – a fonte TEX típica contém macros, comandos de formatação e assim por diante.
Responder1
Publicar (como wiki da comunidade) o comentário de Marijn sobre o qual o OP disse “Obrigado @Marijn! Você pode postar sua resposta, para que eu possa aceitá-la.”
Háuma perguntasobre isso no Stack Overflow, e das respostas lá, aquela que o OP considera que funciona melhor édetex(opendetex). Isso é executado no arquivo TeX de origem e não no arquivo PDF.
Apenas para completar, outras opções mencionadas na resposta do Stack Overflow são:
- catdvique é executado no arquivo DVI
- Convertendo para HTML (com htlatex/tex4t/hyperlatex/hevea) e, em seguida, extraindo o texto do arquivo HTML
- Pandoc, um conversor versátil entre vários formatos
- LaTeX2RTF para converter para RTF e extrair o texto de alguma forma
- untex
Veja mais no FAQ do TeX:Conversão de (La)TeX para texto simples
Nota: Este é um wiki da comunidade, portanto, edite a resposta em vez de deixar comentários, se possível.
Responder2
Como você já mencionou que esta não é uma pergunta específica do LaTeX, você não deveria se surpreender, pois minha resposta também não é relacionada ao LaTeX :).
Uma maneira é provavelmente usar um chamadoSoftware OCR (reconhecimento óptico de caracteres).
- O software OCR é capaz de compreender imagens e convertê-las em texto editável.
- O software OCR pode até entender o layout de várias colunas e assim por diante.
- Sou leitor de uma famosa revista alemã de informática chamadanão.
- Na edição 6/2017 houve uma boa review do softwareAbbyy FineReader 14(que tem um teste de teste de 30 dias).
- Ou tente outro software de OCR comoOCR grátisou apenas pesquise no Google para outras opções :).