
내 질문은 LaTeX 자체가 아니라 결과 PDF를 명시적으로 언급합니다. 간단히 말해서 PDF에서 TXT 파일로 텍스트를 연속 텍스트로 복사하고 싶습니다. 나는 이것이 많은 사람들에게 공통적인 문제라고 생각합니다.
PDF 파일로 컴파일된 LaTeX 문서를 작업 중입니다. 내 텍스트에는 많은 내용이 포함되어 있습니다.단어 나누기줄 끝에서. PDF의 결과 텍스트를 복사해야 하는 경우가 있습니다.일반 텍스트파일(*.txt
).안타깝게도:
PDF는 인쇄된 페이지를 모방하도록 설계되었으며 입력 형식이 아닌 출력 형식으로만 설계되었습니다. PDF는 기본적으로 문자(개별 문자나 구두점 등) 또는 이미지의 정확한 위치를 포함하는 지도입니다.대부분의 경우에, PDF는 한 단어가 끝나고 다른 단어가 시작되는 위치에 대한 정보도 저장하지 않으며 단락 끝의 소프트 브레이크와 하드 브레이크 같은 정보도 저장하지 않습니다.
따라서 다음 텍스트를 PDF로 컴파일할 때 놀라서는 안 됩니다.
\documentclass{article}
\usepackage{graphicx}
\begin{document}
\title{Introduction to \LaTeX{}}
\author{Author's Name}
\maketitle
\begin{abstract}
The abstract text goes here.
\end{abstract}
\section{Introduction}
This is \LaTeX text that will be copied and pasted. Verylongword. Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is a hill near Porangahau, south of Waipukurau in southern Hawke's Bay, New Zealand.
\subsection{Subsection Heading Here}
This text comes from Wikipedia.: The name "Taumatawhakatangihangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu" translates roughly as "The summit where Tamatea, the man with the big knees, the slider, climber of mountains, the land-swallower who travelled about, played his nose flute to his loved one".
\end{document}
결과는 다음과 같습니다.
전체 텍스트를 TXT 파일에 복사하면 다음과 같은 결과가 나타납니다.
Introduction to L A TEX
Author’s Name
April 29, 2017
Abstract
The abstract text goes here.
1
Introduction
This is L A TEXtext that will be copied and pasted. Verylongword. Taumatawhakatangi-
hangakoauauotamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu is
a hill near Porangahau, south of Waipukurau in southern Hawke’s Bay, New
Zealand.
1.1
Subsection Heading Here
This text comes from Wikipedia.: The name ”Taumatawhakatangihangakoauauo-
tamateaturipukakapikimaungahoronukupokaiwhenuakitanatahu” translates roughly
as ”The summit where Tamatea, the man with the big knees, the slider, climber
of mountains, the land-swallower who travelled about, played his nose flute to
his loved one”.
제일화나게 하는복사된 텍스트가 연속되지 않도록 새 줄이 되는 단어 분리 및 줄 끝입니다. PDF에서 TXT 파일로 텍스트를 연속 텍스트로 복사하는 데 도움이 될 수 있는 방법이 있습니까?
위의 예는 매우 단순화되었기 때문에 TEX 소스에서 직접 텍스트를 복사하는 것은 옵션이 아닙니다. 일반적인 TEX 소스에는 매크로, 서식 지정 명령 등이 포함되어 있습니다.
답변1
OP가 “@Marijn에게 감사드립니다!”라고 말한 Marijn의 댓글을 커뮤니티 위키로 게시합니다. 답변을 게시해 주시면 제가 수락할 수 있습니다.”
있다질문Stack Overflow에 대한 이에 대한 답변과 OP가 가장 잘 작동하는 답변은 다음과 같습니다.디텍스(오픈디텍스). 이는 PDF 파일이 아닌 소스 TeX 파일에서 실행됩니다.
완전성을 위해 스택 오버플로 답변에 언급된 다른 옵션은 다음과 같습니다.
- 캣디비DVI 파일에서 실행됩니다.
- HTML로 변환(htlatex / tex4t / hyperlatex /헤베아), 그런 다음 HTML 파일에서 텍스트를 추출합니다.
- 판독, 다양한 형식 간의 다목적 변환기
- LaTeX2RTF를 사용하여 RTF로 변환한 다음 어떻게든 텍스트를 추출합니다.
- 언텍스
TeX FAQ에서 자세한 내용을 확인하세요:(La)TeX에서 일반 텍스트로의 변환
참고: 이것은 커뮤니티 위키이므로 가능하면 댓글을 남기지 말고 답변을 편집하십시오.
답변2
이미 LaTeX 관련 질문이 아니라고 언급하셨으므로 제 답변도 LaTeX 관련 질문이 아니라는 사실에 놀라실 필요는 없습니다. :)
한 가지 방법은 아마도 소위를 사용하는 것입니다.OCR(광학 문자 인식) 소프트웨어.
- OCR 소프트웨어는 사진을 이해하고 편집 가능한 텍스트로 변환할 수 있습니다.
- OCR 소프트웨어는 다중 열 레이아웃 등도 이해할 수 있습니다.
- 나는 독일의 유명한 컴퓨터 잡지의 독자입니다.안돼.
- 2017년 6월호에는 소프트웨어에 대한 좋은 리뷰가 있었습니다.애비 파인리더 14(30일 테스트 평가판이 있습니다).
- 아니면 다음과 같은 다른 OCR 소프트웨어를 사용해 보세요.FreeOCR아니면 다른 옵션을 보려면 Google을 검색하세요 :).