서식을 잃지 않고 PDF에서 텍스트를 복사하는 방법은 무엇입니까?

서식을 잃지 않고 PDF에서 텍스트를 복사하는 방법은 무엇입니까?

PDF 파일에서 텍스트를 텍스트 편집기로 복사하면 다양한 방식으로 텍스트가 엉망이 됩니다. 볼드체 및 이탤릭체와 같은 서식이 손실됩니다. 텍스트 단락 내의 부드러운 줄 바꿈은 강한 줄 바꿈으로 변환됩니다. 두 줄에 걸쳐 단어를 분리하는 대시는 유지되어서는 안 되는 경우에도 유지됩니다. 작은따옴표와 큰따옴표는 ?로 대체됩니다. 표지판.

이상적으로는 PDF에서 텍스트를 복사하고 서식을 HTML 코드로 변환하고 "큰 따옴표"를 " 및 '로 변환하고 줄 바꿈을 올바르게 수행할 수 있기를 원합니다. 이를 수행할 수 있는 방법이 있습니까?

답변1

먼저 PDF가 무엇인지 이해해야 합니다. PDF는 인쇄된 페이지를 모방하도록 설계되었으며오직입력 형식이 아닌 출력 형식으로. PDF는 기본적으로 문자(개별 문자나 구두점 등) 또는 이미지의 정확한 위치를 포함하는 지도입니다.대부분의 경우에, PDF는 PDF가 어디에 있는지에 대한 정보도 저장하지 않습니다.단어단락 끝의 부드러운 나누기와 강한 나누기와 같은 것들은 훨씬 적습니다.

(최근 몇몇 PDF에는 이 항목에 대한 일부 정보가 저장되어 있지만 이는 새로운 기술이므로 그런 PDF를 찾을 수 있다면 운이 좋을 것입니다. 찾았더라도 PDF 뷰어는 이에 대해 알지 못할 수도 있습니다.)

어쨌든 개별 문자의 위치에서 단어, 단락 등을 추출하는 일종의 "인공 지능"을 구현하는 것은 소프트웨어에 달려 있습니다. 다른 소프트웨어는 다른 소프트웨어보다 이 작업을 더 잘 수행할 것이며 PDF가 만들어진 방법에 따라 달라질 것입니다. 어쨌든, 당신은해야합니다절대완벽한 결과를 기대하세요. 출력 PDF를 갖는 것은 원본 문서를 갖는 것과 동일하지 않습니다. 가능하다면 그것을 얻으려고 노력하는 것이 훨씬 낫습니다.

귀하의 문제에 대한 표준 해결책은 Adobe Acrobat Professional(무료 리더가 아닌 고가의 제품)을 사용하여 PDF를 HTML로 변환하는 것입니다. 그것조차도 완벽한 결과를 얻지 못할 것입니다.

일부 서식을 그대로 유지하면서 PDF에서 텍스트를 추출하는 데 사용할 수 있는 무료 소프트웨어가 있지만 완벽한 결과를 기대하지는 마세요. 예를 들어,구경(RTF 형식으로 변환 가능),pdftohtml/pdfreflow아니면 그AbiWord 워드 프로세서(모든 가져오기/내보내기 플러그인이 활성화된 상태) OpenOffice용 PDF 가져오기 플러그인도 있습니다.

그러나 이러한 결과 중 어떤 것도 완벽함을 기대하지 마십시오. 당신은 여기서 곡물에 반대하고 있습니다. PDF는 편집 가능한 입력 형식이 아닙니다.

답변2

또 다른 옵션은 무료 PDF 뷰어인 Foxit(좋음)을 다운로드하여 사용하는 것입니다. 그런 다음 '다른 이름으로 저장'하고 .txt를 선택하여 텍스트 파일로 변환할 수 있습니다. 그러면 모든 서식이 유지됩니다. Foxit으로 전환한 후 얼마 전에 Adobe 사용을 중단했기 때문에 Adobe에서도 동일한 작업을 수행할 수 있는지 여부는 모르겠습니다.

답변3

라는 아주 좋은 온라인 도구가 있습니다.세즈다. 고급 PDF 조작을 다룹니다. 다운로드할 소프트웨어가 없습니다. 그것이로서새로운온라인 도구는 현재 아직 베타 버전입니다. PDF에서 텍스트를 추출할 수 있을 뿐만 아니라 다양한 PDF 기능도 제공합니다.

http://www.sejda.com/

sejda 기능에 대한 간략한 비디오 검토는 2012년 11월 14일 개정 3에서 수행되었습니다. 여기에서 확인할 수 있습니다.

http://revision3.com/tzdaily/sejda-online-pdf

답변4

이를 위해 Adobe Acrobat Pro를 사용할 수 있습니다.

테이블의 경우: Acrobat 9/10에는 테이블 선택 기능이 있었습니다. Acrobat X에서는 다른 이름으로 저장 > 스프레드시트 > Excel을 클릭하면 됩니다. 심지어 페이지를 하나의 긴 스프레드시트로 연결합니다. 멋진 기능입니다.

텍스트의 경우: MS Word로 내보내는 데에도 비슷한 기능이 있습니다. 다른 이름으로 저장 > 워드 > 워드 문서.

출처:

관련 정보