如何以純文字形式取得此 PDF 中的資料?

如何以純文字形式取得此 PDF 中的資料?

這個文件從第5頁開始,寫入多個資料行。我需要純文字格式的這些行。我怎樣才能提取它們?

答案1

您可以使用以下命令將 PDF 的內容轉換為純文字pdf轉文本

只要運行pdftotext Appendix.pdf,它就會吐出Appendix.txt其中所有純文字。

答案2

簡單地複製它們有什麼問題嗎?

Cartesian coordinates for all structures:

React

6 6.390727 0.132095 4.960391
6 5.969971 -1.321389 4.932512
8 6.229932 -2.095504 5.854485
7 5.288242 -1.652799 3.816634
6 4.675691 -2.942048 3.614359
6 3.234362 -2.800745 3.119131
6 3.107771 -2.046443 1.784738
8 3.907686 -1.094593 1.556228
8 2.188216 -2.443833 1.008985
6 -5.322697 -1.975980 -1.333635
6 -4.229638 -1.620947 -0.307343
16 -2.533574 -1.760488 -0.994608
6 8.431743 -0.064459 -3.050202
6 7.281182 -0.571938 -2.237196
6 7.017856 -0.342487 -0.904258
6 6.208644 -1.400670 -2.720284
7 5.852218 -0.976787 -0.527814

答案3

  1. 將文件儲存到本機。

  2. http://www.pdfonline.com/pdf-to-word-converter/會將 pdf 轉換為 Word。較大的文件可能只能部分轉換,因此您可能必須將其分塊轉換。

  3. 在 Word '07 中,文件 --> 選項 --> 進階 -->「在文件內貼上」和「在文件之間貼上」設定為「僅保留文字」。

  4. 將一個文件中的資料剪下/貼上到自身中,將其他文件中的資料剪下/貼上到第一個文件中。

之後,您應該有 1 個大的純文字 Word 文件。

相關內容