
我有數千個科學 PDF 需要重命名,其中許多沒有元資料。我希望能夠建立一個自動操作,可以打開一個資料夾,然後打開每個 PDF,複製標題並重新命名文件並保存在新資料夾中。我花了幾個小時試圖解決這個問題,所以我非常感謝任何幫助。我有 Apple G5 2.26Gz 四核,運行 os10.6 謝謝!
答案1
有門德利,一種線上研究工具,可讓您管理科學出版物。
它有一個 Mendeley Desktop 工具,您可以在其中拖放 PDF。 Mendeley 將自動解析 PDF 中的作者和標題。
然後,您可以透過右鍵單擊並「重新命名文檔檔案...」來重新命名該檔案。您也可以一次重新命名多個檔案。
它適用於 Windows 和 OS X。
答案2
如果我理解正確的話,您想要提取 PDF 第一頁上的論文標題(通常比摘要和後續文本的字體更大)並將其用作文件名。
恐怕你可能找不到一刀切的解決方案,因為 PDF 開頭可能有不同數量的非標題文本,因此很難提取來自不同期刊的 PDF 的實際標題。
要獲得適用於一定比例的 PDF 的解決方案,我可能會
- 使用 Ghostscript 的 pdf2ps 和 ps2ascii從 PDF 中提取純文字
- 解析此純文字以取得第一個千字節左右的期刊標題
- 根據期刊的不同,嘗試提出一種啟發式方法,從明文中提取論文標題。
當然,如果您能找到一個可以從 PDF 中提取相對文字大小以及純文字的工具,那可能也會有很大幫助。
祝你好運 - 看看你是否找到一種自動化的方法會很有趣!我自己下載文章時所做的主要事情是以系統化的方式命名它們,但之後如果能有一些東西來做這件事肯定會很棒......
答案3
如果您不想使用外部軟體並想編寫自己的腳本,請嘗試使用文字編輯器以純文字形式開啟 pdf,然後尋找模式。搜尋關鍵字“標題”,或搜尋標題中的單字並查看它們出現的位置。
舉幾個例子(化學領域的科學期刊):
ACS(美國化學會):標題出現在第二次出現關鍵字「/title」之後的括號之間
Wiley 發佈:標題出現在第一次(也是唯一一次)關鍵字「/Title」出現後的括號之間
RSc 出版:沒有純文字標題。
Springer:這似乎取決於期刊
由於我閱讀的大多數期刊都來自 wiley 或 acs,所以情況對我來說看起來相當不錯。
這可以是一個計劃: 1. 研究您最常閱讀期刊的出版商提供的 pdf 版本 2. 挑選那些標題為純文本的期刊。這應該不是問題,因為它們都將其名稱包含在 pdf 的最後 KB 中 3. 使用腳本管理它們
根據您閱讀的期刊數量使用標題標籤作為文章標題,這可能有用也可能沒用。
更通用的方法是: pdf->text->parse text 您可以從這裡開始: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text
答案4
有一個Python模組pdf標題·PyPI提取標題。
用法:
$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks
建議使用--replace-missing-char
選項,否則可能會崩潰,例如,https://arxiv.org/pdf/1506.01186.pdf。由於缺少的字元往往不在標題中,因此不會影響結果的品質。
鑑於標題,編寫一個腳本來進行批次重命名應該很容易。
相關問題連結: