根據標題自動重新命名 PDF

Question 1

有門德利，一種線上研究工具，可讓您管理科學出版物。

它有一個 Mendeley Desktop 工具，您可以在其中拖放 PDF。 Mendeley 將自動解析 PDF 中的作者和標題。

在此輸入影像描述

然後，您可以透過右鍵單擊並「重新命名文檔檔案...」來重新命名該檔案。您也可以一次重新命名多個檔案。

在此輸入影像描述

它適用於 Windows 和 OS X。

Answer

有門德利，一種線上研究工具，可讓您管理科學出版物。

它有一個 Mendeley Desktop 工具，您可以在其中拖放 PDF。 Mendeley 將自動解析 PDF 中的作者和標題。

在此輸入影像描述

然後，您可以透過右鍵單擊並「重新命名文檔檔案...」來重新命名該檔案。您也可以一次重新命名多個檔案。

在此輸入影像描述

它適用於 Windows 和 OS X。

Question 2

如果我理解正確的話，您想要提取 PDF 第一頁上的論文標題（通常比摘要和後續文本的字體更大）並將其用作文件名。

恐怕你可能找不到一刀切的解決方案，因為 PDF 開頭可能有不同數量的非標題文本，因此很難提取來自不同期刊的 PDF 的實際標題。

要獲得適用於一定比例的 PDF 的解決方案，我可能會

使用 Ghostscript 的 pdf2ps 和 ps2ascii從 PDF 中提取純文字
解析此純文字以取得第一個千字節左右的期刊標題
根據期刊的不同，嘗試提出一種啟發式方法，從明文中提取論文標題。

當然，如果您能找到一個可以從 PDF 中提取相對文字大小以及純文字的工具，那可能也會有很大幫助。

祝你好運 - 看看你是否找到一種自動化的方法會很有趣！我自己下載文章時所做的主要事情是以系統化的方式命名它們，但之後如果能有一些東西來做這件事肯定會很棒......

Answer

如果我理解正確的話，您想要提取 PDF 第一頁上的論文標題（通常比摘要和後續文本的字體更大）並將其用作文件名。

恐怕你可能找不到一刀切的解決方案，因為 PDF 開頭可能有不同數量的非標題文本，因此很難提取來自不同期刊的 PDF 的實際標題。

要獲得適用於一定比例的 PDF 的解決方案，我可能會

使用 Ghostscript 的 pdf2ps 和 ps2ascii從 PDF 中提取純文字
解析此純文字以取得第一個千字節左右的期刊標題
根據期刊的不同，嘗試提出一種啟發式方法，從明文中提取論文標題。

當然，如果您能找到一個可以從 PDF 中提取相對文字大小以及純文字的工具，那可能也會有很大幫助。

祝你好運 - 看看你是否找到一種自動化的方法會很有趣！我自己下載文章時所做的主要事情是以系統化的方式命名它們，但之後如果能有一些東西來做這件事肯定會很棒......

Question 3

如果您不想使用外部軟體並想編寫自己的腳本，請嘗試使用文字編輯器以純文字形式開啟 pdf，然後尋找模式。搜尋關鍵字“標題”，或搜尋標題中的單字並查看它們出現的位置。

舉幾個例子（化學領域的科學期刊）：

ACS（美國化學會）：標題出現在第二次出現關鍵字「/title」之後的括號之間

Wiley 發佈：標題出現在第一次（也是唯一一次）關鍵字「/Title」出現後的括號之間

RSc 出版：沒有純文字標題。

Springer：這似乎取決於期刊

由於我閱讀的大多數期刊都來自 wiley 或 acs，所以情況對我來說看起來相當不錯。

這可以是一個計劃： 1. 研究您最常閱讀期刊的出版商提供的 pdf 版本 2. 挑選那些標題為純文本的期刊。這應該不是問題，因為它們都將其名稱包含在 pdf 的最後 KB 中 3. 使用腳本管理它們

根據您閱讀的期刊數量使用標題標籤作為文章標題，這可能有用也可能沒用。

更通用的方法是： pdf->text->parse text 您可以從這裡開始： https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

Answer

如果您不想使用外部軟體並想編寫自己的腳本，請嘗試使用文字編輯器以純文字形式開啟 pdf，然後尋找模式。搜尋關鍵字“標題”，或搜尋標題中的單字並查看它們出現的位置。

舉幾個例子（化學領域的科學期刊）：

ACS（美國化學會）：標題出現在第二次出現關鍵字「/title」之後的括號之間

Wiley 發佈：標題出現在第一次（也是唯一一次）關鍵字「/Title」出現後的括號之間

RSc 出版：沒有純文字標題。

Springer：這似乎取決於期刊

由於我閱讀的大多數期刊都來自 wiley 或 acs，所以情況對我來說看起來相當不錯。

這可以是一個計劃： 1. 研究您最常閱讀期刊的出版商提供的 pdf 版本 2. 挑選那些標題為純文本的期刊。這應該不是問題，因為它們都將其名稱包含在 pdf 的最後 KB 中 3. 使用腳本管理它們

根據您閱讀的期刊數量使用標題標籤作為文章標題，這可能有用也可能沒用。

更通用的方法是： pdf->text->parse text 您可以從這裡開始： https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

Question 4

有一個Python模組pdf標題·PyPI提取標題。

用法：

$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks

建議使用--replace-missing-char選項，否則可能會崩潰，例如，https://arxiv.org/pdf/1506.01186.pdf。由於缺少的字元往往不在標題中，因此不會影響結果的品質。

鑑於標題，編寫一個腳本來進行批次重命名應該很容易。

相關問題連結：

Answer

有一個Python模組pdf標題·PyPI提取標題。

用法：

$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks

建議使用--replace-missing-char選項，否則可能會崩潰，例如，https://arxiv.org/pdf/1506.01186.pdf。由於缺少的字元往往不在標題中，因此不會影響結果的品質。

鑑於標題，編寫一個腳本來進行批次重命名應該很容易。

相關問題連結：

根據標題自動重新命名 PDF

答案1

答案2

答案3

答案4

相關內容