Automatische PDF-Umbenennung basierend auf dem Titel

Question 1

Es gibtMendeley, ein Online-Recherchetool, mit dem Sie wissenschaftliche Veröffentlichungen verwalten können.

Es verfügt über ein Mendeley-Desktoptool, mit dem Sie PDFs per Drag & Drop verschieben können. Mendeley analysiert automatisch die Autoren und Titel aus den PDFs.

Bildbeschreibung hier eingeben

Anschließend können Sie die Datei mit einem Rechtsklick und „Dokumentdateien umbenennen …“ umbenennen. Sie können auch mehrere Dateien auf einmal umbenennen.

Bildbeschreibung hier eingeben

Es ist für Windows und OS X verfügbar.

Answer

Es gibtMendeley, ein Online-Recherchetool, mit dem Sie wissenschaftliche Veröffentlichungen verwalten können.

Es verfügt über ein Mendeley-Desktoptool, mit dem Sie PDFs per Drag & Drop verschieben können. Mendeley analysiert automatisch die Autoren und Titel aus den PDFs.

Bildbeschreibung hier eingeben

Anschließend können Sie die Datei mit einem Rechtsklick und „Dokumentdateien umbenennen …“ umbenennen. Sie können auch mehrere Dateien auf einmal umbenennen.

Bildbeschreibung hier eingeben

Es ist für Windows und OS X verfügbar.

Question 2

Wenn ich dich richtig verstehemöchten Sie den Titel des Dokuments extrahieren, der auf der ersten Seite der PDF-Datei steht (normalerweise in größerer Schrift als die Zusammenfassung und der nachfolgende Text) und als Dateinamen verwenden.

Ich fürchte, Siewird keine Universallösung finden, da am Anfang der PDF-Datei unterschiedlich viel Text, der nicht zum Titel gehört, vorhanden sein kann, wodurch es schwierig wird, den eigentlichen Titel für PDF-Dateien aus verschiedenen Zeitschriften zu extrahieren.

Um eine Lösung zu erhalten, die für einen bestimmten Prozentsatz Ihrer PDFs funktioniert,Ich würde wahrscheinlich

benutze Ghostscripts pdf2ps und ps2asciium Klartext aus dem PDF zu extrahieren
Analysieren Sie diesen Klartext nach einem Zeitschriftentitel irgendwo im ersten Kilobyte oder so
Versuchen Sie, je nach Zeitschrift eine Heuristik zu entwickeln, um den Titel des Artikels aus dem Klartext zu extrahieren.

Natürlich wäre es wahrscheinlich auch eine große Hilfe, wenn Sie ein Tool finden könnten, das sowohl die relative Textgröße als auch den einfachen Text aus einer PDF-Datei extrahieren kann.

Viel Glück – es wäre interessant zu sehen, ob Sie einen Weg finden, das zu automatisieren! Wenn ich Artikel selbst herunterlade, benenne ich sie hauptsächlich systematisch, aber es wäre sicher toll, wenn ich danach etwas hätte, mit dem ich das tun kann ...

Answer

Wenn ich dich richtig verstehemöchten Sie den Titel des Dokuments extrahieren, der auf der ersten Seite der PDF-Datei steht (normalerweise in größerer Schrift als die Zusammenfassung und der nachfolgende Text) und als Dateinamen verwenden.

Ich fürchte, Siewird keine Universallösung finden, da am Anfang der PDF-Datei unterschiedlich viel Text, der nicht zum Titel gehört, vorhanden sein kann, wodurch es schwierig wird, den eigentlichen Titel für PDF-Dateien aus verschiedenen Zeitschriften zu extrahieren.

Um eine Lösung zu erhalten, die für einen bestimmten Prozentsatz Ihrer PDFs funktioniert,Ich würde wahrscheinlich

benutze Ghostscripts pdf2ps und ps2asciium Klartext aus dem PDF zu extrahieren
Analysieren Sie diesen Klartext nach einem Zeitschriftentitel irgendwo im ersten Kilobyte oder so
Versuchen Sie, je nach Zeitschrift eine Heuristik zu entwickeln, um den Titel des Artikels aus dem Klartext zu extrahieren.

Natürlich wäre es wahrscheinlich auch eine große Hilfe, wenn Sie ein Tool finden könnten, das sowohl die relative Textgröße als auch den einfachen Text aus einer PDF-Datei extrahieren kann.

Viel Glück – es wäre interessant zu sehen, ob Sie einen Weg finden, das zu automatisieren! Wenn ich Artikel selbst herunterlade, benenne ich sie hauptsächlich systematisch, aber es wäre sicher toll, wenn ich danach etwas hätte, mit dem ich das tun kann ...

Question 3

Wenn Sie keine externe Software verwenden möchten und lieber Ihr eigenes Skript schreiben möchten, versuchen Sie, Ihre PDF-Dateien als einfachen Text mit einem Texteditor zu öffnen, und suchen Sie dann nach Mustern. Suchen Sie entweder nach dem Schlüsselwort „Titel“ oder suchen Sie nach Wörtern im Titel und sehen Sie, wo diese vorkommen.

Um Ihnen einige Beispiele zu geben (wissenschaftliche Zeitschriften im Bereich Chemie):

ACS (American Chemical Society): der Titel erscheint in Klammern nach dem zweiten Vorkommen des Schlüsselworts '/title'

Wiley-Publikation: Der Titel erscheint in Klammern nach dem ersten (und einzigen) Vorkommen des Schlüsselworts „/Title“

Rsc-Veröffentlichung: Der Titel ist nicht im Klartext enthalten.

Springer: Es scheint von der Zeitschrift abzuhängen

Da die meisten Zeitschriften, die ich lese, von Wiley oder ACS sind, sähe die Situation für mich ziemlich gut aus.

Das könnte ein Plan sein: 1. Studieren Sie PDFs von den Verlagen, deren Zeitschriften Sie am häufigsten lesen. 2. Wählen Sie diejenigen aus, deren Titel im Klartext stehen. Das sollte kein Problem sein, da sie alle ihren Namen in den letzten KBytes des PDFs angeben. 3. Verwalten Sie diese mit einem Skript.

Je nachdem, wie viele der von Ihnen gelesenen Zeitschriften das Titel-Tag für den Artikeltitel verwenden, kann dies nützlich sein oder auch nicht.

Ein allgemeinerer Ansatz wäre: pdf->text->text analysieren. Sie könnten hier beginnen: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

Answer

Wenn Sie keine externe Software verwenden möchten und lieber Ihr eigenes Skript schreiben möchten, versuchen Sie, Ihre PDF-Dateien als einfachen Text mit einem Texteditor zu öffnen, und suchen Sie dann nach Mustern. Suchen Sie entweder nach dem Schlüsselwort „Titel“ oder suchen Sie nach Wörtern im Titel und sehen Sie, wo diese vorkommen.

Um Ihnen einige Beispiele zu geben (wissenschaftliche Zeitschriften im Bereich Chemie):

ACS (American Chemical Society): der Titel erscheint in Klammern nach dem zweiten Vorkommen des Schlüsselworts '/title'

Wiley-Publikation: Der Titel erscheint in Klammern nach dem ersten (und einzigen) Vorkommen des Schlüsselworts „/Title“

Rsc-Veröffentlichung: Der Titel ist nicht im Klartext enthalten.

Springer: Es scheint von der Zeitschrift abzuhängen

Da die meisten Zeitschriften, die ich lese, von Wiley oder ACS sind, sähe die Situation für mich ziemlich gut aus.

Das könnte ein Plan sein: 1. Studieren Sie PDFs von den Verlagen, deren Zeitschriften Sie am häufigsten lesen. 2. Wählen Sie diejenigen aus, deren Titel im Klartext stehen. Das sollte kein Problem sein, da sie alle ihren Namen in den letzten KBytes des PDFs angeben. 3. Verwalten Sie diese mit einem Skript.

Je nachdem, wie viele der von Ihnen gelesenen Zeitschriften das Titel-Tag für den Artikeltitel verwenden, kann dies nützlich sein oder auch nicht.

Ein allgemeinerer Ansatz wäre: pdf->text->text analysieren. Sie könnten hier beginnen: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

Question 4

Es gibt ein Python-Modulpdftitle · PyPIdas extrahiert den Titel.

Verwendung:

$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks

Es wird empfohlen, --replace-missing-chardie Option zu verwenden, da es sonst beispielsweise zu Abstürzen kommen kann,https://arxiv.org/pdf/1506.01186.pdfDa die fehlenden Zeichen in der Regel nicht im Titel vorkommen, hat dies keinen Einfluss auf die Qualität des Ergebnisses.

Angesichts des Titels sollte es recht einfach sein, ein Skript zum Stapelumbenennen zu schreiben.

Links zu verwandten Fragen:

Answer

Es gibt ein Python-Modulpdftitle · PyPIdas extrahiert den Titel.

Verwendung:

$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks

Es wird empfohlen, --replace-missing-chardie Option zu verwenden, da es sonst beispielsweise zu Abstürzen kommen kann,https://arxiv.org/pdf/1506.01186.pdfDa die fehlenden Zeichen in der Regel nicht im Titel vorkommen, hat dies keinen Einfluss auf die Qualität des Ergebnisses.

Angesichts des Titels sollte es recht einfach sein, ein Skript zum Stapelumbenennen zu schreiben.

Links zu verwandten Fragen:

Automatische PDF-Umbenennung basierend auf dem Titel

Antwort1

Antwort2

Antwort3

Antwort4

verwandte Informationen