
Ich habe Tausende wissenschaftlicher PDFs, die ich umbenennen muss, viele davon haben keine Metadaten. Ich möchte eine Automator-Aktion erstellen können, die einen Ordner öffnet und dann jedes PDF öffnet, den Titel kopiert, das Dokument umbenennt und in einem neuen Ordner speichert. Ich habe Stunden damit verbracht, das herauszufinden, daher wäre ich für jede Hilfe sehr dankbar. Ich habe ein Apple G5 2.26Gz Quad mit OS10.6. Danke!
Antwort1
Es gibtMendeley, ein Online-Recherchetool, mit dem Sie wissenschaftliche Veröffentlichungen verwalten können.
Es verfügt über ein Mendeley-Desktoptool, mit dem Sie PDFs per Drag & Drop verschieben können. Mendeley analysiert automatisch die Autoren und Titel aus den PDFs.
Anschließend können Sie die Datei mit einem Rechtsklick und „Dokumentdateien umbenennen …“ umbenennen. Sie können auch mehrere Dateien auf einmal umbenennen.
Es ist für Windows und OS X verfügbar.
Antwort2
Wenn ich dich richtig verstehemöchten Sie den Titel des Dokuments extrahieren, der auf der ersten Seite der PDF-Datei steht (normalerweise in größerer Schrift als die Zusammenfassung und der nachfolgende Text) und als Dateinamen verwenden.
Ich fürchte, Siewird keine Universallösung finden, da am Anfang der PDF-Datei unterschiedlich viel Text, der nicht zum Titel gehört, vorhanden sein kann, wodurch es schwierig wird, den eigentlichen Titel für PDF-Dateien aus verschiedenen Zeitschriften zu extrahieren.
Um eine Lösung zu erhalten, die für einen bestimmten Prozentsatz Ihrer PDFs funktioniert,Ich würde wahrscheinlich
- benutze Ghostscripts pdf2ps und ps2asciium Klartext aus dem PDF zu extrahieren
- Analysieren Sie diesen Klartext nach einem Zeitschriftentitel irgendwo im ersten Kilobyte oder so
- Versuchen Sie, je nach Zeitschrift eine Heuristik zu entwickeln, um den Titel des Artikels aus dem Klartext zu extrahieren.
Natürlich wäre es wahrscheinlich auch eine große Hilfe, wenn Sie ein Tool finden könnten, das sowohl die relative Textgröße als auch den einfachen Text aus einer PDF-Datei extrahieren kann.
Viel Glück – es wäre interessant zu sehen, ob Sie einen Weg finden, das zu automatisieren! Wenn ich Artikel selbst herunterlade, benenne ich sie hauptsächlich systematisch, aber es wäre sicher toll, wenn ich danach etwas hätte, mit dem ich das tun kann ...
Antwort3
Wenn Sie keine externe Software verwenden möchten und lieber Ihr eigenes Skript schreiben möchten, versuchen Sie, Ihre PDF-Dateien als einfachen Text mit einem Texteditor zu öffnen, und suchen Sie dann nach Mustern. Suchen Sie entweder nach dem Schlüsselwort „Titel“ oder suchen Sie nach Wörtern im Titel und sehen Sie, wo diese vorkommen.
Um Ihnen einige Beispiele zu geben (wissenschaftliche Zeitschriften im Bereich Chemie):
ACS (American Chemical Society): der Titel erscheint in Klammern nach dem zweiten Vorkommen des Schlüsselworts '/title'
Wiley-Publikation: Der Titel erscheint in Klammern nach dem ersten (und einzigen) Vorkommen des Schlüsselworts „/Title“
Rsc-Veröffentlichung: Der Titel ist nicht im Klartext enthalten.
Springer: Es scheint von der Zeitschrift abzuhängen
Da die meisten Zeitschriften, die ich lese, von Wiley oder ACS sind, sähe die Situation für mich ziemlich gut aus.
Das könnte ein Plan sein: 1. Studieren Sie PDFs von den Verlagen, deren Zeitschriften Sie am häufigsten lesen. 2. Wählen Sie diejenigen aus, deren Titel im Klartext stehen. Das sollte kein Problem sein, da sie alle ihren Namen in den letzten KBytes des PDFs angeben. 3. Verwalten Sie diese mit einem Skript.
Je nachdem, wie viele der von Ihnen gelesenen Zeitschriften das Titel-Tag für den Artikeltitel verwenden, kann dies nützlich sein oder auch nicht.
Ein allgemeinerer Ansatz wäre: pdf->text->text analysieren. Sie könnten hier beginnen: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text
Antwort4
Es gibt ein Python-Modulpdftitle · PyPIdas extrahiert den Titel.
Verwendung:
$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks
Es wird empfohlen, --replace-missing-char
die Option zu verwenden, da es sonst beispielsweise zu Abstürzen kommen kann,https://arxiv.org/pdf/1506.01186.pdfDa die fehlenden Zeichen in der Regel nicht im Titel vorkommen, hat dies keinen Einfluss auf die Qualität des Ergebnisses.
Angesichts des Titels sollte es recht einfach sein, ein Skript zum Stapelumbenennen zu schreiben.
Links zu verwandten Fragen: