Ich habe ein großes Verzeichnis mit vielen PDF- und EPUB-E-Book-Dateien. Ich möchte nach Dateien suchen, die mehrere Schlüsselwörter auf derselben Seite enthalten.
Antwort1
Wählen Sie ein beliebiges Dienstprogramm aus, das Text aus einer einzelnen Seite extrahieren kann (z. B. pdftext
), alle Seiten durchlaufen und Text extrahieren und reguläre Ausdrücke auf den extrahierten Text anwenden kann.
Oder verwenden Sie eine Programmiersprache Ihrer Wahl, eine PDF-Bibliothek Ihrer Wahl und schreiben Sie ein Programm dafür.
EPUB
Ein epub ist einfach eine Zip-Datei. Wenn Sie es entpacken, erhalten Sie viele HTML-Dateien. Sie können diese Dateien nach regulären Ausdrücken durchsuchen oder sie mit einem Tool zunächst in Klartext umwandeln, wobei Sie die Formatierung ignorieren.
Beachten Sie, dass eine epub-Datei grundsätzlichhat keine Seiten: Die Seitennummerierung wird vom Wiedergabegerät vorgenommen und kann für jedes Wiedergabegerät unterschiedlich sein. Daher muss „Suche nach mehreren Schlüsselwörtern auf derselben Seite“ irgendwie geändert werden, um dies zu berücksichtigen, möglicherweise mithilfe der HTML-Struktur.