Stapelkonvertierung von PDFs in durchsuchbare PDFs

Question 1

Verwenden Sie die Datei CPYCONVERTER.EXE im BIN-Ordner als Befehlszeile (Platzhalter werden in eCopy Ver.9-Paperworks unterstützt). Dies gilt für 8.5 eCopy Desktop.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

Answer

Verwenden Sie die Datei CPYCONVERTER.EXE im BIN-Ordner als Befehlszeile (Platzhalter werden in eCopy Ver.9-Paperworks unterstützt). Dies gilt für 8.5 eCopy Desktop.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

Question 2

Unter Linux

Zuerst müssen Sie die PDFDateien einer OCR-Erkennung unterziehen, die noch nicht OCR-fähig sind. Ich habe eine recht einfache Methode geschrieben, um alle PDF-Dateien zu durchsuchen grepund einer OCR-Erkennung zu unterziehen, die nicht bearbeitet werden können.

Mir ist aufgefallen, dass eine pdfDatei, die keine Schriftart enthält, normalerweise nicht durchsuchbar ist. Wenn wir das wissen, können wir verwenden pdffonts.

Die ersten beiden Zeilen pdffontssind die Tabellenüberschrift. Wenn eine Datei durchsuchbar ist, hat sie also eine Ausgabe mit mehr als zwei Zeilen. Mit diesem Wissen können wir Folgendes erstellen:

gedit check_pdf_searchable.sh

dann fügen Sie dies ein

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

dann machen Sie es ausführbar

chmod +x check_pdf_searchable.sh

dann liste alle nicht durchsuchbaren PDFs im Verzeichnis auf:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

oder im Verzeichnis und seinen Unterverzeichnissen:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Answer

Unter Linux

Zuerst müssen Sie die PDFDateien einer OCR-Erkennung unterziehen, die noch nicht OCR-fähig sind. Ich habe eine recht einfache Methode geschrieben, um alle PDF-Dateien zu durchsuchen grepund einer OCR-Erkennung zu unterziehen, die nicht bearbeitet werden können.

Mir ist aufgefallen, dass eine pdfDatei, die keine Schriftart enthält, normalerweise nicht durchsuchbar ist. Wenn wir das wissen, können wir verwenden pdffonts.

Die ersten beiden Zeilen pdffontssind die Tabellenüberschrift. Wenn eine Datei durchsuchbar ist, hat sie also eine Ausgabe mit mehr als zwei Zeilen. Mit diesem Wissen können wir Folgendes erstellen:

gedit check_pdf_searchable.sh

dann fügen Sie dies ein

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

dann machen Sie es ausführbar

chmod +x check_pdf_searchable.sh

dann liste alle nicht durchsuchbaren PDFs im Verzeichnis auf:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

oder im Verzeichnis und seinen Unterverzeichnissen:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Question 3

Am einfachsten geht das mit einemOnline-OCR-APIDie OCR.Space-API unterstützt die Erstellung vondurchsuchbare PDFsDer Dienst bietet ein kostenloses Konvertierungsprogramm mit 25.000 Konvertierungen pro Monat.

Sie können dies dann mit Powershell, Batch oder einer anderen Skriptsprache automatisieren. Lösen Sie die Konvertierung beispielsweise per Batch mit cURL aus:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image

Answer

Am einfachsten geht das mit einemOnline-OCR-APIDie OCR.Space-API unterstützt die Erstellung vondurchsuchbare PDFsDer Dienst bietet ein kostenloses Konvertierungsprogramm mit 25.000 Konvertierungen pro Monat.

Sie können dies dann mit Powershell, Batch oder einer anderen Skriptsprache automatisieren. Lösen Sie die Konvertierung beispielsweise per Batch mit cURL aus:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image

Stapelkonvertierung von PDFs in durchsuchbare PDFs

Antwort1

Antwort2

Unter Linux

Antwort3

verwandte Informationen