Siguiendo las instrucciones deestepágina
Tomo un documento djvu, lo reviso en busca de signos de corrupción abriéndolo en djvulibre y está bien. Cópielo a mi carpeta de pruebas y cámbiele el nombre.
Llevar a cabo
djvu2hocr test.djvu | sed 's/ocrx/ocr/g' > test.html
ddjvu -format=tiff test.djvu test.tif
Proceda a abrir el tif con evince y comprobará que todas las páginas son visibles.
Ejecute pdfbeads
pdfbeads -o test.pdf
y obtiene el siguiente error:
/usr/lib/ruby/1.9.1/rubygems/custom_require.rb:36:in `require': iconv will be deprecated in the future, use String#encode instead. Prepared data for processing test.tif Warning: test.tif contains multiple images, but only the first one is going to be used JBIG2 compression complete. pages:1 symbols:2080 log2:12 Processed test.tif
El PDF se abre bien, pero es solo una página y el OCR funciona.
Aquí hay un enlace a los archivos copiados/generados.
¿Alguna sugerencia?
Respuesta1
pdfbeads espera un archivo TIFF de una sola página y un archivo hOCR html de una sola página para cada página del documento. Si solo puede encontrar un archivo TIFF, solo generará una página.
Divida el archivo TIFF con tiffsplit
. hocrsplit
deherramientas-hocrEs posible que pueda dividir su html. Yo nunca necesité usarlo.
No me preocuparía por la advertencia de iconv. Ruby siempre hace eso con pdfbeads. Razón aquí:Advertencia de obsolescencia de iconv con Ruby 1.9.3 programandonet.com
Respuesta2
Ya no recuerdo si escribí la siguiente modificación de las instrucciones que publicaste arriba, o si las encontré en otro lugar (aunque una búsqueda en Google no arroja resultados relevantes), lo siguiente es lo que he estado usando durante muchos meses para convierta archivos djvu completos a formato pdf.
f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};
Esto crea un tiff separado (y el archivo html correspondiente) para cada página y luego fusiona todo usando pdfbeads. Tenga en cuenta que si por alguna razón su djvu tiene más de 9999 páginas, necesitará cambiar las instancias de %04 a algo más grande, como %05.