pdfbeads solo generará una sola página

pdfbeads solo generará una sola página

Siguiendo las instrucciones deestepágina

Tomo un documento djvu, lo reviso en busca de signos de corrupción abriéndolo en djvulibre y está bien. Cópielo a mi carpeta de pruebas y cámbiele el nombre.

Llevar a cabo

djvu2hocr test.djvu | sed 's/ocrx/ocr/g' > test.html

ddjvu -format=tiff test.djvu test.tif

Proceda a abrir el tif con evince y comprobará que todas las páginas son visibles.

Ejecute pdfbeads

pdfbeads -o test.pdf

y obtiene el siguiente error:

/usr/lib/ruby/1.9.1/rubygems/custom_require.rb:36:in `require': iconv will be deprecated in the future, use String#encode instead. Prepared data for processing test.tif Warning: test.tif contains multiple images, but only the first one is going to be used JBIG2 compression complete. pages:1 symbols:2080 log2:12 Processed test.tif

El PDF se abre bien, pero es solo una página y el OCR funciona.

Aquí hay un enlace a los archivos copiados/generados.

¿Alguna sugerencia?

Respuesta1

pdfbeads espera un archivo TIFF de una sola página y un archivo hOCR html de una sola página para cada página del documento. Si solo puede encontrar un archivo TIFF, solo generará una página.

Divida el archivo TIFF con tiffsplit. hocrsplitdeherramientas-hocrEs posible que pueda dividir su html. Yo nunca necesité usarlo.

No me preocuparía por la advertencia de iconv. Ruby siempre hace eso con pdfbeads. Razón aquí:Advertencia de obsolescencia de iconv con Ruby 1.9.3 programandonet.com

Respuesta2

Ya no recuerdo si escribí la siguiente modificación de las instrucciones que publicaste arriba, o si las encontré en otro lugar (aunque una búsqueda en Google no arroja resultados relevantes), lo siguiente es lo que he estado usando durante muchos meses para convierta archivos djvu completos a formato pdf.

f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
    djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
    ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};

Esto crea un tiff separado (y el archivo html correspondiente) para cada página y luego fusiona todo usando pdfbeads. Tenga en cuenta que si por alguna razón su djvu tiene más de 9999 páginas, necesitará cambiar las instancias de %04 a algo más grande, como %05.

información relacionada