pdfbeads produzirá apenas uma única página

pdfbeads produzirá apenas uma única página

Seguindo as instruções deessepágina

Eu pego um documento djvu, verifico se há algum sinal de corrupção abrindo-o no djvulibre e ele está correto. Copie-o para minha pasta de testes e renomeie-o

Executar

djvu2hocr test.djvu | sed 's/ocrx/ocr/g' > test.html

ddjvu -format=tiff test.djvu test.tif

Prossiga para abrir o tif com evince e verifique se todas as páginas estão visíveis.

Execute pdfbeads

pdfbeads -o test.pdf

e obtenha o seguinte erro:

/usr/lib/ruby/1.9.1/rubygems/custom_require.rb:36:in `require': iconv will be deprecated in the future, use String#encode instead. Prepared data for processing test.tif Warning: test.tif contains multiple images, but only the first one is going to be used JBIG2 compression complete. pages:1 symbols:2080 log2:12 Processed test.tif

O PDF abre bem, mas é apenas uma página e o OCR funciona.

Aqui está um link para os arquivos copiados/gerados

Alguma sugestão?

Responder1

pdfbeads espera um arquivo TIFF de página única e um arquivo hOCR html de página única para cada página do documento. Se só conseguir encontrar um arquivo TIFF, ele produzirá apenas uma página.

Divida o arquivo TIFF com tiffsplit. hocrsplitdeferramentas hocrpode ser capaz de dividir seu html. Nunca precisei usá-lo, eu mesmo.

Eu não me preocuparia com o aviso do iconv. Ruby sempre faz isso com pdfbeads. Razão aqui:aviso de descontinuação do iconv com Ruby 1.9.3 - Stack Overflow

Responder2

Não me lembro mais se escrevi a seguinte modificação nas instruções que você postou acima ou se as encontrei em outro lugar (embora uma pesquisa no Google não forneça resultados relevantes), o seguinte é o que venho usando há muitos meses para converta arquivos djvu inteiros em formato pdf.

f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
    djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
    ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};

Isso cria um tiff separado (e um arquivo html correspondente) para cada página e depois mescla tudo usando pdfbeads. Observe que se por algum motivo seu djvu tiver mais de 9.999 páginas você precisará alterar as instâncias de %04 para algo maior, como %05.

informação relacionada