Seguindo as instruções deessepágina
Eu pego um documento djvu, verifico se há algum sinal de corrupção abrindo-o no djvulibre e ele está correto. Copie-o para minha pasta de testes e renomeie-o
Executar
djvu2hocr test.djvu | sed 's/ocrx/ocr/g' > test.html
ddjvu -format=tiff test.djvu test.tif
Prossiga para abrir o tif com evince e verifique se todas as páginas estão visíveis.
Execute pdfbeads
pdfbeads -o test.pdf
e obtenha o seguinte erro:
/usr/lib/ruby/1.9.1/rubygems/custom_require.rb:36:in `require': iconv will be deprecated in the future, use String#encode instead. Prepared data for processing test.tif Warning: test.tif contains multiple images, but only the first one is going to be used JBIG2 compression complete. pages:1 symbols:2080 log2:12 Processed test.tif
O PDF abre bem, mas é apenas uma página e o OCR funciona.
Aqui está um link para os arquivos copiados/gerados
Alguma sugestão?
Responder1
pdfbeads espera um arquivo TIFF de página única e um arquivo hOCR html de página única para cada página do documento. Se só conseguir encontrar um arquivo TIFF, ele produzirá apenas uma página.
Divida o arquivo TIFF com tiffsplit
. hocrsplit
deferramentas hocrpode ser capaz de dividir seu html. Nunca precisei usá-lo, eu mesmo.
Eu não me preocuparia com o aviso do iconv. Ruby sempre faz isso com pdfbeads. Razão aqui:aviso de descontinuação do iconv com Ruby 1.9.3 - Stack Overflow
Responder2
Não me lembro mais se escrevi a seguinte modificação nas instruções que você postou acima ou se as encontrei em outro lugar (embora uma pesquisa no Google não forneça resultados relevantes), o seguinte é o que venho usando há muitos meses para converta arquivos djvu inteiros em formato pdf.
f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};
Isso cria um tiff separado (e um arquivo html correspondente) para cada página e depois mescla tudo usando pdfbeads. Observe que se por algum motivo seu djvu tiver mais de 9.999 páginas você precisará alterar as instâncias de %04 para algo maior, como %05.