pdfbeads produzirá apenas uma única página

Question 1

pdfbeads espera um arquivo TIFF de página única e um arquivo hOCR html de página única para cada página do documento. Se só conseguir encontrar um arquivo TIFF, ele produzirá apenas uma página.

Divida o arquivo TIFF com tiffsplit. hocrsplitdeferramentas hocrpode ser capaz de dividir seu html. Nunca precisei usá-lo, eu mesmo.

Eu não me preocuparia com o aviso do iconv. Ruby sempre faz isso com pdfbeads. Razão aqui:aviso de descontinuação do iconv com Ruby 1.9.3 - Stack Overflow

Answer

pdfbeads espera um arquivo TIFF de página única e um arquivo hOCR html de página única para cada página do documento. Se só conseguir encontrar um arquivo TIFF, ele produzirá apenas uma página.

Divida o arquivo TIFF com tiffsplit. hocrsplitdeferramentas hocrpode ser capaz de dividir seu html. Nunca precisei usá-lo, eu mesmo.

Eu não me preocuparia com o aviso do iconv. Ruby sempre faz isso com pdfbeads. Razão aqui:aviso de descontinuação do iconv com Ruby 1.9.3 - Stack Overflow

Question 2

Não me lembro mais se escrevi a seguinte modificação nas instruções que você postou acima ou se as encontrei em outro lugar (embora uma pesquisa no Google não forneça resultados relevantes), o seguinte é o que venho usando há muitos meses para converta arquivos djvu inteiros em formato pdf.

f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
    djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
    ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};

Isso cria um tiff separado (e um arquivo html correspondente) para cada página e depois mescla tudo usando pdfbeads. Observe que se por algum motivo seu djvu tiver mais de 9.999 páginas você precisará alterar as instâncias de %04 para algo maior, como %05.

Answer

Não me lembro mais se escrevi a seguinte modificação nas instruções que você postou acima ou se as encontrei em outro lugar (embora uma pesquisa no Google não forneça resultados relevantes), o seguinte é o que venho usando há muitos meses para converta arquivos djvu inteiros em formato pdf.

f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
    djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
    ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};

Isso cria um tiff separado (e um arquivo html correspondente) para cada página e depois mescla tudo usando pdfbeads. Observe que se por algum motivo seu djvu tiver mais de 9.999 páginas você precisará alterar as instâncias de %04 para algo maior, como %05.

pdfbeads produzirá apenas uma única página

Responder1

Responder2

informação relacionada