pdfbeads는 단일 페이지만 출력합니다.

Question 1

pdfbeads에서는 문서의 모든 페이지에 대해 단일 페이지 TIFF 파일과 단일 페이지 html hOCR 파일을 기대합니다. TIFF 파일을 하나만 찾을 수 있으면 한 페이지만 출력됩니다.

TIFF 파일을 tiffsplit. hocrsplit~에서hocr 도구HTML을 분할할 수 있습니다. 나 자신은 그것을 사용할 필요가 없었습니다.

나는 iconv 경고에 대해 걱정하지 않을 것입니다. Ruby는 항상 pdfbeads를 사용하여 이를 수행합니다. 이유:Ruby 1.9.3의 iconv 지원 중단 경고

Answer

pdfbeads에서는 문서의 모든 페이지에 대해 단일 페이지 TIFF 파일과 단일 페이지 html hOCR 파일을 기대합니다. TIFF 파일을 하나만 찾을 수 있으면 한 페이지만 출력됩니다.

TIFF 파일을 tiffsplit. hocrsplit~에서hocr 도구HTML을 분할할 수 있습니다. 나 자신은 그것을 사용할 필요가 없었습니다.

나는 iconv 경고에 대해 걱정하지 않을 것입니다. Ruby는 항상 pdfbeads를 사용하여 이를 수행합니다. 이유:Ruby 1.9.3의 iconv 지원 중단 경고

Question 2

위에 게시한 지침에 다음과 같은 수정 사항을 썼는지, 아니면 다른 곳에서 찾았는지 더 이상 기억나지 않습니다(Google 검색에서는 관련 결과가 나오지 않지만). 다음은 제가 수개월 동안 사용해 온 내용입니다. 전체 djvu 파일을 pdf 형식으로 변환합니다.

f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
    djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
    ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};

이렇게 하면 모든 페이지에 대해 별도의 tiff(및 해당 html 파일)가 생성된 다음 pdfbeads를 사용하여 모든 항목을 병합합니다. 어떤 이유로 djvu에 9999페이지가 넘으면 %04의 인스턴스를 %05와 같이 더 큰 인스턴스로 변경해야 합니다.

Answer

위에 게시한 지침에 다음과 같은 수정 사항을 썼는지, 아니면 다른 곳에서 찾았는지 더 이상 기억나지 않습니다(Google 검색에서는 관련 결과가 나오지 않지만). 다음은 제가 수개월 동안 사용해 온 내용입니다. 전체 djvu 파일을 pdf 형식으로 변환합니다.

f='file.djvu'
pg=$(djvused -e 'n' $f)
for i in $(seq 1 $pg)
do
    djvu2hocr -p $i $f | sed 's/ocrx/ocr/g' > `printf "pg%04d.html" $i`
    ddjvu -format=tiff -page=$i $f `printf "pg%04d.tiff" $i`
done
pdfbeads -o ${f/djvu/pdf};

이렇게 하면 모든 페이지에 대해 별도의 tiff(및 해당 html 파일)가 생성된 다음 pdfbeads를 사용하여 모든 항목을 병합합니다. 어떤 이유로 djvu에 9999페이지가 넘으면 %04의 인스턴스를 %05와 같이 더 큰 인스턴스로 변경해야 합니다.

pdfbeads는 단일 페이지만 출력합니다.

답변1

답변2

관련 정보