Less는 PDF를 어떻게 표시합니까?

Less는 PDF를 어떻게 표시합니까?

pdftotext, pdf2txt.py 등 여러 프로그램을 사용해 보았습니다. 모두 PDF에서 텍스트를 추출할 수 있지만 더 나은 작업을 수행하는 프로그램이 좋습니다. lessPDF의 텍스트가 적절한 레이아웃을 가지고 있습니다. 이 작업을 덜 수행하는 방법은 무엇입니까? 라이브러리를 사용하고 있습니까, 아니면 PDF 처리가 내장되어 있습니까?

외부 프로그램을 덜 실행하지 않고도 프로그래밍 방식으로 이 기능을 사용하고 싶기 때문에 묻는 것입니다(저는 Python을 사용하고 있습니다).

내 시스템은 다음과 같습니다

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

답변1

귀하의 배포판은 아마도 널리 사용되는 lesspipe.sh스크립트를 사용하고 있을 것입니다. 환경변수를 확인해보세요 LESSOPEN.

이 스크립트는 다양한 변형으로 존재합니다. 젠투 버전을 보고 있습니다. 그 안에는 다음 줄이 있습니다:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

이는 표시된 순서대로 해당 명령을 시도한다는 의미입니다. $1파일 이름입니다.

다른 버전다음 명령을 사용합니다.

pdftohtml -stdout "$t" | parsehtml -

관련 정보