¿Cómo muestra less los archivos PDF?

¿Cómo muestra less los archivos PDF?

He probado varios programas: pdftotext, pdf2txt.py, ... Todos pueden extraer texto de archivos PDF, pero el que hace el mejor trabajo es el bueno less: el texto del PDF tiene un diseño adecuado. ¿Cómo hace menos esto? ¿Utiliza alguna biblioteca o el procesamiento de PDF está integrado?

Lo pregunto porque me gustaría usar esta funcionalidad mediante programación, sin necesariamente tener que ejecutarla menos como un programa externo (estoy usando Python).

Mi sistema es:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Respuesta1

Probablemente su distribución utilice el lesspipe.shscript popular. Verifique la LESSOPENvariable de entorno.

Este script existe en muchas variaciones. Estoy viendo la versión Gentoo. En él, encontrarás la siguiente línea:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

Eso significa que probará esos comandos en el orden en que se muestran. $1es el nombre del archivo.

Otra versionutiliza el siguiente comando:

pdftohtml -stdout "$t" | parsehtml -

información relacionada