He probado varios programas: pdftotext, pdf2txt.py, ... Todos pueden extraer texto de archivos PDF, pero el que hace el mejor trabajo es el bueno less
: el texto del PDF tiene un diseño adecuado. ¿Cómo hace menos esto? ¿Utiliza alguna biblioteca o el procesamiento de PDF está integrado?
Lo pregunto porque me gustaría usar esta funcionalidad mediante programación, sin necesariamente tener que ejecutarla menos como un programa externo (estoy usando Python).
Mi sistema es:
» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman
less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less
» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
Respuesta1
Probablemente su distribución utilice el lesspipe.sh
script popular. Verifique la LESSOPEN
variable de entorno.
Este script existe en muchas variaciones. Estoy viendo la versión Gentoo. En él, encontrarás la siguiente línea:
*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;
Eso significa que probará esos comandos en el orden en que se muestran. $1
es el nombre del archivo.
Otra versionutiliza el siguiente comando:
pdftohtml -stdout "$t" | parsehtml -