El texto de Ghostscript no se puede seleccionar en páginas con imágenes

El texto de Ghostscript no se puede seleccionar en páginas con imágenes

Después de la compilación normal, estoy procesando un archivo PDF con el siguiente ghostscriptcomando para producir (con suerte) un archivo compatible con PDF/A.

gs -dPDFA
   -sDEVICE=pdfwrite
   -dPDFACompatibilityPolicy=1
   -dPrinted=false
   -dPDFSETTINGS=/printer
   -dSAFER
   -dNOPAUSE
   -dQUIET
   -dBATCH
   -dNOOUTERSAVE 
   -sColorConversionStrategy=UseDeviceIndependentColor
   -sProcessColorModel=DeviceRGB
   -sOutputFile=thesis.pdf
   main.pdf pdfmarks

Esto funciona principalmente (tengo un esquema de trabajo en mi visor de PDF y los hipervínculos también funcionan ahora), excepto por una cosa. El texto se puede seleccionar y copiar en casi todas las páginas, excepto en las páginas que contienen imágenes. No importa si la imagen es otro PDF o un PNG. Sin embargo, las imágenes Tikz y las imágenes MetaFont están bien.

Probé una versión diferente PDFSETTINGSy /prepressanterior de este comando también sin -dSAFERy -dPrinted=false.

El archivo PDF original se compila con pdflatex, si hay alguna diferencia.

Esta pregunta es bastante difícil de investigar, ya que casi toda la documentación de Ghostscript contiene las palabras "texto" e "imagen".

Respuesta1

Me esforzaría en crear directamente un pdf compatible con PDF/A con pdflatexo lualatexen primer lugar. Esto le dará un PDF/A válido directamente:

\documentclass{article}

\usepackage[pdfa]{hyperref}
\usepackage{hyperxmp}[2020/03/01]

\author{me,him}
\title{How to create a PDF/A-1b document}

\immediate\pdfobj stream attr{/N 3} file{sRGB.icc}
\pdfcatalog{%
  /OutputIntents [ <<
    /Type /OutputIntent
    /S /GTS_PDFA1
      /DestOutputProfile \the\pdflastobj\space 0 R
    /OutputConditionIdentifier (sRGB IEC61966-2.1)
    /Info(sRGB IEC61966-2.1)
  >> ]
}

\begin{document}

lorem ipsum \url{http://stackexchange.com/}

\end{document}

Este ejemplo se valida en Acrobat DC.yverapdf 1.14.8 tanto cuando se compila con LuaLaTeX como con pdfLaTeX con paquetes actualizados.
Resultado de la validación previa al vuelo
Parece que la configuración de la fuente de Graipher no es fiable.

Si deseas incluir imágenes más adelante te recomiendo incluir pdf que ya validen pdf/a. Las imágenes Jpg con perfiles de color incrustados pueden funcionar, pero algunos validadores solicitan que los metadatos de las imágenes incrustadas sean compatibles con PDF/A. Esto es difícil de lograr sin Acrobat Pro. También te encontrarías con ese problema con Ghostscript. PNG no funciona porque no proporciona perfiles de color incrustados.

Respuesta2

Tuve un problema similar que solucioné cambiando a -dCompatibilityLevel=1.4 from -dCompatibilityLevel=1.3.

Aunque no tengo idea del por qué.

información relacionada