Текст Ghostscript не может быть выбран на страницах с изображениями.

Текст Ghostscript не может быть выбран на страницах с изображениями.

После обычной компиляции я обрабатываю PDF-файл с помощью следующей ghostscriptкоманды, чтобы создать (надеюсь) файл, совместимый со стандартом PDF/A.

gs -dPDFA
   -sDEVICE=pdfwrite
   -dPDFACompatibilityPolicy=1
   -dPrinted=false
   -dPDFSETTINGS=/printer
   -dSAFER
   -dNOPAUSE
   -dQUIET
   -dBATCH
   -dNOOUTERSAVE 
   -sColorConversionStrategy=UseDeviceIndependentColor
   -sProcessColorModel=DeviceRGB
   -sOutputFile=thesis.pdf
   main.pdf pdfmarks

В основном это работает (у меня есть рабочий контур в моем просмотрщике PDF, и гиперссылки тоже теперь работают), за исключением одного. Текст можно выделить и скопировать почти на всех страницах, за исключением страниц, содержащих изображения. Неважно, является ли изображение другим PDF или PNG. Хотя изображения Tikz и MetaFont подходят.

Я пробовал другой PDFSETTINGS, /prepressа в более ранней итерации этой команды также без -dSAFERи -dPrinted=false.

pdflatexЕсли это имеет значение, то исходный PDF-файл скомпилирован с помощью .

Этот вопрос довольно сложно исследовать, поскольку почти вся документация GhostScript содержит слова «текст» и «изображение».

решение1

Я бы приложил усилия к непосредственному созданию PDF-файла, совместимого с PDF/A, с помощью pdflatexили lualatexв первую очередь. Это даст вам действительный PDF/A напрямую:

\documentclass{article}

\usepackage[pdfa]{hyperref}
\usepackage{hyperxmp}[2020/03/01]

\author{me,him}
\title{How to create a PDF/A-1b document}

\immediate\pdfobj stream attr{/N 3} file{sRGB.icc}
\pdfcatalog{%
  /OutputIntents [ <<
    /Type /OutputIntent
    /S /GTS_PDFA1
      /DestOutputProfile \the\pdflastobj\space 0 R
    /OutputConditionIdentifier (sRGB IEC61966-2.1)
    /Info(sRGB IEC61966-2.1)
  >> ]
}

\begin{document}

lorem ipsum \url{http://stackexchange.com/}

\end{document}

Этот пример проверяется в Acrobat DCиverapdf 1.14.8, как при компиляции с LuaLaTeX, так и с pdfLaTeX с обновленными пакетами.
Результат предполетной проверки
Похоже, что у Graipher странная настройка шрифтов.

Если вы захотите включить изображения позже, я рекомендую включить pdf, которые уже прошли проверку pdf/a. Изображения JPG со встроенными цветовыми профилями могут работать, но некоторые валидаторы требуют, чтобы метаданные встроенных изображений были совместимы с PDF/A. Этого трудно достичь без Acrobat Pro. Вы также столкнетесь с этой проблемой с Ghostscript. PNG не работают, потому что они не предоставляют встроенных цветовых профилей.

решение2

У меня была похожая проблема, которую я исправил, изменив версию -dCompatibilityLevel=1.4 с -dCompatibilityLevel=1.3.

Хотя понятия не имею почему.

Связанный контент