У меня есть многострочный текст в \item
или {itemize}
и {section}
я создаю pdf документа. Когда я копирую текст из pdf, в конце каждой строки появляется символ новой строки. Я создаю документ, который будет прочитан инструментом ИИ, и разделение предложений его испортит.
Как настроить его так, чтобы не добавлять ненужные переносы строк?
Например, если я скопирую текст из PDF-файла, сгенерированного с помощью следующего кода, между ними будет символ новой строкиcharacter in
иthe middle
\begin{itemize}
\item This is some text that spans multiple lines. I need the pdf to not have a newline
character in the middle of the sentence in the copied text
\item Some more text.
\end{itemize}
решение1
Ну, это одна из вещей,Проект PDF с тегамипримерно. Если вы скомпилируете это здесь в текущей TeXsystem с lualatex (которая лучше всего обрабатывает настоящие пробельные символы)
\DocumentMetadata{testphase=phase-III}
\documentclass{article}
\begin{document}
\begin{itemize}
\item This is some text that spans multiple lines. I need the pdf to not have a newline
character in the middle of the sentence in the copied text
\item Some more text.
\end{itemize}
\end{document}
затем скопируйте и вставьте, и получится
•
This is some text that spans multiple lines. I need the pdf to not have a newline character in the middle of the sentence in the copied text
•
Some more text.
Но в целом не стоит слишком доверять копированию и вставке из PDF. Формат не содержит простого текста, и это означает, что каждому читателю придется проделать некоторую эвристику.