
Eu tenho texto multilinha em \item
ou {itemize}
em {section}
e estou criando um pdf do documento. Quando copio o texto do pdf, há um caractere de nova linha no final de cada linha. Estou criando um documento que será lido por uma ferramenta de IA e dividir frases vai bagunçar tudo.
Como posso configurá-lo para não adicionar novas linhas desnecessárias?
Por exemplo, se eu copiar o texto do pdf gerado a partir do código a seguir, haverá um caractere de nova linha entrecharacter in
ethe middle
\begin{itemize}
\item This is some text that spans multiple lines. I need the pdf to not have a newline
character in the middle of the sentence in the copied text
\item Some more text.
\end{itemize}
Responder1
Bem, esta é uma das coisas queProjeto PDF marcadoé sobre. Se você compilar isso aqui em um TeXsystem atual com lualatex (que lida melhor com caracteres de espaço real)
\DocumentMetadata{testphase=phase-III}
\documentclass{article}
\begin{document}
\begin{itemize}
\item This is some text that spans multiple lines. I need the pdf to not have a newline
character in the middle of the sentence in the copied text
\item Some more text.
\end{itemize}
\end{document}
então copiar e colar dará
•
This is some text that spans multiple lines. I need the pdf to not have a newline character in the middle of the sentence in the copied text
•
Some more text.
Mas geralmente você não deve confiar muito em copiar e colar de um PDF. O formato não contém texto simples e isso significa que todo leitor precisa fazer algumas heurísticas.