Ich habe mehrzeiligen Text in einem \item
„of“ {itemize}
oder „in“ {section}
und erstelle ein PDF des Dokuments. Wenn ich den Text aus dem PDF kopiere, steht am Ende jeder Zeile ein Zeilenumbruchzeichen. Ich erstelle ein Dokument, das von einem KI-Tool gelesen wird, und das Aufteilen von Sätzen würde es durcheinanderbringen.
Wie kann ich es so konfigurieren, dass diese unnötigen Zeilenumbrüche nicht hinzugefügt werden?
Wenn ich beispielsweise den Text aus dem PDF kopiere, das aus dem folgenden Code generiert wurde, gibt es ein Zeilenumbruchzeichen zwischencharacter in
Undthe middle
\begin{itemize}
\item This is some text that spans multiple lines. I need the pdf to not have a newline
character in the middle of the sentence in the copied text
\item Some more text.
\end{itemize}
Antwort1
Nun, das ist eines der Dinge, dieGetaggtes PDF-Projekthandelt. Wenn Sie dies hier in einem aktuellen TeX-System mit lualatex kompilieren (das echte Leerzeichen am besten verarbeitet)
\DocumentMetadata{testphase=phase-III}
\documentclass{article}
\begin{document}
\begin{itemize}
\item This is some text that spans multiple lines. I need the pdf to not have a newline
character in the middle of the sentence in the copied text
\item Some more text.
\end{itemize}
\end{document}
dann wird durch Kopieren und Einfügen
•
This is some text that spans multiple lines. I need the pdf to not have a newline character in the middle of the sentence in the copied text
•
Some more text.
Generell sollte man Copy&Paste aus einem PDF aber nicht allzu sehr vertrauen. Das Format enthält keinen einfachen Text und das bedeutet, dass jeder Leser einige heuristische Schritte unternehmen muss.