Cut and Paste Non-Math Text from MS Word to a .tex file

Cut and Paste Non-Math Text from MS Word to a .tex file

Ich helfe einem Freund, mit LaTeX ein Buch mit Kurzgeschichten zu erstellen. Die Geschichten werden von den Autoren in MS Word empfangen – leider ist das der einzige Texteditor, den die meisten Menschen kennen. Es gibt keinen mathematischen Inhalt, um den man sich Sorgen machen müsste, nur einfachen Text. Allerdings wandelt Word gerne einfachen Text in andere Zeichen um: Die beiden, die mir bisher aufgefallen sind, sind die Anführungszeichen und ....

Ich habe den vorgeschlagenen Ansatz inputencohne Erfolg ausprobiert, selbst mit verschiedenen Eingabecodierungen. Ich verwende \inputencodinganstelle einer Paketoption, da ich das Gefühl habe, dass ich sie zwischen verschiedenen Geschichten ändern muss.

Bildbeschreibung hier eingeben

Was ist also der empfohlene Ansatz, um damit umzugehen? Idealerweise hätte ich lieber eine Möglichkeit, diese Zeichen den entsprechenden LaTeX-freundlichen zuzuordnen.

Anmerkungen:

  • Ich persönlich verlasse nicht gern dieschlauAnführungszeichen, da es Fälle gibt, in denen die Autoren ein schließendes Anführungszeichen übersehen haben und dann alle nachfolgenden Anführungszeichen falsch sind. Wenn dies frühzeitig erkannt wird, kann es leicht im Word-Dokument korrigiert werden, bevor es in eine .tex-Datei eingefügt wird. Aber oft hat der Redakteur bereits erhebliche Änderungen an der .tex-Datei vorgenommen, bevor dieses Problem bemerkt wird. Daher ist es vorzuziehen, csquotesdieses Problem zu behandeln, anstatt die spezifischen öffnenden und schließenden Anführungszeichen zu verwenden.

Verweise

Code:

\documentclass{article}
\usepackage{inputenc}
\usepackage{csquotes}
\MakeOuterQuote{"}

%\inputencoding{utf8}
%\inputencoding{latin1}
%\inputencoding{ansinew}
\inputencoding{cp1252}

\begin{document}

"It's too late now…" (should have \ldots\ before end quote)

“Please, sir, don’t.”  (should have left and right quotes)
\end{document}

Antwort1

Bezüglich der Inputenc-Frage

Dein Beispiel funktioniert problemlos, wenn ich es in ein UTF8-Dokument kopiere und die InputEnc-Kodierung dementsprechend als UTF8 deklariere. Das Gleiche gilt für Ansinew.

Ich kann mir nicht wirklich vorstellen, wie Sie die Ausgabe in Ihrem Bild erhalten könnten – sie kann erstellt werden, aber meiner Meinung nach nicht mit den Standarddateien. Keine davon würde Nicht-ASCII-Zeichen durch Fragezeichen ersetzen.

In Bezug auf Zitate

Gerade Anführungszeichen (") sind in deutschen Tex-Dokumenten aktiv und werden für viele nützliche Dinge verwendet, wie zum Beispiel zum Hinzufügen von Trennzeichen und Bindestrichen. Ich würde sie daher nie für echte Anführungszeichen verwenden und bevorzuge Word-Dateien mit intelligenten Anführungszeichen. Beim Kopieren von Word mit (deutschen) intelligenten Anführungszeichen nach Tex verwende ich diese \MakeAutoQuote{„}{“}im Tex-Dokument. Da solche Anführungszeichen eine Gruppe erstellen, erhalte ich Warnungen oder Fehlermeldungen, wenn die intelligenten Anführungszeichen im Word-Dokument nicht richtig ausgeglichen sind, was die meisten Fehler vermeidet. Aber Word-Dateien sind nie perfekt und daher reicht einfaches Kopieren und Einfügen nie aus. Man muss das Ergebnis immer lesen und überprüfen.

Antwort2

das ist die Art von Arbeit, die ich manchmal mache. Nun, es gibt einige Tools, mit denen Sie dieses Problem lösen können. Vielleicht ist der beste und automatische Weg mit pandoc, aber ehrlich gesagt ist die Wahrheit, dass ich nicht genug getestet habe und noch keine zufriedenstellenden Erfahrungen damit gemacht habe. Eine andere Möglichkeit ist, das zu tun, was @Bernard vorschlägt.

Früher habe ich AbiWordzum Öffnen von DOC-Dateien und Exportieren int verwendet LateX, das war für mich keine gute Lösung, da die Dokumentstruktur nicht beachtet wurde und alle diakritischen Zeichen im ASCII-Modus codiert sind. Aber für einen kurzen Text auf Englisch wäre das vielleicht eine gute Option.

Meiner Erfahrung nach funktioniert es am besten (und ich übergebe den Text gerne von Wordan LaTeX):Erhabener Text 2. Ja, für andere ist es vielleicht dumm und nicht die beste Lösung, geschweige denn automatisch, aber es funktioniert ziemlich gut.

Der erste VorteilIch finde, dass es Ihnen ermöglicht, mit Kodierungen umzugehen. Sie können eine Datei mit der gewünschten (oder fast gewünschten) Kodierung öffnen und sie in die gewünschte Kodierung umkodieren. Normalerweise kodiere ich alles in UTF-8. Sie können sie immer noch erneut öffnen oder mit der gewünschten Kodierung speichern und erhalten keine seltsamen Symbole wie beim Versuch mit Texmaker. (In diesem Fall habe ich es auf UTF-8 eingestellt und wenn ich eine Datei öffne, lasse ich mich wissen, ob sie in einer anderen Kodierung vorliegt.)

The second advantage has to do with the color schemes and the syntax. By default uses a pretty scheme called Monokai, I use to switch to Monokai bright (the difference is the color used for the highlighted selections, in Monokai bright is orange instead the gray by default). The syntax for LaTeX is very comfortable to the eyes and also let us detect easily the quotation marks. Surelly we can achieve the same in vim or emacs but here is very easy. If whe have the common and wrong quotation marks " then Sublime Text with this color scheme highlight the text between in a lively pink color. So is very easy to see where we have to make corrections. Unfortunately if the author or the editor forget to close the quotes, we don't see them in color, but the editr allow us to find them all easily yet. When the quotes are right composed in the ascii mode: `` '' we'll see the text in yellow instead of white.

The third advantage has to do with the simultaneous use of cursors in real time, and the use of regular expressions that allows to quickly correct many things, for example the ellipsis. You can select the ... writed in Word and using [Ctrl]+[D] ([Cmd]+[D] in Mac) for select all occurrences in the document, and once selected change it to \ldots just writing it. So the change is not in one but in all selections at once. Fast and easy.

You don't need any special tool for achieve this, but you can also enhance the editor for compile directly on it if you want or for get more tools, yopu can do that installing the Package Control and with it easily get LaTeXTool package and another.

I know that this editor is very popular among people who do web, but I think for LaTeX also has some interesting features, try it and see if it convinces you.


Addenda

For achieve correctly all this I told before, I usually use both packages: inpuntenc(with utf8) and fontenc(with T1 is enought for western european languages without maths).

Antwort3

Pandoc is a command-line tool that can covert docx files to LaTeX files. As for dealing with ellipses and quote marks, I think that the best way to handle those is using the search and replace function in your LaTeX editor.

verwandte Informationen