Welche Token verwendet TeX nicht als unbegrenzte Argumente (außer zwischen { und })?

Question 1

Der Stil des TeXbooks besteht oft darin, etwas Richtiges zu sagen, aber nicht die ganze Wahrheit.

Es gibt keine formale Definition eines „einzelnen Leerzeichens“, da dies nicht erforderlich ist.

Wenn Sie es tatsächlich versuchen,

\begingroup\def\\{\global\let\spacetoken= }\\ \endgroup

\def\foo#1#2{(First is #1)(Second is #2)}

\foo AB

\foo A B

\edef\two{\space\space}
\expandafter\foo\expandafter A\two B

\foo A\spacetoken B

\bye

Sie erhalten drei Instanzen von

(Erstes ist A)(Zweites ist B)

und die letzte Zeile erzeugt stattdessen

(Erstes ist A)(Zweites ist)B

Der \expandafterTrick besteht darin, mehrere Leerzeichen zwischen Aund einzufügen B. Sie sehen also, dass die nächste Übung „korrekter“ ist: TeX überspringt alleexplizitLeerzeichen-Token bei der Suche nach einem nicht begrenzten Argument.

Das letzte Beispiel zeigt, dassimplizitLeerzeichen werden nicht übersprungen. Die erste Zeile des Codes ist aus Übung 24.6 entlehnt, um \spacetokenein implizites Leerzeichen zu erstellen, da man nicht einfach so vorgehen kann wie in \let\bgroup={. Wenn Sie hinzufügen, \show\spacetokenerhalten Sie

> \spacetoken=blank space  .

aber das istnichtwird ignoriert, wenn nach einem nicht begrenzten Argument gesucht wird.

Ein explizites Leerzeichen-Token ist ein Zeichen-Token mit dem Kategoriecode 10 (Leerzeichen oder Tabulator, bei normaler Einstellung; bei Interesse finden Sie später weitere Einzelheiten). Bei normaler Einstellung kann dies durch ein Leerzeichen oder einen Tabulator in der Eingabe oder durch ein beliebiges Zeichen generiert werden, dem zum Zeitpunkt der Tokenisierung der Eingabe der Kategoriecode 10 zugewiesen wird.

Aber die Sache hat einen Haken. Es gibt immer einen!

Man muss berücksichtigen, dass TeX Zeichen mit Kategoriecode 10 aufnimmt und ihnen unabhängig von ihrem ursprünglichen Zeichencode den Zeichencode 32 zuweist. Tabulatoren unterscheiden sich also nicht von Leerzeichen, da sieSinddas Gleiche gilt, sobald die Tokenisierung durchgeführt wurde.

Also, was ist das Problem mit

\uccode` =`x \uppercase{\foo A B}

das den komischen Raum nicht ignoriert? Es ist in der Tat anders als

\catcode`*=10 \foo A*B

das das Sternchen ignoriert, da es den Kategoriecode 10 hat.

Tatsache ist, dass Zeichen mit dem Kategoriecode 10normalisiertden Zeichencode 32 habenwährend der Tokenisierung. Wenn jedoch \uppercaseangewendet wird, wurde die Tokenisierung bereits durchgeführt und das Leerzeichen hat den Zeichencode 32. Aber danach \uppercasewird das Zeichen zu x₁₀ , was nicht länger ignoriert werden kann, weil es nicht den Zeichencode 32 hat.

Daher ist die Antwort, dass nur Zeichen mit dem Zeichencode 32 und dem Kategoriecode 10 ignoriert werden, zwar richtig, jedoch irreführend, wenn die Normalisierung nicht berücksichtigt wird.

Answer

Der Stil des TeXbooks besteht oft darin, etwas Richtiges zu sagen, aber nicht die ganze Wahrheit.

Es gibt keine formale Definition eines „einzelnen Leerzeichens“, da dies nicht erforderlich ist.

Wenn Sie es tatsächlich versuchen,

\begingroup\def\\{\global\let\spacetoken= }\\ \endgroup

\def\foo#1#2{(First is #1)(Second is #2)}

\foo AB

\foo A B

\edef\two{\space\space}
\expandafter\foo\expandafter A\two B

\foo A\spacetoken B

\bye

Sie erhalten drei Instanzen von

(Erstes ist A)(Zweites ist B)

und die letzte Zeile erzeugt stattdessen

(Erstes ist A)(Zweites ist)B

Der \expandafterTrick besteht darin, mehrere Leerzeichen zwischen Aund einzufügen B. Sie sehen also, dass die nächste Übung „korrekter“ ist: TeX überspringt alleexplizitLeerzeichen-Token bei der Suche nach einem nicht begrenzten Argument.

Das letzte Beispiel zeigt, dassimplizitLeerzeichen werden nicht übersprungen. Die erste Zeile des Codes ist aus Übung 24.6 entlehnt, um \spacetokenein implizites Leerzeichen zu erstellen, da man nicht einfach so vorgehen kann wie in \let\bgroup={. Wenn Sie hinzufügen, \show\spacetokenerhalten Sie

> \spacetoken=blank space  .

aber das istnichtwird ignoriert, wenn nach einem nicht begrenzten Argument gesucht wird.

Ein explizites Leerzeichen-Token ist ein Zeichen-Token mit dem Kategoriecode 10 (Leerzeichen oder Tabulator, bei normaler Einstellung; bei Interesse finden Sie später weitere Einzelheiten). Bei normaler Einstellung kann dies durch ein Leerzeichen oder einen Tabulator in der Eingabe oder durch ein beliebiges Zeichen generiert werden, dem zum Zeitpunkt der Tokenisierung der Eingabe der Kategoriecode 10 zugewiesen wird.

Aber die Sache hat einen Haken. Es gibt immer einen!

Man muss berücksichtigen, dass TeX Zeichen mit Kategoriecode 10 aufnimmt und ihnen unabhängig von ihrem ursprünglichen Zeichencode den Zeichencode 32 zuweist. Tabulatoren unterscheiden sich also nicht von Leerzeichen, da sieSinddas Gleiche gilt, sobald die Tokenisierung durchgeführt wurde.

Also, was ist das Problem mit

\uccode` =`x \uppercase{\foo A B}

das den komischen Raum nicht ignoriert? Es ist in der Tat anders als

\catcode`*=10 \foo A*B

das das Sternchen ignoriert, da es den Kategoriecode 10 hat.

Tatsache ist, dass Zeichen mit dem Kategoriecode 10normalisiertden Zeichencode 32 habenwährend der Tokenisierung. Wenn jedoch \uppercaseangewendet wird, wurde die Tokenisierung bereits durchgeführt und das Leerzeichen hat den Zeichencode 32. Aber danach \uppercasewird das Zeichen zu x₁₀ , was nicht länger ignoriert werden kann, weil es nicht den Zeichencode 32 hat.

Daher ist die Antwort, dass nur Zeichen mit dem Zeichencode 32 und dem Kategoriecode 10 ignoriert werden, zwar richtig, jedoch irreführend, wenn die Normalisierung nicht berücksichtigt wird.

Question 2

tex.web hat

begin if cur_tok=space_token then

um die ignorierten Token zu überspringen, space_tokenwobei

@d space_token=@'5040 {$2^8\cdot|spacer|+|" "|$}

Answer

tex.web hat

begin if cur_tok=space_token then

um die ignorierten Token zu überspringen, space_tokenwobei

@d space_token=@'5040 {$2^8\cdot|spacer|+|" "|$}

Question 3

Folgen expliziter Zeichen-Token des Zeichencodes 32 und der Kategorie 10 (Leerzeichen) sind die einzigen Dinge, die TeX überspringt, während es nach dem Beginn eines nicht begrenzten Arguments „sucht“.

Die Quantität⟨Leerzeichen⟩ist in der Tat nicht gleichbedeutend mit „einzelnes Leerzeichen“/„nicht leeres Token“ im Sinne der von Ihnen zitierten TeXbook-Absätze:

Die Quantität⟨ein optionales Leerzeichen⟩ist definiert als:

⟨ein optionales Leerzeichen⟩→⟨Leerzeichen⟩|⟨leer⟩

Wo auch immer⟨ein optionales Leerzeichen⟩ist zulässig, das kann auch ein implizites Leerzeichen-Token sein.

Siehe beispielsweise

\lowercase{\let\sptoken = } %
\edef\result{\number1234 }
\show\result
\edef\result{\number1234\sptoken}
\show\result
\let\result\sptoken\sptoken=\sptoken\TeX
\bye

(Hier \lowercase wird nichts weiter getan, als die Klammern zu entfernen. Auf diese Weise erhält man zwei explizite Leerzeichen-Token mit dem Zeichencode 32 hinter "=". Das erste wird verworfen, da bei \let-Zuweisungen ein Leerzeichen hinter "=" optional ist. Das zweite wird nicht verworfen, sondern ist das Token, dessen Bedeutung zugewiesen wird \sptoken.)

\sptokenist ein implizites Leerzeichen-Token.
Es wird bei der -Auswertung von TeX \numberwie ein explizites Leerzeichen-Token verworfen.
Es wird auch wie jedes andere⟨optionales Leerzeichen⟩während der Ausführung der zweiten \let-Zuweisung.
Aber TeX würde nicht springen, \sptokenwährend es nach dem Anfang eines nicht begrenzten Arguments „sucht“.

Dieses Beispiel beweist also, dass die Menge⟨Leerzeichen⟩ist nicht gleichbedeutend mit „einzelnes Leerzeichen“/„nicht leeres Token“ im Sinne der von Ihnen zitierten TeXbook-Absätze.

Übrigens:

Ihre Frage konzentriert sich darauf, wie TeX Token behandelt, während nach dem Anfang eines nicht begrenzten Arguments gesucht wird.

Ihre Frage bezieht sich auf eine Verarbeitungsphase, in der die Tokenisierung bereits abgeschlossen ist.

Dennoch ist eine Tatsache im Zusammenhang mit dem Prozess der Tokenisierung von .tex-Eingaben erwähnenswert:

Wenn TeX beim Tokenisieren von .tex-Eingaben auf ein Zeichen mit dem Kategoriecode 10 (Leerzeichen) stößt, während sich das Lesegerät im Zustand M (Zeilenmitte) befindet, hängt TeX ein explizites Zeichentoken der Kategorie 10 (Leerzeichen) und des Zeichencodes 32 an den Token-Stream an. Das heißt, das resultierende Token hat den Zeichencode 32, unabhängig von der Nummer, die der Codepunkt des Zeichens der betreffenden Eingabe hat.

Beispielsweise ist dem horizontalen Tabulator – der horizontale Tabulator hat in ASCII die Codepunktnummer 9 – normalerweise auch der Kategoriecode 10 zugewiesen. Daher ergibt die Tokenisierung eines horizontalen Tabulators normalerweise ein explizites Zeichentoken der Kategorie 10 (Leerzeichen) und des Zeichencodes 32. D. h. genau das Token, das von TeX übersprungen wird, während nach dem Anfang eines nicht abgegrenzten Arguments „gesucht“ wird.

Answer