¿Qué tokens no utiliza TeX como argumentos no delimitados (a menos que estén entre { y } )?

Question 1

El estilo del TeXbook es a menudo decir algo correcto, pero no toda la verdad.

No existe una definición formal de “espacio único”, porque no es necesario.

De hecho, si lo intentas

\begingroup\def\\{\global\let\spacetoken= }\\ \endgroup

\def\foo#1#2{(First is #1)(Second is #2)}

\foo AB

\foo A B

\edef\two{\space\space}
\expandafter\foo\expandafter A\two B

\foo A\spacetoken B

\bye

obtendrás tres instancias de

(El primero es A)(El segundo es B)

y la última línea en su lugar producirá

(El primero es A)(El segundo es )B

El \expandaftertruco se utiliza para inyectar múltiples espacios entre Ay B. Entonces ves que el siguiente ejercicio es “más correcto”: TeX se salta cualquierexplícitotoken de espacio cuando se busca un argumento no delimitado.

El último ejemplo muestra queimplícitoLas fichas de espacio no se omiten. La primera línea del código está tomada del ejercicio 24.6, para crear \spacetokenun token de espacio implícito, porque no se puede simplemente hacer me gusta en \let\bgroup={. Si agregas \show\spacetokenobtienes

> \spacetoken=blank space  .

pero esto esnoignorado cuando se busca un argumento no delimitado.

Un token de espacio explícito es un token de carácter del código de categoría 10 (espacio o tabulador, en configuración normal; pero consulte más adelante para obtener más detalles si está interesado en ellos). En la configuración normal, esto podría generarse mediante un espacio en blanco o una tabulación en la entrada, o cualquier carácter al que se le asigne el código de categoría 10 en el momento en que se tokeniza la entrada.

Pero hay un problema. ¡Siempre hay uno!

Hay que tener en cuenta que TeX absorberá caracteres con el código de categoría 10 y les asignará el código de carácter 32 independientemente de su código de carácter original. Así, las tabulaciones no se diferencian de los espacios, porquesonlo mismo una vez realizada la tokenización.

Entonces, ¿cuál es el problema con

\uccode` =`x \uppercase{\foo A B}

¿Eso no ignora el espacio divertido? De hecho, es diferente de

\catcode`*=10 \foo A*B

que ignora el asterisco, porque tiene el código de categoría 10.

El hecho es que los caracteres con código de categoría 10 sonnormalizadotener el código de carácter 32durante la tokenización. Sin embargo, cuando \uppercasese aplica, la tokenización ya se realizó y el espacio tiene el código de carácter 32. Pero después \uppercaseel carácter se convierte en x₁₀ , lo cual ya no es válido para ser ignorado, porque no tiene el código de carácter 32.

Por lo tanto, la respuesta de que solo se ignoran los caracteres con código de carácter 32 y código de categoría 10 es correcta, pero engañosa si no se tiene en cuenta la normalización.

Answer

El estilo del TeXbook es a menudo decir algo correcto, pero no toda la verdad.

No existe una definición formal de “espacio único”, porque no es necesario.

De hecho, si lo intentas

\begingroup\def\\{\global\let\spacetoken= }\\ \endgroup

\def\foo#1#2{(First is #1)(Second is #2)}

\foo AB

\foo A B

\edef\two{\space\space}
\expandafter\foo\expandafter A\two B

\foo A\spacetoken B

\bye

obtendrás tres instancias de

(El primero es A)(El segundo es B)

y la última línea en su lugar producirá

(El primero es A)(El segundo es )B

El \expandaftertruco se utiliza para inyectar múltiples espacios entre Ay B. Entonces ves que el siguiente ejercicio es “más correcto”: TeX se salta cualquierexplícitotoken de espacio cuando se busca un argumento no delimitado.

El último ejemplo muestra queimplícitoLas fichas de espacio no se omiten. La primera línea del código está tomada del ejercicio 24.6, para crear \spacetokenun token de espacio implícito, porque no se puede simplemente hacer me gusta en \let\bgroup={. Si agregas \show\spacetokenobtienes

> \spacetoken=blank space  .

pero esto esnoignorado cuando se busca un argumento no delimitado.

Un token de espacio explícito es un token de carácter del código de categoría 10 (espacio o tabulador, en configuración normal; pero consulte más adelante para obtener más detalles si está interesado en ellos). En la configuración normal, esto podría generarse mediante un espacio en blanco o una tabulación en la entrada, o cualquier carácter al que se le asigne el código de categoría 10 en el momento en que se tokeniza la entrada.

Pero hay un problema. ¡Siempre hay uno!

Hay que tener en cuenta que TeX absorberá caracteres con el código de categoría 10 y les asignará el código de carácter 32 independientemente de su código de carácter original. Así, las tabulaciones no se diferencian de los espacios, porquesonlo mismo una vez realizada la tokenización.

Entonces, ¿cuál es el problema con

\uccode` =`x \uppercase{\foo A B}

¿Eso no ignora el espacio divertido? De hecho, es diferente de

\catcode`*=10 \foo A*B

que ignora el asterisco, porque tiene el código de categoría 10.

El hecho es que los caracteres con código de categoría 10 sonnormalizadotener el código de carácter 32durante la tokenización. Sin embargo, cuando \uppercasese aplica, la tokenización ya se realizó y el espacio tiene el código de carácter 32. Pero después \uppercaseel carácter se convierte en x₁₀ , lo cual ya no es válido para ser ignorado, porque no tiene el código de carácter 32.

Por lo tanto, la respuesta de que solo se ignoran los caracteres con código de carácter 32 y código de categoría 10 es correcta, pero engañosa si no se tiene en cuenta la normalización.

Question 2

tex.web tiene

begin if cur_tok=space_token then

para omitir los tokens ignorados donde space_tokenestá

@d space_token=@'5040 {$2^8\cdot|spacer|+|" "|$}

Answer

tex.web tiene

begin if cur_tok=space_token then

para omitir los tokens ignorados donde space_tokenestá

@d space_token=@'5040 {$2^8\cdot|spacer|+|" "|$}

Question 3

Las secuencias de tokens de caracteres explícitos del código de caracteres 32 y categoría 10 (espacio) son las únicas cosas que TeX omite mientras "busca" el comienzo de un argumento no delimitado.

La cantidad⟨ficha espacial⟩de hecho, no es igual a "espacio único"/"token no en blanco" en el sentido de los párrafos de TeXbook citados por usted:

La cantidad⟨un espacio opcional⟩Se define como:

⟨un espacio opcional⟩→⟨ficha espacial⟩|⟨vacío⟩

Lo que sea⟨un espacio opcional⟩está permitido, también puede ser un token de espacio implícito.

Ver, por ejemplo,

\lowercase{\let\sptoken = } %
\edef\result{\number1234 }
\show\result
\edef\result{\number1234\sptoken}
\show\result
\let\result\sptoken\sptoken=\sptoken\TeX
\bye

(Aquí \lowercase no hace más que quitar las llaves. De esta manera obtienes dos tokens de espacio explícitos del código de carácter 32 detrás de "=". El primero se descartará porque con \let-assignments un espacio es opcional detrás de "=". El segundo no será descartado pero será el token cuyo significado se asigne a \sptoken.)

\sptokenes un token de espacio implícito.
Se descarta durante \numberla evaluación de TeX como un token espacial explícito.
También se descarta como cualquier otro.⟨espacio opcional⟩mientras realiza la segunda \lettarea.
Pero TeX no se saltaría \sptokenmientras "buscaba" el comienzo de un argumento no delimitado.

Entonces este ejemplo demuestra que la cantidad⟨ficha espacial⟩no es igual a "espacio único"/"token no en blanco" en el sentido de los párrafos de TeXbook citados por usted.

Por cierto:

Su pregunta se centra en cómo TeX trata los tokens mientras busca el comienzo de un argumento no delimitado.

Su pregunta se refiere a una etapa del procesamiento donde la tokenización ya está realizada.

Sin embargo, vale la pena mencionar un hecho relacionado con el proceso de tokenización de .tex-input:

Si, durante el proceso de tokenización de entrada .tex, TeX encuentra un carácter cuyo código de categoría es 10 (espacio) mientras el aparato de lectura está en el estado M (en medio de la línea), entonces TeX agregará un token de carácter explícito de categoría 10. (espacio) y código de carácter 32 al token-stream. Es decir, el token resultante tendrá el código de carácter 32 independientemente del número que tenga el punto de código del carácter de la entrada en cuestión.

Por ejemplo, la pestaña horizontal (la pestaña horizontal tiene el punto de código número 9 en ASCII) generalmente también tiene asignado el código de categoría 10. Por lo tanto, la tokenización de una pestaña horizontal generalmente produce un token de carácter explícito de categoría 10 (espacio) y código de carácter 32. Es decir, ese mismo token que TeX omite mientras "busca" el comienzo de un argumento no delimitado.

Answer