TeX では、区切られていない引数として使用されないトークンはどれですか ({ と } の間にある場合を除く)?

Question 1

TeXbook のスタイルは、正しいことを述べることが多いですが、完全な真実ではありません。

「シングルスペース」の正式な定義は存在しません。なぜなら、それが必要ないからです。

確かに、試してみると

\begingroup\def\\{\global\let\spacetoken= }\\ \endgroup

\def\foo#1#2{(First is #1)(Second is #2)}

\foo AB

\foo A B

\edef\two{\space\space}
\expandafter\foo\expandafter A\two B

\foo A\spacetoken B

\bye

3つのインスタンスが表示されます

(最初はA)(次はB)

そして最後の行は代わりに

(最初はA)(次は)B

このトリックは、と\expandafterの間に複数のスペースを挿入するために使用されます。次の演習は「より正確」であることがわかります。TeXは、AB明示的な区切られていない引数を探すときはスペーストークンを使用します。

最後の例は、暗黙スペーストークンはスキップされません。コードの最初の行は演習24.6から借用したもので、\spacetoken暗黙のスペーストークンを作成します。これは、のように単純に行うことができないためです。を\let\bgroup={追加すると、\show\spacetoken

> \spacetoken=blank space  .

しかしこれはない区切られていない引数を検索する場合は無視されます。

明示的なスペーストークンは、カテゴリコード 10 の文字トークンです (通常の設定ではスペースまたはタブですが、詳細については後で説明します)。通常の設定では、これは入力内の空白スペースまたはタブ、または入力がトークン化される時点でカテゴリコード 10 が割り当てられている任意の文字によって生成される可能性があります。

しかし、落とし穴があります。いつも落とし穴があるのです!

TeXはカテゴリコード10の文字を吸収し、元の文字コードとは独立して文字コード32を割り当てることを考慮する必要があります。したがって、タブはスペースと違いはありません。はトークン化が実行された後も同様です。

それで、何が問題なの？

\uccode` =`x \uppercase{\foo A B}

面白い空間を無視しない？それは実際には違う

\catcode`*=10 \foo A*B

カテゴリコードが 10 であるため、アスタリスクは無視されます。

事実、カテゴリコード10の文字は正規化された文字コード32を持つトークン化中ただし、\uppercaseが適用されると、トークン化はすでに実行されており、スペースの文字コードは 32 になります。ただし、\uppercase文字がx₁₀になると、文字コード 32 がないため、無視することはできなくなります。

したがって、文字コード 32 およびカテゴリコード 10 の文字のみが無視されるという答えは正しいですが、正規化を考慮しない場合は誤解を招きます。

Answer

TeXbook のスタイルは、正しいことを述べることが多いですが、完全な真実ではありません。

「シングルスペース」の正式な定義は存在しません。なぜなら、それが必要ないからです。

確かに、試してみると

\begingroup\def\\{\global\let\spacetoken= }\\ \endgroup

\def\foo#1#2{(First is #1)(Second is #2)}

\foo AB

\foo A B

\edef\two{\space\space}
\expandafter\foo\expandafter A\two B

\foo A\spacetoken B

\bye

3つのインスタンスが表示されます

(最初はA)(次はB)

そして最後の行は代わりに

(最初はA)(次は)B

このトリックは、と\expandafterの間に複数のスペースを挿入するために使用されます。次の演習は「より正確」であることがわかります。TeXは、AB明示的な区切られていない引数を探すときはスペーストークンを使用します。

最後の例は、暗黙スペーストークンはスキップされません。コードの最初の行は演習24.6から借用したもので、\spacetoken暗黙のスペーストークンを作成します。これは、のように単純に行うことができないためです。を\let\bgroup={追加すると、\show\spacetoken

> \spacetoken=blank space  .

しかしこれはない区切られていない引数を検索する場合は無視されます。

明示的なスペーストークンは、カテゴリコード 10 の文字トークンです (通常の設定ではスペースまたはタブですが、詳細については後で説明します)。通常の設定では、これは入力内の空白スペースまたはタブ、または入力がトークン化される時点でカテゴリコード 10 が割り当てられている任意の文字によって生成される可能性があります。

しかし、落とし穴があります。いつも落とし穴があるのです!

TeXはカテゴリコード10の文字を吸収し、元の文字コードとは独立して文字コード32を割り当てることを考慮する必要があります。したがって、タブはスペースと違いはありません。はトークン化が実行された後も同様です。

それで、何が問題なの？

\uccode` =`x \uppercase{\foo A B}

面白い空間を無視しない？それは実際には違う

\catcode`*=10 \foo A*B

カテゴリコードが 10 であるため、アスタリスクは無視されます。

事実、カテゴリコード10の文字は正規化された文字コード32を持つトークン化中ただし、\uppercaseが適用されると、トークン化はすでに実行されており、スペースの文字コードは 32 になります。ただし、\uppercase文字がx₁₀になると、文字コード 32 がないため、無視することはできなくなります。

したがって、文字コード 32 およびカテゴリコード 10 の文字のみが無視されるという答えは正しいですが、正規化を考慮しない場合は誤解を招きます。

Question 2

tex.webには

begin if cur_tok=space_token then

無視されるトークンをスキップするにはspace_token、

@d space_token=@'5040 {$2^8\cdot|spacer|+|" "|$}

Answer

tex.webには

begin if cur_tok=space_token then

無視されるトークンをスキップするにはspace_token、

@d space_token=@'5040 {$2^8\cdot|spacer|+|" "|$}

Question 3

文字コード 32 およびカテゴリ 10 (スペース) の明示的な文字トークンのシーケンスは、区切られていない引数の開始を「探す」ときに TeX がスキップする唯一のものです。

数量⟨スペーストークン⟩確かに、あなたが引用した TeXbook の段落の意味での「単一のスペース」/「非空白トークン」と同じではありません。

数量⟨オプションのスペース 1 つ⟩と定義されている：

⟨オプションのスペース 1 つ⟩→⟨スペーストークン⟩|⟨空の⟩

どこでも⟨オプションのスペース 1 つ⟩許可されている場合、暗黙的なスペーストークンになることもあります。

例えば、

\lowercase{\let\sptoken = } %
\edef\result{\number1234 }
\show\result
\edef\result{\number1234\sptoken}
\show\result
\let\result\sptoken\sptoken=\sptoken\TeX
\bye

(ここでは、\lowercase 中括弧を削除するだけです。この方法では、「=」の後ろに文字コード 32 の 2 つの明示的なスペーストークンが得られます。\let-assignments では「=」の後ろに 1 つのスペースがオプションであるため、最初のスペーストークンは破棄されます。2 番目のスペーストークンは破棄されず、に意味が割り当てられるトークンになります\sptoken。)

\sptokenは暗黙のスペーストークンです。明示的なスペーストークンと同様に
TeXの評価中に破棄されます。また、他の\number
⟨オプションスペース⟩2 番目の\let-assignment を実行している間。ただし、TeX は、区切られていない引数の先頭を「探す」間は
スキップしません。\sptoken

この例は、量が⟨スペーストークン⟩あなたが引用したTeXbook段落の意味での「単一のスペース」/「非空白トークン」と同じではありません。

ところで：

あなたの質問は、区切られていない引数の開始を探すときに TeX がトークンをどのように扱うかに焦点を当てています。

あなたの質問は、トークン化がすでに行われている処理の段階に関するものです。

それでも、.tex-input をトークン化するプロセスに関連する事実について言及する価値はあります。

.tex-input をトークン化するプロセス中に、読み取り装置が状態 M (行の中央) にあるときに、TeX がカテゴリコードが 10 (スペース) の文字に遭遇すると、TeX はカテゴリ 10 (スペース) と文字コード 32 の明示的な文字トークンをトークンストリームに追加します。つまり、結果のトークンは、問題の入力文字のコードポイントの番号に関係なく、文字コード 32 になります。

たとえば、水平タブ (ASCII では水平タブのコードポイント番号は 9) には、通常、カテゴリコード 10 も割り当てられます。したがって、水平タブをトークン化すると、通常、カテゴリ 10 (スペース) と文字コード 32 の明示的な文字トークンが生成されます。つまり、区切りのない引数の開始を「探す」ときに TeX によってスキップされるトークンです。

Answer