¿Cuáles son las reglas de pdftex `\pdfmatch` para la expansión y el uso de clases especiales?

Question 1

El código fuente de expresiones regulares en las fuentes pdftex tiene soporte opcional para clases de caracteres, pero no tiene soporte regional, por lo que no se puede utilizar de manera confiable con caracteres que no sean ASCII; cualquier entrada UTF-8 se verá como múltiples bytes, no como caracteres Unicode.

\pdfmatch {[+-]?([0-9]*[.])?[0-9]+} {-4.06}
\immediate\write500{1: \pdflastmatch0, \pdflastmatch1}

% [:digit:] is [:digt]  checking for those literal characters
\pdfmatch {[+-]?([:digit:]*[.])?[:digit:]+} {-dddg:ii.ggg}
\immediate\write500{2: \pdflastmatch0, \pdflastmatch1}

% [[:digit:]] is digit class
\pdfmatch {[+-]?([[:digit:]]*[.])?[[:digit:]]+} {-4.06}
\immediate\write500{3: \pdflastmatch0, \pdflastmatch1}

% full expansion happens for both arguments before regex processing
\def\aaa{[0-9]*[.]}
\def\bbb{[+-]?(\aaa)?}
\def\ccc{\bbb[0-9]+}

\def\DDD{4}
\def\EEE{06}
\def\FFF{-\DDD.\EEE}

\pdfmatch {\ccc} {\FFF}
\immediate\write500{4: \pdflastmatch0, \pdflastmatch1}

\chardef\DOLLAR=`$

\pdfmatch {\DOLLAR} {\$}
\immediate\write500{5: \pdflastmatch0}

\pdfmatch {\DOLLAR} {.D.*R}
\immediate\write500{6: \pdflastmatch0}


\pdfmatch {\DOLLAR} {.*}
\immediate\write500{7: \pdflastmatch0}


\pdfmatch {abc\DOLLAR} {a.*}
\immediate\write500{8: \pdflastmatch0}


\end

produce

1: 0->-4.06, 1->4.
2: 0->-dddg:ii.ggg, 1->dddg:ii.
3: 0->-4.06, 1->4.
4: 0->-4.06, 1->4.
5: -1->
6: -1->
7: -1->
8: -1->

donde la prueba 2 muestra [:digit:]no es una clase de personaje sino simplemente ese conjunto de personajes: d i g t

La prueba 3 muestra [[:digit:]]es la clase de personaje (gracias @egreg)

La prueba 4 muestra que tanto la cadena como la expresión regular están completamente expandidas antes de que comience el procesamiento de expresiones regulares.

Las pruebas 5 a 8 con la ficha chardef no ampliable \DOLLARmuestran que si la expansión no consta únicamente de fichas de personajes, nada coincide.

Answer

El código fuente de expresiones regulares en las fuentes pdftex tiene soporte opcional para clases de caracteres, pero no tiene soporte regional, por lo que no se puede utilizar de manera confiable con caracteres que no sean ASCII; cualquier entrada UTF-8 se verá como múltiples bytes, no como caracteres Unicode.

\pdfmatch {[+-]?([0-9]*[.])?[0-9]+} {-4.06}
\immediate\write500{1: \pdflastmatch0, \pdflastmatch1}

% [:digit:] is [:digt]  checking for those literal characters
\pdfmatch {[+-]?([:digit:]*[.])?[:digit:]+} {-dddg:ii.ggg}
\immediate\write500{2: \pdflastmatch0, \pdflastmatch1}

% [[:digit:]] is digit class
\pdfmatch {[+-]?([[:digit:]]*[.])?[[:digit:]]+} {-4.06}
\immediate\write500{3: \pdflastmatch0, \pdflastmatch1}

% full expansion happens for both arguments before regex processing
\def\aaa{[0-9]*[.]}
\def\bbb{[+-]?(\aaa)?}
\def\ccc{\bbb[0-9]+}

\def\DDD{4}
\def\EEE{06}
\def\FFF{-\DDD.\EEE}

\pdfmatch {\ccc} {\FFF}
\immediate\write500{4: \pdflastmatch0, \pdflastmatch1}

\chardef\DOLLAR=`$

\pdfmatch {\DOLLAR} {\$}
\immediate\write500{5: \pdflastmatch0}

\pdfmatch {\DOLLAR} {.D.*R}
\immediate\write500{6: \pdflastmatch0}


\pdfmatch {\DOLLAR} {.*}
\immediate\write500{7: \pdflastmatch0}


\pdfmatch {abc\DOLLAR} {a.*}
\immediate\write500{8: \pdflastmatch0}


\end

produce

1: 0->-4.06, 1->4.
2: 0->-dddg:ii.ggg, 1->dddg:ii.
3: 0->-4.06, 1->4.
4: 0->-4.06, 1->4.
5: -1->
6: -1->
7: -1->
8: -1->

donde la prueba 2 muestra [:digit:]no es una clase de personaje sino simplemente ese conjunto de personajes: d i g t

La prueba 3 muestra [[:digit:]]es la clase de personaje (gracias @egreg)

La prueba 4 muestra que tanto la cadena como la expresión regular están completamente expandidas antes de que comience el procesamiento de expresiones regulares.

Las pruebas 5 a 8 con la ficha chardef no ampliable \DOLLARmuestran que si la expansión no consta únicamente de fichas de personajes, nada coincide.

Question 2

La sintaxis \pdfmatchse indica en la página 45 del manual (rev. 905)

\pdfmatch [ icase ] [ subcount⟨entero⟩ ]⟨texto general⟩ ⟨texto general⟩ (ampliable)

Dado que ambos argumentos son ⟨texto general⟩, su contenido está sujeto a una expansión total, como ocurre con \message.

Por lo tanto, si necesita escapar de un carácter para crear una expresión regular, digamos \+para que coincida con un literal +, necesita \noexpand\+o [+](consulte el ejemplo a continuación).

Se admiten clases de personajes [:alpha:]y [:digit:]( [:alnum:]con corchetes dobles, por supuesto).

Para hacer coincidir el final de la cadena, simplemente use $, y el comienzo de la cadena es ^.

¿Qué conjunto de caracteres? Recuerde que pdftexes de 8 bits, por lo que la compatibilidad con UTF-8 está fuera de discusión (pero en algunos casos puede funcionar con pdflatex).

\documentclass{article}

\count255=\pdfmatch{[[:digit:]]x}{1x2y}
\message{^^J1: \the\count255; \pdflastmatch0}

\count255=\pdfmatch{[[:digit:]][[:alpha:]]}{12y}
\message{^^J2: \the\count255; \pdflastmatch0}

\count255=\pdfmatch{[[:alnum:]]*\noexpand\+}{a2c+d3f+}
\message{^^J3: \the\count255; \pdflastmatch0}

\count255=\pdfmatch{[[:alnum:]]*[+]$}{a2c+d3f+}
\message{^^J4: \the\count255; \pdflastmatch0}

\count255=\pdfmatch{^[[:alnum:]]*\noexpand\+}{a2c+d3f+}
\message{^^J5: \the\count255; \pdflastmatch0}

\count255=\pdfmatch{à}{aàa}
\message{^^J6: \the\count255; \pdflastmatch0}

\stop

La consola imprimirá

1: 1; 0->1x
2: 1; 1->2y
3: 1; 0->a2c+
4: 1; 4->d3f+
5: 1; 0->a2c+
6: 1; 1->à

Si utiliza

\pdfmatch{\unexpanded{<regex>}}{<text>}

la ⟨regex⟩ puede estar en la sintaxis POSIX estándar. Por ejemplo, el ejemplo 3 anterior puede ser

\count255=\pdfmatch{\unexpanded{[[:alnum:]]*\+}}{a2c+d3f+}

Answer