intentando usar printf para decodificar caracteres Unicode pasados como argumentos

Question 1

Para evitar el problema de la doble expansión ( \use procesa antes %s), puedes usar %b, al menos en Bash printf:

printf '%b\n' \\u0024 \\u0025

Puede preprocesar su entrada de varias maneras:

set 0024 0025
printf '%b\n' "${@/#/\\u}"

El independiente printf,tal como se implementa en GNU coreutils, tiene las siguientes restricciones en las especificaciones de caracteres Unicode:

printfinterpreta dos sintaxis de caracteres introducidas en ISO C 99: ' \u' para caracteres Unicode de 16 bits (ISO/IEC 10646), especificados como cuatro dígitos hexadecimaleshhhhy ' \U' para caracteres Unicode de 32 bits, especificados como ocho dígitos hexadecimaleshhhhhhhh. printfgenera los caracteres Unicode según la LC_CTYPEconfiguración regional. Esta sintaxis no puede especificar caracteres Unicode en los rangos U+0000…U+009F, U+D800…U+DFFF, excepto U+0024 ($), U+0040 (@) y U+0060 (`). .

Esto explica por qué no se puede producir %de esta manera.

Answer

Para evitar el problema de la doble expansión ( \use procesa antes %s), puedes usar %b, al menos en Bash printf:

printf '%b\n' \\u0024 \\u0025

Puede preprocesar su entrada de varias maneras:

set 0024 0025
printf '%b\n' "${@/#/\\u}"

El independiente printf,tal como se implementa en GNU coreutils, tiene las siguientes restricciones en las especificaciones de caracteres Unicode:

printfinterpreta dos sintaxis de caracteres introducidas en ISO C 99: ' \u' para caracteres Unicode de 16 bits (ISO/IEC 10646), especificados como cuatro dígitos hexadecimaleshhhhy ' \U' para caracteres Unicode de 32 bits, especificados como ocho dígitos hexadecimaleshhhhhhhh. printfgenera los caracteres Unicode según la LC_CTYPEconfiguración regional. Esta sintaxis no puede especificar caracteres Unicode en los rangos U+0000…U+009F, U+D800…U+DFFF, excepto U+0024 ($), U+0040 (@) y U+0060 (`). .

Esto explica por qué no se puede producir %de esta manera.

Question 2

La utilidad estándar printfno admite \uxxxxsecuencias de escape, consulte:https://pubs.opengroup.org/onlinepubs/9699919799/utilities/printf.html

Asumir que esto podría funcionar depende de extensiones que podrían estar presentes en algunas implementaciones (por ejemplo, en una kshfunción incorporada), pero no se puede esperar que sean compatibles en general. Ver el printfdocumento estándar.

Otro problema parece ser su suposición de que llamar

printf '\u%s\n' 123

resultaría en lo mismo que llamar:

printf '\u123\n'

Esto no funciona, ya que printfanaliza la cadena de formato elemento por elemento y no ve la cadena de formato esperada.

Entonces, incluso si está utilizando bashpara ejecutar el script, puede esperar que la \uxxbarra invertida se expanda si siguen dos dígitos hexadecimales y la secuencia de escape aparece literalmente en la cadena de formato. Si desea tener 4 dígitos hexadecimales expandidos, debe tenerlos \Uxxxxliteralmente en la cadena de formato.

Answer