пытаюсь использовать printf для декодирования символов юникода, переданных в качестве аргументов

Question 1

Чтобы избежать проблемы двойного расширения ( \uобрабатывается раньше %s), можно использовать %b, по крайней мере в Bash printf:

printf '%b\n' \\u0024 \\u0025

Вы можете предварительно обработать свои входные данные различными способами:

set 0024 0025
printf '%b\n' "${@/#/\\u}"

Автономный printf,как реализовано в GNU coreutils, имеет следующие ограничения на спецификации символов Unicode:

printfинтерпретирует два синтаксиса символов, представленных в ISO C 99: ' \u' для 16-битных символов Unicode (ISO/IEC 10646), указанных как четыре шестнадцатеричные цифрыхххх, и ' \U' для 32-битных символов Unicode, указанных как восемь шестнадцатеричных цифрххххххх. printfвыводит символы Unicode в соответствии с LC_CTYPEлокалью. Символы Unicode в диапазонах U+0000…U+009F, U+D800…U+DFFF не могут быть указаны этим синтаксисом, за исключением U+0024 ($), U+0040 (@) и U+0060 (`).

Это объясняет, почему нельзя производить продукцию %таким образом.

Answer

Чтобы избежать проблемы двойного расширения ( \uобрабатывается раньше %s), можно использовать %b, по крайней мере в Bash printf:

printf '%b\n' \\u0024 \\u0025

Вы можете предварительно обработать свои входные данные различными способами:

set 0024 0025
printf '%b\n' "${@/#/\\u}"

Автономный printf,как реализовано в GNU coreutils, имеет следующие ограничения на спецификации символов Unicode:

printfинтерпретирует два синтаксиса символов, представленных в ISO C 99: ' \u' для 16-битных символов Unicode (ISO/IEC 10646), указанных как четыре шестнадцатеричные цифрыхххх, и ' \U' для 32-битных символов Unicode, указанных как восемь шестнадцатеричных цифрххххххх. printfвыводит символы Unicode в соответствии с LC_CTYPEлокалью. Символы Unicode в диапазонах U+0000…U+009F, U+D800…U+DFFF не могут быть указаны этим синтаксисом, за исключением U+0024 ($), U+0040 (@) и U+0060 (`).

Это объясняет, почему нельзя производить продукцию %таким образом.

Question 2

Стандартная printfутилита не поддерживает \uxxxxescape-последовательности, см.:https://pubs.opengroup.org/onlinepubs/9699919799/utilities/printf.html

Предположение, что это может работать, зависит от расширений, которые могут присутствовать в нескольких реализациях (например, во kshвстроенной), но нельзя ожидать, что они будут поддерживаться в целом. См. printfстандартный документ.

Другая проблема, по-видимому, заключается в вашем предположении, что звонок

printf '\u%s\n' 123

приведет к тому же результату, что и вызов:

printf '\u123\n'

Это не работает, так как printfанализирует строку формата поэлементно и не видит ожидаемую строку формата.

Так что даже если вы используете bashдля выполнения скрипта, вы можете просто ожидать, что \uxxэкранирование обратной косой черты будет расширено, если последуют две шестнадцатеричные цифры, а последовательность экранирования появится буквально в строке формата. Если вы хотите, чтобы 4 шестнадцатеричные цифры были расширены, вам нужно иметь \Uxxxxбуквально в строке формата.

Answer