Versuch, printf zum Dekodieren von Unicode-Zeichen zu verwenden, die als Argumente übergeben werden

Question 1

Um das Problem der doppelten Erweiterung ( \uwird vor verarbeitet %s) zu vermeiden, können Sie %bzumindest in Bash Folgendes verwenden printf:

printf '%b\n' \\u0024 \\u0025

Sie können Ihre Eingaben auf verschiedene Arten vorverarbeiten:

set 0024 0025
printf '%b\n' "${@/#/\\u}"

Der printfeigenständigewie in GNU Coreutils implementiert, unterliegt den folgenden Einschränkungen hinsichtlich Unicode-Zeichenspezifikationen:

printfinterpretiert zwei in ISO C 99 eingeführte Zeichensyntaxen: ' \u' für 16-Bit Unicode (ISO/IEC 10646) Zeichen, angegeben als vier hexadezimale Ziffernhhhhund ' \U' für 32-Bit-Unicode-Zeichen, angegeben als acht hexadezimale Ziffernhhhhhhhh. printfgibt die Unicode-Zeichen entsprechend der LC_CTYPELändereinstellung aus. Unicode-Zeichen in den Bereichen U+0000…U+009F, U+D800…U+DFFF können mit dieser Syntax nicht angegeben werden, mit Ausnahme von U+0024 ($), U+0040 (@) und U+0060 (`).

%Dies erklärt, warum Sie auf diese Weise nicht produzieren können .

Answer

Um das Problem der doppelten Erweiterung ( \uwird vor verarbeitet %s) zu vermeiden, können Sie %bzumindest in Bash Folgendes verwenden printf:

printf '%b\n' \\u0024 \\u0025

Sie können Ihre Eingaben auf verschiedene Arten vorverarbeiten:

set 0024 0025
printf '%b\n' "${@/#/\\u}"

Der printfeigenständigewie in GNU Coreutils implementiert, unterliegt den folgenden Einschränkungen hinsichtlich Unicode-Zeichenspezifikationen:

printfinterpretiert zwei in ISO C 99 eingeführte Zeichensyntaxen: ' \u' für 16-Bit Unicode (ISO/IEC 10646) Zeichen, angegeben als vier hexadezimale Ziffernhhhhund ' \U' für 32-Bit-Unicode-Zeichen, angegeben als acht hexadezimale Ziffernhhhhhhhh. printfgibt die Unicode-Zeichen entsprechend der LC_CTYPELändereinstellung aus. Unicode-Zeichen in den Bereichen U+0000…U+009F, U+D800…U+DFFF können mit dieser Syntax nicht angegeben werden, mit Ausnahme von U+0024 ($), U+0040 (@) und U+0060 (`).

%Dies erklärt, warum Sie auf diese Weise nicht produzieren können .

Question 2

Das Standarddienstprogramm printfunterstützt keine \uxxxxEscape-Sequenzen, siehe:https://pubs.opengroup.org/onlinepubs/9699919799/utilities/printf.html

Die Annahme, dass dies funktionieren könnte, hängt von Erweiterungen ab, die in einigen Implementierungen (z. B. in einem kshintegrierten) vorhanden sein können, von denen jedoch nicht erwartet werden kann, dass sie allgemein unterstützt werden. Siehe das printfStandarddokument.

Ein weiteres Problem scheint Ihre Annahme zu sein, dass der Aufruf

printf '\u%s\n' 123

würde zum selben Ergebnis führen wie der Aufruf von:

printf '\u123\n'

Dies funktioniert nicht, da printfdie Formatzeichenfolge Element für Element analysiert wird und die erwartete Formatzeichenfolge nicht angezeigt wird.

Selbst wenn Sie also bashzur Ausführung des Skripts verwenden, können Sie erwarten, dass der \uxxBackslash-Escape erweitert wird, wenn zwei Hexadezimalziffern folgen und die Escape-Sequenz wörtlich in der Formatzeichenfolge vorkommt. Wenn Sie 4 Hexadezimalziffern erweitert haben möchten, müssen Sie wörtlich in der Formatzeichenfolge vorkommen \Uxxxx.

Answer