GnuWin32 / sed unerwartetes Verhalten in Powershell

Question

Es ist Unicode. Das Zeug, das aus sed kommt, ist Unicode ohne das 2-Byte-Präfix, das PowerShell verwendet, um zwischen Unicode und ASCII zu unterscheiden. PowerShell denkt also, es sei ASCII und lässt die \0-Bytes (die oberen Bytes von 2-Byte-Unicode-Zeichen) drin, die als Leerzeichen angezeigt werden. Und da PowerShell intern mit Unicode arbeitet, erweitert es tatsächlich jedes ursprüngliche Byte in ein 2-Byte-Unicode-Zeichen. Es gibt keine Möglichkeit, PowerShell dazu zu zwingen, Unicode zu akzeptieren. Die möglichen Umgehungsmethoden sind:

Wird Unicode als Eingabe in SED verwendet? Unwahrscheinlich, aber ich denke, es ist möglich. Überprüfen Sie das.

Lassen Sie die Ausgabe von SED mit dem Unicode-Indikator \uFEFF beginnen. Dies wurde im SED-Quellcode wahrscheinlich übersehen:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Sie können den Code in den SED-Befehl einfügen, etwa so:

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Die Ausgabe von sed in eine Datei schreiben und dann mit Get-Content -Encoding Unicode lesen. Beachten Sie, dass der Wechsel in die Datei im Befehl innerhalb von cmd.exe erfolgen muss, etwa so:
```
cmd /c "sed ... >file"
```
Wenn Sie die Datei einfach in PowerShell handhaben lassen, kommt es zu demselben Durcheinander.
Entfernen Sie die Zeichen \0 aus dem resultierenden Text in PowerShell. Dies funktioniert nicht gut mit den internationalen Zeichen, die die Unicode-Bytes mit dem Code 0xA oder 0xD erstellen. Stattdessen erhalten Sie die Zeilenumbrüche.

Answer 1

Es ist Unicode. Das Zeug, das aus sed kommt, ist Unicode ohne das 2-Byte-Präfix, das PowerShell verwendet, um zwischen Unicode und ASCII zu unterscheiden. PowerShell denkt also, es sei ASCII und lässt die \0-Bytes (die oberen Bytes von 2-Byte-Unicode-Zeichen) drin, die als Leerzeichen angezeigt werden. Und da PowerShell intern mit Unicode arbeitet, erweitert es tatsächlich jedes ursprüngliche Byte in ein 2-Byte-Unicode-Zeichen. Es gibt keine Möglichkeit, PowerShell dazu zu zwingen, Unicode zu akzeptieren. Die möglichen Umgehungsmethoden sind:

Wird Unicode als Eingabe in SED verwendet? Unwahrscheinlich, aber ich denke, es ist möglich. Überprüfen Sie das.

Lassen Sie die Ausgabe von SED mit dem Unicode-Indikator \uFEFF beginnen. Dies wurde im SED-Quellcode wahrscheinlich übersehen:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Sie können den Code in den SED-Befehl einfügen, etwa so:

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Die Ausgabe von sed in eine Datei schreiben und dann mit Get-Content -Encoding Unicode lesen. Beachten Sie, dass der Wechsel in die Datei im Befehl innerhalb von cmd.exe erfolgen muss, etwa so:
```
cmd /c "sed ... >file"
```
Wenn Sie die Datei einfach in PowerShell handhaben lassen, kommt es zu demselben Durcheinander.
Entfernen Sie die Zeichen \0 aus dem resultierenden Text in PowerShell. Dies funktioniert nicht gut mit den internationalen Zeichen, die die Unicode-Bytes mit dem Code 0xA oder 0xD erstellen. Stattdessen erhalten Sie die Zeilenumbrüche.

GnuWin32 / sed unerwartetes Verhalten in Powershell

Antwort1

verwandte Informationen