GnuWin32 / sed の Powershell での予期しない動作

Question

それは Unicode です。sed から出力されるものは、PowerShell が Unicode と ASCII を区別するために使用する 2 バイトのプレフィックスのない Unicode です。そのため、PowerShell はそれを ASCII とみなし、\0 バイト (2 バイト Unicode 文字の上位バイト) を残します。これは空白として表示されます。また、PowerShell は内部的に Unicode を扱うため、実際には元のバイトすべてを 2 バイトの Unicode 文字に拡張します。PowerShell に Unicode を受け入れるように強制する方法はありません。考えられる回避策は次のとおりです。

SED への入力として Unicode が使用されていますか? 可能性は低いですが、可能性はあると思います。確認してください。

SED の出力を Unicode インジケーター \uFEFF で開始します。これはおそらく SED ソースコードで抜け落ちているものです。

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

SEDコマンド内に次のようなコードを追加できます。

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

sed の出力をファイルに書き込み、Get-Content -Encoding Unicode で読み取ります。ファイルへの切り替えは、次のように cmd.exe 内のコマンドで行う必要があることに注意してください。
```
cmd /c "sed ... >file"
```
>file を PowerShell で処理させると、同じように混乱が生じます。
PowerShell で結果のテキストから \0 文字を削除します。これは、コード 0xA または 0xD を含む Unicode バイトを作成する国際文字ではうまく機能しません。代わりに行分割が行われます。

Answer 1

それは Unicode です。sed から出力されるものは、PowerShell が Unicode と ASCII を区別するために使用する 2 バイトのプレフィックスのない Unicode です。そのため、PowerShell はそれを ASCII とみなし、\0 バイト (2 バイト Unicode 文字の上位バイト) を残します。これは空白として表示されます。また、PowerShell は内部的に Unicode を扱うため、実際には元のバイトすべてを 2 バイトの Unicode 文字に拡張します。PowerShell に Unicode を受け入れるように強制する方法はありません。考えられる回避策は次のとおりです。

SED への入力として Unicode が使用されていますか? 可能性は低いですが、可能性はあると思います。確認してください。

SED の出力を Unicode インジケーター \uFEFF で開始します。これはおそらく SED ソースコードで抜け落ちているものです。

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

SEDコマンド内に次のようなコードを追加できます。

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

sed の出力をファイルに書き込み、Get-Content -Encoding Unicode で読み取ります。ファイルへの切り替えは、次のように cmd.exe 内のコマンドで行う必要があることに注意してください。
```
cmd /c "sed ... >file"
```
>file を PowerShell で処理させると、同じように混乱が生じます。
PowerShell で結果のテキストから \0 文字を削除します。これは、コード 0xA または 0xD を含む Unicode バイトを作成する国際文字ではうまく機能しません。代わりに行分割が行われます。

GnuWin32 / sed の Powershell での予期しない動作

答え1

関連情報