GnuWin32 / sed неожиданное поведение в Powershell

Question

Это Unicode. То, что выдает sed, — это Unicode без 2-байтового префикса, который PowerShell использует для различения Unicode и ASCII. Поэтому PowerShell думает, что это ASCII, и оставляет байты \0 (верхние байты 2-байтовых символов Unicode), которые отображаются как пустые. И поскольку PowerShell работает с Unicode, он фактически расширяет каждый исходный байт до 2-байтового символа Unicode. Невозможно заставить PowerShell принять Unicode. Возможные способы обойти это:

Будет ли Unicode входить в SED? Маловероятно, но я думаю, что это возможно. Проверьте это.

Сделайте вывод SED начинающимся с индикатора Unicode, \uFEFF. Это, вероятно, то, что было упущено в исходном коде SED:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Вы можете добавить код внутри команды SED, что-то вроде

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Запишите вывод sed в файл, а затем прочитайте с помощью Get-Content -Encoding Unicode. Обратите внимание, что переключение на файл должно быть выполнено в команде внутри cmd.exe, например:
```
cmd /c "sed ... >file"
```
Если вы просто позволите обрабатывать >file в PowerShell, все будет так же плохо.
Удалите символы \0 из полученного текста в PowerShell. Это не очень хорошо работает с международными символами, которые создают байты Unicode, содержащие код 0xA или 0xD — вместо них вы получаете разрывы строк.

Answer 1

Это Unicode. То, что выдает sed, — это Unicode без 2-байтового префикса, который PowerShell использует для различения Unicode и ASCII. Поэтому PowerShell думает, что это ASCII, и оставляет байты \0 (верхние байты 2-байтовых символов Unicode), которые отображаются как пустые. И поскольку PowerShell работает с Unicode, он фактически расширяет каждый исходный байт до 2-байтового символа Unicode. Невозможно заставить PowerShell принять Unicode. Возможные способы обойти это:

Будет ли Unicode входить в SED? Маловероятно, но я думаю, что это возможно. Проверьте это.

Сделайте вывод SED начинающимся с индикатора Unicode, \uFEFF. Это, вероятно, то, что было упущено в исходном коде SED:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Вы можете добавить код внутри команды SED, что-то вроде

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Запишите вывод sed в файл, а затем прочитайте с помощью Get-Content -Encoding Unicode. Обратите внимание, что переключение на файл должно быть выполнено в команде внутри cmd.exe, например:
```
cmd /c "sed ... >file"
```
Если вы просто позволите обрабатывать >file в PowerShell, все будет так же плохо.
Удалите символы \0 из полученного текста в PowerShell. Это не очень хорошо работает с международными символами, которые создают байты Unicode, содержащие код 0xA или 0xD — вместо них вы получаете разрывы строк.

GnuWin32 / sed неожиданное поведение в Powershell

решение1

Связанный контент