GnuWin32 / sed comportamento inesperado no Powershell

Question

É o Unicode. O material que sai do sed é Unicode sem o prefixo de 2 bytes que o PowerShell usa para diferenciar entre Unicode e ASCII. Portanto, o PowerShell pensa que é ASCII e deixa os \0 bytes (os bytes superiores dos caracteres Unicode de 2 bytes), que são exibidos como espaços em branco. E como o PowerShell lida internamente com Unicode, ele expande cada byte original em um caractere Unicode de 2 bytes. Não há como forçar o PowerShell a aceitar o Unicode. As possíveis maneiras de contornar isso são:

O Unicode está entrando como entrada no SED? Improvável, mas acho possível. Verifique isso.

Faça a saída do SED começar com o indicador Unicode, \uFEFF. Provavelmente foi isso que faltou no código-fonte do SED:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Você pode adicionar o código dentro do comando SED, algo como

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Escreva a saída de sed em um arquivo e depois leia com Get-Content -Encoding Unicode. Observe que a mudança para arquivo deve ser feita no comando dentro do cmd.exe, como:
```
cmd /c "sed ... >file"
```
Se você deixar >file ser manipulado no PowerShell, ele ficará confuso da mesma maneira.
Elimine os caracteres \0 do texto resultante no PowerShell. Isso não funciona bem com os caracteres internacionais que criam os bytes Unicode contendo o código 0xA ou 0xD - você acaba com as divisões de linha em vez deles.

Answer 1

É o Unicode. O material que sai do sed é Unicode sem o prefixo de 2 bytes que o PowerShell usa para diferenciar entre Unicode e ASCII. Portanto, o PowerShell pensa que é ASCII e deixa os \0 bytes (os bytes superiores dos caracteres Unicode de 2 bytes), que são exibidos como espaços em branco. E como o PowerShell lida internamente com Unicode, ele expande cada byte original em um caractere Unicode de 2 bytes. Não há como forçar o PowerShell a aceitar o Unicode. As possíveis maneiras de contornar isso são:

O Unicode está entrando como entrada no SED? Improvável, mas acho possível. Verifique isso.

Faça a saída do SED começar com o indicador Unicode, \uFEFF. Provavelmente foi isso que faltou no código-fonte do SED:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Você pode adicionar o código dentro do comando SED, algo como

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Escreva a saída de sed em um arquivo e depois leia com Get-Content -Encoding Unicode. Observe que a mudança para arquivo deve ser feita no comando dentro do cmd.exe, como:
```
cmd /c "sed ... >file"
```
Se você deixar >file ser manipulado no PowerShell, ele ficará confuso da mesma maneira.
Elimine os caracteres \0 do texto resultante no PowerShell. Isso não funciona bem com os caracteres internacionais que criam os bytes Unicode contendo o código 0xA ou 0xD - você acaba com as divisões de linha em vez deles.

GnuWin32 / sed comportamento inesperado no Powershell

Responder1

informação relacionada