GnuWin32/sed comportamiento inesperado en Powershell

Question

Es el Unicode. Lo que sale de sed es Unicode sin el prefijo de 2 bytes que usa PowerShell para diferenciar entre Unicode y ASCII. Entonces, PowerShell piensa que es ASCII y deja los \0 bytes (los bytes superiores de los caracteres Unicode de 2 bytes), que se muestran en blanco. Y dado que internamente PowerShell trabaja con Unicode, en realidad expande cada byte original a un carácter Unicode de 2 bytes. No hay forma de obligar a PowerShell a aceptar Unicode. Las posibles formas de evitarlo son:

¿Unicode viene como entrada a SED? Es poco probable pero creo que es posible. Mira esto.

Haga que la salida de SED comience con el indicador Unicode, \uFEFF. Probablemente esto es lo que se perdió en el código fuente de SED:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Puede agregar el código dentro del comando SED, algo como

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Escriba la salida de sed en un archivo y luego léala con Get-Content -Encoding Unicode. Tenga en cuenta que el cambio al archivo debe realizarse con el comando dentro de cmd.exe, como:
```
cmd /c "sed ... >file"
```
Si simplemente deja que el archivo se maneje en PowerShell, se estropeará de la misma manera.
Suelte los caracteres \0 del texto resultante en PowerShell. Esto no funciona bien con los caracteres internacionales que crean los bytes Unicode que contienen el código 0xA o 0xD; terminas con divisiones de línea en lugar de ellas.

Answer 1

Es el Unicode. Lo que sale de sed es Unicode sin el prefijo de 2 bytes que usa PowerShell para diferenciar entre Unicode y ASCII. Entonces, PowerShell piensa que es ASCII y deja los \0 bytes (los bytes superiores de los caracteres Unicode de 2 bytes), que se muestran en blanco. Y dado que internamente PowerShell trabaja con Unicode, en realidad expande cada byte original a un carácter Unicode de 2 bytes. No hay forma de obligar a PowerShell a aceptar Unicode. Las posibles formas de evitarlo son:

¿Unicode viene como entrada a SED? Es poco probable pero creo que es posible. Mira esto.

Haga que la salida de SED comience con el indicador Unicode, \uFEFF. Probablemente esto es lo que se perdió en el código fuente de SED:

_setmode(_fileno(stdout), _O_WTEXT); // probably present and makes it send Unicode
wprintf(L"\uFEFF"); // probably missing

Puede agregar el código dentro del comando SED, algo como

sed "1s/^/\xFF\xFE/;..." # won't work if SED produces Unicode but would work it SED passes Unicode through from its input
sed "1s/^/\uFEFF/;..." # use if SED produces Unicode itself, hopefully SED supports \u

Escriba la salida de sed en un archivo y luego léala con Get-Content -Encoding Unicode. Tenga en cuenta que el cambio al archivo debe realizarse con el comando dentro de cmd.exe, como:
```
cmd /c "sed ... >file"
```
Si simplemente deja que el archivo se maneje en PowerShell, se estropeará de la misma manera.
Suelte los caracteres \0 del texto resultante en PowerShell. Esto no funciona bien con los caracteres internacionales que crean los bytes Unicode que contienen el código 0xA o 0xD; terminas con divisiones de línea en lugar de ellas.

GnuWin32/sed comportamiento inesperado en Powershell

Respuesta1

información relacionada