¿Cómo evitar que Sed cambie el formato del archivo?

Question

El problema es que el motor de expresiones regulares de sed no ve su archivo de entrada ni su […]coincidencia como una lista de caracteres Unicode; en cambio, ve cada uno de ellos como múltiples bytes independientes. Por ejemplo, ve •tres bytes \xe2 \x80 \xa2e intenta comparar cada uno de ellos individualmente [ \xe2 \x80 \x98 \xe2 \x80 \x99 \x22 \xe2 \x80 ... ].

Entonces, en el ejemplo que mostró en su publicación, la expresión regular solo coincide y elimina el último byte de cada carácter de puntuación, pero deja los otros 2 todavía allí. Eso es lo que le da un archivo de salida no válido (no UTF-8).

Con GNU sed (probado en 4.5), esto se puede evitar asegurándose de que elconfiguración regional del sistema(las variables de entorno $LANG o al menos $LC_CTYPE) están configuradas en una configuración regional compatible con UTF-8. Por ejemplo:

$ exportar LANG='C'
$ echo ''prueba' “prueba”' | sed 's/[“”•]/X/g'
XX�pruebaXX� XXXpruebaXXX
$ eco '•_prueba' | sed 's/[•‡]_/X_/'
��X_prueba

$ exportar LANG='en_US.UTF-8'
$ echo ''prueba' “prueba”' | sed 's/[“”•]/X/g'
'prueba' XtestX
$ eco '•_prueba' | sed 's/[•‡]_/X_/'
X_prueba

(El idioma local no importa.CualquierLa configuración regional UTF-8 funcionará).

Si esto no funciona para usted, evítelo […]por completo y use $…\|…\|…$(o (…|…|…)en sed -r), que es una alternativa de varios caracteres y funcionará independientemente de cómo se terminen interpretando esos caracteres.

$ exportar LANG='C'
$ echo ''prueba' “prueba”' | sed 's/\(“\|”\|•\)/X/g'
'prueba' XtestX
$ eco '•_prueba' | sed 's/\(•\|‡\)_/X_/'
X_prueba

Answer 1