Como evitar que o Sed altere o formato do arquivo?

Question

O problema é que o mecanismo regexp do sed não vê seu arquivo de entrada nem sua […]correspondência como uma lista de caracteres Unicode; em vez disso, vê cada um deles como vários bytes independentes. Por exemplo, ele vê •três bytes \xe2 \x80 \xa2e tenta combinar cada um deles individualmente com [ \xe2 \x80 \x98 \xe2 \x80 \x99 \x22 \xe2 \x80 ... ].

Então, no exemplo que você mostrou em sua postagem, a regex apenas corresponde e exclui o último byte de cada caractere de pontuação, mas deixa os outros 2 ainda lá. Isso é o que fornece um arquivo de saída inválido (não UTF-8).

Com o GNU sed (testado em 4.5), isso pode ser evitado certificando-se de que olocalidade do sistema(as variáveis de ambiente $LANG ou pelo menos $LC_CTYPE) estão definidas para um código de idioma compatível com UTF-8. Por exemplo:

$ exportar LANG='C'
$ echo ''teste' “teste”' | sed 's/[“”•]/X/g'
XX�testeXX� XXXtesteXXX
$ echo '•_test' | sed 's/[•‡]_/X_/'
��X_teste

$ exportar LANG='en_US.UTF-8'
$ echo ''teste' “teste”' | sed 's/[“”•]/X/g'
'teste' XtestX
$ echo '•_test' | sed 's/[•‡]_/X_/'
X_teste

(O idioma local não importa.QualquerA localidade UTF-8 funcionará.)

Se isso não funcionar para você, evite […]completamente e use $…\|…\|…$(ou (…|…|…)em sed -r), que é uma alternativa de vários caracteres e funcionará independentemente de como esses caracteres forem interpretados.

$ exportar LANG='C'
$ echo ''teste' “teste”' | sed 's/\(“\|”\|•\)/X/g'
'teste' XtestX
$ echo '•_test' | sed 's/\(•\|‡\)_/X_/'
X_teste

Answer 1