Grep no coincide con caracteres que no sean ASCII

Question

e4 75De hecho, es una secuencia utf8 ilegal. En utf8, un byte con el cuarteto más alto igual a 0xe introduce una secuencia de tres bytes. El segundo byte de dicha secuencia no puede ser 0x75, porque el cuarteto de orden superior de ese segundo byte (0x7) no está entre 0x8 y 0xb.

Esto explica por qué iconv rechaza ese archivo como utf8 no válido. ¿Quizás ya sea iso8859-1?

Para obtener un resumen de la codificación utf8, consulte estotabla de wikipedia

En cuanto a su problema grep, tal vez si especifica la configuración regional C/POSIX, donde los caracteres equivalen a bytes:

LC_ALL=C grep -P -n '[^\x00-\x7F]' corrupt_part.txt

Usando un sistema Ubuntu antiguo, GNU grep y un entorno que usa la configuración regional en_US.UTF-8:

$ od -h bytes
0000000 624f 7265 6c61 676c 75e4 0a20
0000014
$ grep -P '[^\x00-\x7F]' bytes | od -h
0000000 624f 7265 6c61 676c 75e4 0a20
0000014
$ LC_ALL=C grep -P '[^\x00-\x7F]' bytes | od -h
0000000 624f 7265 6c61 676c 75e4 0a20
0000014

Answer 1