¿Cómo puedo seleccionar mensajes en mutt según el uso del juego de caracteres?

¿Cómo puedo seleccionar mensajes en mutt según el uso del juego de caracteres?

Estoy intentando marcar todos los mensajes que utilizan caracteres chinos o cirílicos (rusos) para su eliminación, ya que para mí todos son spam.

Respuesta1

Puedes filtrar por codificación foocon:~h^content-type:.*foo

Sin embargo, esto es bastante limitado. En primer lugar, los mensajes que utilizan caracteres específicos (caracteres chinos, cirílicos...) se pueden codificar en UTF-8. Además, para los mensajes que tienen archivos adjuntos, la codificación se especifica en los encabezados de los archivos adjuntos MIME y, desde el punto de vista de los patrones de Mutt, este es el cuerpo; aún puedes usar ~Bfoo, pero será lento y es posible que tengas falsos positivos (no puedes incluirlos content-typeporque los encabezados de los archivos adjuntos pueden estar en varias líneas del cuerpo).

Puede que haya herramientas externas que puedan identificar el script, pero eso ya no está relacionado con Mutt...

Si esto es para filtrar spam, los filtros bayesianos pueden ser buenos para este tipo de cosas (sin necesidad de saber qué script es).

También puedes filtrar por la presencia de algunos caracteres que pertenecen a un script específico: verUtilice expresiones regulares para hacer coincidir CUALQUIER carácter chino en la codificación utf-8. Esto no funciona en Mutt todavía (quizás en el futuro), pero mientras tanto se podrían utilizar herramientas externas.

También es posible filtrar sin decodificar primero (esto es más rápido). Por ejemplo, actualmente filtro spam ruso en postfix con la siguiente expresión regular pcre (distingue entre mayúsculas y minúsculas):

/^Subject:\s*"?=\?[Uu][Tt][Ff]-8\?[Bb]\?(0[J-Z]|(KN|W9)[C-R])/i

información relacionada