Estou tentando marcar todas as mensagens que usam caracteres chineses ou cirílicos (russos) para exclusão, pois para mim são todas spam.
Responder1
Você pode filtrar a codificação foo
com:~h^content-type:.*foo
No entanto, isso é bastante limitado. Primeiro, as mensagens que utilizam caracteres específicos (caracteres chineses, cirílicos...) podem ser codificadas em UTF-8. Além disso, para mensagens que possuem anexos, a codificação é especificada nos cabeçalhos dos anexos MIME e, do ponto de vista dos padrões do Mutt, este é o corpo; você ainda pode usar ~Bfoo
, mas será lento e poderá ter falsos positivos (não pode incluir content-type
porque os cabeçalhos dos anexos podem estar em várias linhas do corpo).
Pode haver ferramentas externas que possam identificar o script, mas isso não está mais relacionado ao Mutt...
Se for para filtragem de spam, os filtros bayesianos podem ser bons para esse tipo de coisa (sem a necessidade de saber qual script é).
Você também pode filtrar pela presença de alguns personagens pertencentes a um script específico: vejaUse expressão regular para corresponder a QUALQUER caractere chinês na codificação utf-8. Isso ainda não funciona no Mutt (talvez no futuro), mas ferramentas externas podem ser usadas nesse meio tempo.
Também é possível filtrar sem decodificar primeiro (isto é mais rápido). Por exemplo, atualmente filtro alguns spams russos no postfix com o seguinte pcre regex (diferencia maiúsculas de minúsculas):
/^Subject:\s*"?=\?[Uu][Tt][Ff]-8\?[Bb]\?(0[J-Z]|(KN|W9)[C-R])/i