Como posso selecionar mensagens no mutt com base no uso do conjunto de caracteres?

Como posso selecionar mensagens no mutt com base no uso do conjunto de caracteres?

Estou tentando marcar todas as mensagens que usam caracteres chineses ou cirílicos (russos) para exclusão, pois para mim são todas spam.

Responder1

Você pode filtrar a codificação foocom:~h^content-type:.*foo

No entanto, isso é bastante limitado. Primeiro, as mensagens que utilizam caracteres específicos (caracteres chineses, cirílicos...) podem ser codificadas em UTF-8. Além disso, para mensagens que possuem anexos, a codificação é especificada nos cabeçalhos dos anexos MIME e, do ponto de vista dos padrões do Mutt, este é o corpo; você ainda pode usar ~Bfoo, mas será lento e poderá ter falsos positivos (não pode incluir content-typeporque os cabeçalhos dos anexos podem estar em várias linhas do corpo).

Pode haver ferramentas externas que possam identificar o script, mas isso não está mais relacionado ao Mutt...

Se for para filtragem de spam, os filtros bayesianos podem ser bons para esse tipo de coisa (sem a necessidade de saber qual script é).

Você também pode filtrar pela presença de alguns personagens pertencentes a um script específico: vejaUse expressão regular para corresponder a QUALQUER caractere chinês na codificação utf-8. Isso ainda não funciona no Mutt (talvez no futuro), mas ferramentas externas podem ser usadas nesse meio tempo.

Também é possível filtrar sem decodificar primeiro (isto é mais rápido). Por exemplo, atualmente filtro alguns spams russos no postfix com o seguinte pcre regex (diferencia maiúsculas de minúsculas):

/^Subject:\s*"?=\?[Uu][Tt][Ff]-8\?[Bb]\?(0[J-Z]|(KN|W9)[C-R])/i

informação relacionada