Как выбрать сообщения в Mutt на основе используемого набора символов?

Как выбрать сообщения в Mutt на основе используемого набора символов?

Я стараюсь помечать все сообщения, в которых используются китайские или кириллические (русские) символы, для удаления, так как для меня они все являются спамом.

решение1

Вы можете отфильтровать по кодировке fooс помощью:~h^content-type:.*foo

Однако это довольно ограничено. Во-первых, сообщения, использующие определенные символы (китайские иероглифы, кириллица...), могут быть закодированы в UTF-8. Более того, для сообщений, которые имеют вложения, кодировка указывается в заголовках вложений MIME, и с точки зрения шаблонов Mutt, это тело; вы все равно можете использовать ~Bfoo, но это будет медленно, и у вас могут быть ложные срабатывания (вы не можете включить, content-typeпотому что заголовки вложений могут быть в нескольких строках тела).

Возможно, существуют внешние инструменты, которые могут идентифицировать скрипт, но это уже не имеет отношения к Mutt...

Если это необходимо для фильтрации спама, то байесовские фильтры могут быть хороши для таких целей (без необходимости знать, какой это скрипт).

Вы также можете отфильтровать по наличию некоторых символов, принадлежащих к определенному сценарию: см.Используйте регулярное выражение для сопоставления ЛЮБОГО китайского символа в кодировке utf-8. Это пока не работает в Mutt (возможно, в будущем), но в то же время можно использовать внешние инструменты.

Также можно фильтровать без предварительного декодирования (это быстрее). Например, в настоящее время я фильтрую русский спам в postfix с помощью следующего регулярного выражения pcre (с учетом регистра):

/^Subject:\s*"?=\?[Uu][Tt][Ff]-8\?[Bb]\?(0[J-Z]|(KN|W9)[C-R])/i

Связанный контент