如何根據字元集使用情況在 mutt 中選擇訊息?

如何根據字元集使用情況在 mutt 中選擇訊息?

我試圖將所有使用中文字元或西里爾文(俄語)字元的郵件標記為刪除,因為對我來說,它們都是垃圾郵件。

答案1

您可以使用以下方法過濾編碼foo~h^content-type:.*foo

然而,這是相當有限的。首先,使用特定字元(中文字元、西里爾字母…)的訊息可以用 UTF-8 進行編碼。此外,對於帶有附件的訊息,編碼是在 MIME 附件的標頭中指定的,從 Mutt 模式的角度來看,這就是正文;您仍然可以使用~Bfoo,但它會很慢,並且可能會出現誤報(您不能包含,content-type因為附件標題可能位於多個正文行上)。

可能有外部工具可以識別腳本,但這不再與 Mutt 相關...

如果這是為了垃圾郵件過濾,貝葉斯過濾器可能適合這類事情(不需要知道它是什麼腳本)。

您也可以過濾屬於特定腳本的某些字元的存在:請參閱使用正規表示式來匹配utf-8編碼的任意漢字。這在 Mutt 中還不起作用(也許將來),但同時可以使用外部工具。

也可以在不先解碼的情況下進行過濾(這更快)。例如,我目前使用以下 pcre 正規表示式(區分大小寫)在 postfix 中過濾一些俄羅斯垃圾郵件:

/^Subject:\s*"?=\?[Uu][Tt][Ff]-8\?[Bb]\?(0[J-Z]|(KN|W9)[C-R])/i

相關內容