Spamassassin 工作但不學習？貝葉斯過濾精度沒有提高

Question

結果斯巴馬刺客貝葉斯訓練通常儲存在由一些文件組成的資料庫中儲存在運行它的用戶的主目錄中。如果您與不同的使用者調用，則您不會存取/更新相同的資料集。

_{（先前評論的擴展版本）}

對於特權分離，斯巴馬刺客通常在單獨的使用者下運行，例如debian-spamd或amavis，因此在自動學習過程中，該使用者的資料庫將被更新。如果您希望手動更新資料庫，您可能需要指定正確的用戶，否則您只會將訓練資料儲存到不同的、不相關的資料庫中。

怎樣說呢？如果您有（除了備份之外）訓練資料檔案的兩個實例，則您一直在調用斯巴馬刺客在兩個不同的使用者下（可能一個來自您的郵件伺服器，一個來自您的 shell）：

# find / -name bayes_toks
/var/lib/amavis/.spamassassin/bayes_toks
/root/.spamassassin/bayes_toks

這兩個檔案可能具有最近的修改時間戳，因為一旦資料庫充分播種，spamassassin 可能選擇足夠明確的郵件來自動訓練這是從收到的郵件中學習令牌，無需手動操作（此行為可以配置，並且您通常希望啟用它）。

怎麼修？將相同的郵件輸入正確的資料庫 - 透過調用sa-learn從郵件伺服器呼叫時使用的使用者/主目錄（核實這個，資料夾名稱可能與使用者名稱不符！

sudo -H -u amavis sa-learn --no-sync --spam /var/vmail/$domain/$user/Maildir/.Junk/{cur,new} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --no-sync --ham /var/vmail/$domain/$user/Maildir/{cur} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --sync >> /var/log/sa-learn.log 2>&1

我不推薦合併無意中分割資料集，因為內部文件格式可能有點混亂（儘管它能被傾倒使用--backup和破壞性地使用 ) 進行覆蓋--restore，而對相同的垃圾郵件資料進行重新訓練要簡單得多，並且sa-learn旨在處理一遍又一遍地發送相同的郵件而不會產生不利影響。

Answer 1