Spamassassin работает, но не учится? Точность фильтра Байеса не улучшается

Question

РезультатспамассасинОбучение Байеса хранится в базе данных, состоящей из нескольких файлов, которые обычнохранится в домашнем каталоге пользователя, под которым он запущен. Если вы звоните с другим пользователем, вы не получаете доступ к тому же набору данных или не обновляете его.

_{(расширенная версия предыдущего комментария)}

Для разделения привилегий,спамассасинобычно запускается под отдельным пользователем, например debian-spamdили amavis, поэтому во время автообучения база данных этого пользователя будет обновлена. Если вы хотите вручную обновить базу данных, вам может потребоваться указать правильного пользователя, в противном случае вы просто сохраните данные обучения в другой, несвязанной базе данных.

Как это определить?Если у вас есть (не считая резервных копий) два экземпляра файлов обучающих данных, вы вызывалиспамассасинпод двумя разными пользователями (вероятно, один с вашего почтового сервера, другой из вашей оболочки):

# find / -name bayes_toks
/var/lib/amavis/.spamassassin/bayes_toks
/root/.spamassassin/bayes_toks

Оба файла могут иметь метку времени недавнего изменения, поскольку как только база данных будет достаточно заполнена,спамассассин можетвыберите достаточно хорошо идентифицированную почту, чтобыавтопоездкоторый заключается в том, чтобы изучать токены из полученной почты без ручного вмешательства (это поведение можно настроить, и обычно оно вам нужно).

Как исправить?Отправьте те же письма в нужную базу данных, вызвав ее sa-learnс именем пользователя/домашним каталогом, которые она использует при вызове с почтового сервера (проверять(имя папки может не совпадать с именем пользователя!):

sudo -H -u amavis sa-learn --no-sync --spam /var/vmail/$domain/$user/Maildir/.Junk/{cur,new} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --no-sync --ham /var/vmail/$domain/$user/Maildir/{cur} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --sync >> /var/log/sa-learn.log 2>&1

Я не рекомендуюслияниенепреднамеренно разделенные наборы данных, поскольку внутренний формат файла может быть немного запутанным (хотя этоможетбыть сброшен с использованием --backupиразрушительноперезаписано с помощью --restore), тогда как повторное обучение на тех же данных о спаме гораздо проще и sa-learnпредназначено для того, чтобы справляться с повторной отправкой одних и тех же писем без негативных последствий.

Answer 1