Spamassassin trabalhando, mas não aprendendo? A precisão do filtro Bayes não está melhorando

Question

Os resultados despamassassinO treinamento de Bayes é armazenado em um banco de dados composto por alguns arquivos comumentearmazenado no diretório inicial do usuário sob o qual está sendo executado. Se você ligar com um usuário diferente, não estará acessando/atualizando o mesmo conjunto de dados.

_{(versão estendida do comentário anterior)}

Para separação de privilégios,spamassassingeralmente é executado sob um usuário separado, como debian-spamdou amavis, portanto, durante o autoaprendizado, o banco de dados desse usuário será atualizado. Se desejar fazer atualizações manuais no banco de dados, talvez seja necessário especificar o usuário correto; caso contrário, você estará apenas salvando seus dados de treinamento em um banco de dados diferente e não relacionado.

Como dizer?Se você tiver (backups à parte) duas instâncias dos arquivos de dados de treinamento, você está chamandospamassassinsob dois usuários diferentes (provavelmente um do seu servidor de email, um do seu shell):

# find / -name bayes_toks
/var/lib/amavis/.spamassassin/bayes_toks
/root/.spamassassin/bayes_toks

Ambos os arquivos podem ter um carimbo de data e hora de modificação recente porque assim que o banco de dados estiver suficientemente propagado,spamassassin podeselecionar correspondência suficientemente bem identificada paraautotreinamentoque consiste em aprender tokens de e-mails recebidos sem ação manual (esse comportamento pode ser configurado e você geralmente deseja ativá-lo).

Como consertar?Alimente os mesmos e-mails para o banco de dados correto - chamando sa-learncom o usuário/homedir que está usando enquanto é chamado do servidor de e-mail (verificarisso, o nome da pasta pode não corresponder ao nome de usuário!):

sudo -H -u amavis sa-learn --no-sync --spam /var/vmail/$domain/$user/Maildir/.Junk/{cur,new} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --no-sync --ham /var/vmail/$domain/$user/Maildir/{cur} >> /var/log/sa-learn.log 2>&1
sudo -H -u amavis sa-learn --sync >> /var/log/sa-learn.log 2>&1

Eu não estou recomendandofundindoos conjuntos de dados divididos involuntariamente porque o formato do arquivo interno pode ser um pouco confuso (emborapodeser despejado usando --backupedestrutivamentesubstituído usando --restore), enquanto o retreinamento nos mesmos dados de spam é muito mais simples e sa-learnfoi projetado para lidar com o envio do mesmo e-mail repetidamente sem efeitos adversos.

Answer 1