Please scroll down for the english version of this article!

Heute habe ich ein besonderes Häppchen für alle Spamassassin Benutzer. Eine Bayesdatenbank mit ein paar Millionen gelernten Mails.
Die Datenbank stammt von einem ISP und hat die gelernten Mails von einigen tausend Kunden intus.

Im Detail:

spam_count    ham_count    token_count    oldest_token_age   newest_token_age
591151        4433526      144282         1259699456         1259823676

Also rund 4.4 Millionen HAM counts, knapp 600.00 SPAM counts.
Das ist schon ganz ordentlich 😉

Die Datenbank wurde mit

sa-learn -u public --backup > bayes_02-12-09

gesichert und kann mit

sa-learn -u public --restore ./bayes_02-12-09

wieder importiert werden. Der Pfad sowie der von euch verwendete User (hier: ‚public‘) sollte ggf.  angepasst werden. Vorher das File natürlich gunzippen!

Hier der Link (120MB!):
http://rapidshare.com/files/315578995/bayes_02-12-09.gz

As this is quite an international matter of interest, here the english version:

Today I have a special gimmick  for all Spamassassin users. A bayes database with a few million entries.
The database originates from a German ISP and contains the learned mail of a few thousand customers.

In detail:

spam_count    ham_count    token_count    oldest_token_age   newest_token_age
591151        4433526      144282         1259699456         1259823676

So we have about 4.4 million HAM counts and almost 600.00 SPAM counts.

That is quite a chunk 😉

The database had been dumped with

sa-learn -u public --backup > bayes_02-12-09

and can be imported with

sa-learn -u public --restore ./bayes_02-12-09

The path to the file and the user (‚public‘ in my example) has to be altered to fit your needs. Careful: The file is  gzipped and has to be unzipped before use!

Here is the link (120MB!)
http://rapidshare.com/files/315578995/bayes_02-12-09.gz