Please scroll down for the english version of this article!
Heute habe ich ein besonderes Häppchen für alle Spamassassin Benutzer. Eine Bayesdatenbank mit ein paar Millionen gelernten Mails.
Die Datenbank stammt von einem ISP und hat die gelernten Mails von einigen tausend Kunden intus.
Im Detail:
spam_count ham_count token_count oldest_token_age newest_token_age 591151 4433526 144282 1259699456 1259823676
Also rund 4.4 Millionen HAM counts, knapp 600.00 SPAM counts.
Das ist schon ganz ordentlich 😉
Die Datenbank wurde mit
sa-learn -u public --backup > bayes_02-12-09
gesichert und kann mit
sa-learn -u public --restore ./bayes_02-12-09
wieder importiert werden. Der Pfad sowie der von euch verwendete User (hier: ‚public‘) sollte ggf. angepasst werden. Vorher das File natürlich gunzippen!
Hier der Link (120MB!):
http://rapidshare.com/files/315578995/bayes_02-12-09.gz
As this is quite an international matter of interest, here the english version:
Today I have a special gimmick for all Spamassassin users. A bayes database with a few million entries.
The database originates from a German ISP and contains the learned mail of a few thousand customers.
In detail:
spam_count ham_count token_count oldest_token_age newest_token_age 591151 4433526 144282 1259699456 1259823676
So we have about 4.4 million HAM counts and almost 600.00 SPAM counts.
That is quite a chunk 😉
The database had been dumped with
sa-learn -u public --backup > bayes_02-12-09
and can be imported with
sa-learn -u public --restore ./bayes_02-12-09
The path to the file and the user (‚public‘ in my example) has to be altered to fit your needs. Careful: The file is gzipped and has to be unzipped before use!
Here is the link (120MB!)
http://rapidshare.com/files/315578995/bayes_02-12-09.gz
Kommentare