sa-learn – Spamassassin lernen lassen

Spamassassin ist ein Programm um Emails auf dem Server automatisch auf Spam zu identifizieren. Nach einer Identifikation kann man beispielsweise dem Betreff einer Email umschreiben lassen oder den Spam direkt in einen Spamordner verschieben lassen.

Bei der Installation von Spamassassin wird auch das Programm sa-learn installiert. Dieses Programm dient dazu, Spamassassin mittels vorhandener Nachrichten zusätzlich lernen zu lassen. Dabei kann man Nachrichten im Maildir Format, mbox oder auch als mbx Format vorliegen haben. Weiterhin gibt es die Unterscheidung zwischen Spam, also schlechten Nachrichten, und Ham. Genau diese zwei Optionen kann man bei der Benutzung des “Lernmoduls” auch anwenden (beim Maildir Format musste ich kein Format angeben):

sa-learn [--ham|--spam] [--mbox|--mbx] /Pfad/zur/Datei

Falls ihr euren Spamassassin nach einer Neuinstalltion (oder nach vergessenem Backup der Spamdatenbank) des Servers etwas trainieren wollt, habe ich euch ein File mit ca. 11000 Spams zum Download bereit gestellt. Jedoch solltet ihr beachten, dass nur das lernen von Spam nicht unbedingt gut ist. Es sollten auch Ham Mails gelernt werden.

Hier die Links zu den Files. Es liegt das mbox Format vor – Lernzeit auf einem Testserver war bei mir ca. 1 Sunde ;-)

Spam als zip Archiv ~ 57 MB

Der Link auf die Zip Datei wurde aktualisiert. Danke an Glenn Hertzog von Wies@an für den Hinweis!

22 Kommentare zu „sa-learn – Spamassassin lernen lassen“

  • Leider sind die beiden Links zu den Spam-Archiven tot …

  • nate`:

    Vielen Dank für deine Spam-Datei!

    Die hat mir viel Arbeit gespart! Werde deine Seite gleich mal zu meinen Bookmarks hinzufügen!

  • furanose:

    Hallo..

    finde die Idee sehr gut. Wie soll ich den pfad ausführen?

    sa-learn [--spam] [--mbox] /var/spam.mbox

    Kann ich so deine Datei ausführen?

    grüße und danke

    Furanose

  • Alexander Kasper:

    Hallo Furanose,

    die eckigen Klammern sollen nur bedeuten, dass dies die verschiedenen Optionen sind (durch das Pipe Zeichen | getrennt).

    Also korrekt müsste in deinem Fall folgendes sein:

    sa-learn –spam –mbox /var/spam.mbox

    Weitere Informationen zur Anwendung bekommst du mit dem Befehl:

    man sa-learn

    Viele Grüße
    Alex

  • Furanose:

    Hallo…

    Vielen Dank für deine Antwort. SA tut ja eigenltich die mails nur als SPAM markieren, oder? Wie kann ich es machen, damit die mails gelich gelöscht werden bzw. in einem Ordner verschwinden.

    danke
    grüße
    Furanose

  • Alexander Kasper:

    Genau, spassassin erkennt nur Spam und markiert diesen je nach Konfiguration.

    Ich nutze für das sortieren der Mails procmail.
    Alternativ kann der Mailclient dies aber auch (z.B. Thunderbird).

  • furanose:

    Hallo..

    Also das anlernen hat soweit geklappt. Hat keine Fehlermeldung gebracht. Leider werden aber nicht alle SPAM-mails als SPAM erkannt. Von ca. 20 pro Tag werden nur 2-3 als SPAM erkannt. An was könnte des noch liegen?

    grüße

  • Alexander Kasper:

    Wie in dem Artikel beschrieben sollten neben dem anlernen von Spam auch Ham Nachrichten angelernt werden. Weiterhin reicht es meiner Meinung nach nicht aus, Spamassassin als einzigen Schutz vor Spam E-Mails einzusetzen. Deswegen sollte man noch weiter Schutzmaßnahmen wie diverse Blacklists oder auch policy-weightd und/oder greylisting benutzen. Dann der ganzen Chose noch ca.2 zwei Monate im Produktivbetrieb Zeit geben und die Ergebnisse sollten insgesamt positiv ausfallen. Dies kann dann ungefähr so aussehen:

    Grand Totals
    ————
    messages
    327 received
    336 delivered
    5 forwarded
    0 bounced
    79821 rejected (99%)

    Von den delivered Mails waren dann nur noch 5 als Spam markiert, keine falsch erkannt oder nicht als Spam getagged und wie zu sehen, wurden ca. ~80.000 garnicht zur weiteren Verarbeitung angenommen (und somit auch der Spamassassin sowie Serverresourcen entsprechend “geschont”).

  • furanose:

    Danke für deine Antwort…

    Wo kann ich blacklists herunterladen? Wie integriere ich diese dann ins system ein?

    grüße und danke

  • Alexander Kasper:

    Hallo Furanose,

    ich kann dir anbieten, gegen Rechnung ein Spamfilter manierlich aufzusetzen. Es ist nicht gerade von Vorteil für mich, wenn ich kostenlosen Support betreibe. Ich musste mir auch über Jahre diverse Vorgehensweisen und Techniken aneignen. Und dieses Wissen möchte ich verständlicherweise nicht einfach so herausgeben – es sei denn ich schreibe von mir aus einen Blogeintrag drüber.

    Viele Grüße
    Alex

  • furanose:

    Hallo

    Kein Problem. Schreib mir eine email. Dann können wir uns über dieses Thema auseinadersetzen:

    Abschluss zum anlernen bei mir

    Learned tokens from 0 message(s) (11689 message(s) examined)

    Also hat es nichts gebracht in dem Fall bei mir?

    Noch zu erwähnen wäre, dass Bei meinem Server Plesk installiert ist.

    grüße

  • Janko:

    Hallo,

    wenn ich deine datei importieren möchte, geht dies zwar aber es ist sooo langsam das ich denke das da irgendwas nicht stimmen kann.

    —————————————————————————–
    enterprise:~# sa-learn –spam –mbox –progress /root/spam/Spam
    14% [============== ] 0.32 msgs/sec 89m12s LEFT

    —————————————————————————–

    und da lief das ganze schon 5 stunden.

    als hardware kommt folgendes zum einsatz:

    AMD X² 6000+
    8 GB Ram 400
    2×750 Western Digital am 3Ware Raid
    load ohne sa learn: 0.00 – 0.05
    load mit sa learn: load average: 2.16, 2.27, 2.60

    ich weiß langsam da nicht mehr weiter. und bin für jeden tip dankbar

    grüße

  • Hallo Janko,

    du hast zwar keine Angaben über das eingesetzte Betriebssystem gemacht, aber ich kann zumindest sagen, dass es definitiv zu langsam geht bei dir. Ich habe die Datei auf mehreren Servern eingespielt – von einem Celeron mit 2,4Ghz und 512 MB Ram bis zum Opteron Dual Core mit 2GB Ram. Aber selbst der Celeron war nach ca. 1,5 Stunden mit der Datei durch. Bei dem Opteron dauerte das anlernen ca. 45 Minuten.

    Das einzige was du vielleicht tun könntest um zu sehen was dabei so langsam ist, ist sa-learn mit strace aufzurufen. Wobei die Ausgabe zu interpretieren nicht immer gerade einfach ist.

    Viele Grüße

    Alex

  • Janko:

    hi alex,

    das eingesetzte system ist debian etch aktuelle version.
    hab mir das ganze mal mit strace angeschaut und genau wie du sagtest, konnte ich damit nicht wirklich viel anfangen :-( .

    gibt es sonst noch evtl. möglichkeiten das ein wenig zu überprüfen ? wenn ich die datei ein zweites mal einlesen lasse, dann geht es genau bis zu dem punkt wo ich es abgebrochen hab, mit 130msgs/sek. und danach bricht er dann wieder total ein. ich hab schon die vermutung das es evtl. an dem sql liegen könnte.

  • Hi Zusammen,
    Ich habe diesen Artikel gerade zufällig entdeckt…

    ACHTUNG: In diesem Artikel ist ein ganz eklatanter Fehler: Es MUSS sowohl Spam als auch eine bestimmte Mindestmenge an Ham (korrekte Emails) gelernt werden denn ansonsten bleibt der Bayes Filter Spamassassins komplett inaktiv!
    Es sollten mindestens 1000 korrekte wie 1000 Spammails gelernt werden!
    Wurde eine Email vorher schon einmal als Ham gelernt, es sich aber herausstellt, daß diese doch Spam ist, muß diese vor dem nochmaligen Lernen als Spam mit dem Parameter –forget erst aus der Bayes-Datenbank gelöscht werden!

    Der Aufruf von…
    sa-learn –dump magic
    …zeigt Euch dann, wie bewandert die Bayes-Datenbank schon ist.

  • Oups… jetzt ist mir doch auch selber noch ein Fehler unterlaufen:
    Wurde eine Email vorher schon einmal als Ham gelernt, es sich aber herausstellt, daß diese doch Spam ist, kann diese doch einfach erneut als Spam gelernt werden, ohne –forget vorher. Ich meine, das war früher anders oder hätte nicht richtig funktioniert, aber bei der aktuellen Version ist es zumindest so.
    Sorry für den eigenen Fehler :)

  • Stefan König:

    Danke für das mbox File.

  • Gern geschehen, ich hoffe es ist noch zu gebrauchen.

  • nfo:

    hi alex,
    vielen dank für die mbox datei und die gute erklärung zum them.
    gefällt mir wirklich gut!

    danke
    andreas

  • Die Datei hat echt einiges an Arbeit erspart ;) Vielen Dank :)

  • Hey Danke!
    Habe genau nach so einer Spam-Ansammlung gesucht! Vielen Dank!

  • Olli:

    Tausend Dank für das File… Ist zwar nicht mehr ganz aktuell, aber zumindest eine gute Arbeitsgrundlage!

Kommentieren