 
Dies ist der Befehl bogofilter-sqlite, der im kostenlosen OnWorks-Hosting-Provider mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
bogofilter - schneller Bayes-Spamfilter
ZUSAMMENFASSUNG
Bogofilter [Hilfeoptionen | Klassifizierungsoptionen | Registrierungsoptionen |
Parameteroptionen | Info-Optionen] [Allgemeine Optionen] [Konfigurationsdatei-Optionen]
woher
Hilfe Optionen sind:
[-h] [--hilfe] [-V] [-Q]
Einstufung Optionen sind:
[-p] [-e] [-t] [-T] [-u] [-H] [-M] [-b] [-B Objekt ...] [-R] [allgemeine Optionen]
[Parameteroptionen] [Konfigurationsdateioptionen]
Anmeldung Optionen sind:
[-s | -n] [-S | -N] [allgemeine Optionen]
General Optionen sind:
[-C Dateinamen] [-CD dir] [-k Cachegröße] [-NS Etikett] [-ICH Dateinamen] [-Ö Dateinamen]
Parameter Optionen sind:
[-E Wert[,Wert]] [-M Wert[,Wert][,Wert]] [-Ö Wert[,Wert]]
Info Optionen sind:
[-v] [-y Datum] [-D] [-x Fahnen]
Config Datei Optionen sind:
[--Option=Wert]
Hinweis: Verwenden Sie Bogofilter --help um die vollständige Liste der Optionen anzuzeigen.
BESCHREIBUNG
Bogofilter ist ein Bayes-Spamfilter. Im normalen Betriebsmodus dauert es eine E-Mail
Nachricht oder anderer Text auf Standardeingabe, führt eine statistische Prüfung gegen Listen mit "guten"
und "schlechte" Wörter und gibt einen Statuscode zurück, der anzeigt, ob die Nachricht Spam ist oder nicht.
Bogofilter wurde mit einem schnellen Algorithmus entwickelt, verwendet die Berkeley DB für einen schnellen Start und
Lookups, direkt in C codiert und auf Geschwindigkeit abgestimmt, so dass es für die Produktion von . verwendet werden kann
Websites, die viel E-Mail verarbeiten.
THEORIE OF OPERATION
Bogofilter behandelt seine Eingaben wie eine Tüte mit Token. Jeder Token wird gegen eine Wortliste geprüft,
die zählt, wie oft es in Nicht-Spam- und Spam-Mails aufgetreten ist.
Diese Zahlen werden verwendet, um eine Schätzung der Wahrscheinlichkeit zu berechnen, dass eine Nachricht, in der
das Token auftritt, ist Spam. Diese werden kombiniert, um anzuzeigen, ob die Nachricht Spam ist oder
er.
Während diese Methode im Vergleich zum üblicheren Pattern-Matching-Ansatz grob klingt, ist sie
erweist sich als äußerst effektiv. Paul Grahams Papier A Planen Für Spam[1] wird empfohlen
lesen.
Dieses Programm verbessert den Vorschlag von Paul erheblich, indem es eine intelligentere lexikalische Analyse durchführt.
Bogofilter führt eine korrekte MIME-Decodierung und eine vernünftige HTML-Analyse durch. Besondere Arten von
Token wie Hostnamen und IP-Adressen werden als Erkennungsmerkmale beibehalten und nicht
aufgebrochen. Verschiedene Arten von MTA-Crufts wie Datumsangaben und Nachrichten-IDs werden ignoriert, um dies nicht zu tun
um die Wortliste aufzublähen. Token, die in verschiedenen Header-Feldern gefunden werden, sind entsprechend gekennzeichnet.
Eine weitere Verbesserung besteht darin, dass dieses Programm die von Gary Robinson vorgeschlagenen Modifikationen an
die Berechnungen (siehe die Parameter robx und robs unten). Diese Modifikationen sind
beschrieben in Robinsons Papier Spam Erkennung[2].
Seitdem hat Robinson (siehe seinen Linux-Journal-Artikel A Statistisch Ansatz zu die Spam
Aufgabenstellung: [3]) und andere haben erkannt, dass die Berechnung weiter optimiert werden kann mit
Fishers Methode. Ein anderer Verbesserung[4] kompensiert Token-Redundanz durch Anwendung
separate effektive Größenfaktoren (ESF) für Spam- und Nicht-Spam-Wahrscheinlichkeitsberechnungen.
Kurz gesagt, so funktioniert es: Die Schätzungen für die Spam-Wahrscheinlichkeiten des Einzelnen
Token werden mit der "inversen Chi-Quadrat-Funktion" kombiniert. Sein Wert zeigt an, wie schlecht
die Nullhypothese, dass die Nachricht nur eine zufällige Ansammlung unabhängiger Wörter mit ist
Wahrscheinlichkeiten, die von unseren vorherigen Schätzungen gegeben wurden, versagt. Diese Funktion ist sehr empfindlich gegenüber
kleine Wahrscheinlichkeiten (hammish-Wörter), aber nicht zu hohe Wahrscheinlichkeiten (Spamish-Wörter); so
der Wert zeigt nur starke Hamish-Zeichen in einer Nachricht an. Jetzt invers verwenden
Wahrscheinlichkeiten für die Token wird die gleiche Berechnung erneut durchgeführt, was einen Indikator ergibt, dass
eine Nachricht sieht stark spammisch aus. Schließlich werden diese beiden Indikatoren subtrahiert (und
in ein 0-1-Intervall skaliert). Dieser kombinierte Indikator (Bogosity) liegt nahe 0, wenn die Vorzeichen
für eine Hammish-Nachricht sind stärker als für eine Spamish-Nachricht und nahe 1 wenn die
die Situation ist umgekehrt. Wenn die Vorzeichen für beide gleich stark sind, ist der Wert
nahe 0.5. Da diese Meldung keinen klaren Hinweis darauf gibt, gibt es einen Tristate-Modus in
bogofilter, um diese Nachrichten als unsicher zu markieren, während die klaren Nachrichten als Spam markiert werden
oder Schinken bzw. Im Two-State-Modus wird jede Nachricht entweder als Spam oder als Ham markiert.
Verschiedene Parameter beeinflussen diese Berechnungen, die wichtigsten sind:
robx: die Punktzahl, die einem Token gegeben wird, das noch nie zuvor gesehen wurde. robx ist die Wahrscheinlichkeit, dass
das Token ist Spam.
robs: ein Gewicht auf robx, das die Wahrscheinlichkeit eines kleinen gesehenen Tokens in Richtung robx verschiebt.
min-dev: ein Mindestabstand von 5 für Token, die in der Berechnung verwendet werden. Nur Token
weiter weg von 0.5 als dieser Wert verwendet werden.
Spam-Cutoff: Nachrichten mit einer Punktzahl größer oder gleich werden als Spam markiert.
Ham-Cutoff: Wenn null oder Spam-Cutoff, alle Nachrichten mit Werten strikt unterhalb der Spam-Cutoff
werden als Ham markiert, alle anderen als Spam (Zwei-State). Sonst Werte kleiner oder gleich
ham-cutoff werden als ham markiert, Nachrichten mit Werten ausschließlich zwischen ham-cutoff und
Spam-Cutoff sind als unsicher gekennzeichnet; der Rest als Spam (Tristate)
sp-esf: der effektive Größenfaktor (ESF) für Spam.
ns-esf: der ESF für Nicht-Spam. Diese ESF-Werte sind standardmäßig 1.0, was mit not gleich ist
ESF in der Berechnung verwenden. Geeignete Werte für die E-Mail-Population eines Benutzers können sein:
mit Hilfe des Bogotune-Programms bestimmt.
OPTIONAL
HILFE-OPTIONEN
Die -h Option gibt die Hilfenachricht aus und wird beendet.
Die -V Option gibt die Versionsnummer aus und wird beendet.
Die -Q (Abfrage) Option druckt die Konfiguration von Bogofilter, dh Registrierungsparameter,
Parsing-Optionen, Bogofilter-Verzeichnis usw.
KLASSIFIZIERUNGSOPTIONEN
Die -p (Passthrough) Option gibt die Nachricht mit einer X-Bogosity-Zeile am Ende des
Nachrichtenkopf. Dies erfordert, dass die gesamte Nachricht im Speicher bleibt, wenn sie gelesen wird
stdin (oder aus einem Rohr oder einer Muffe). Wenn die Nachricht aus einer Datei gelesen wird, die zurückgespult werden kann,
bogofilter wird es ein zweites Mal lesen.
Die -e (embed) Option weist bogofilter an, mit Code 0 zu beenden, wenn die Nachricht sein kann
klassifiziert, dh wenn kein Fehler vorliegt. Normalerweise verwendet bogofilter unterschiedliche Codes für
Spam, Ham und unsichere Klassifizierungen, aber dies vereinfacht die Verwendung von Bogofilter mit procmail
oder Maildrop.
Die -t Die Option (kurz) weist bogofilter an, eine abgekürzte Spam-Nachricht zu drucken
mit 1 Buchstaben und der Partitur. Spam wird mit "Y" gekennzeichnet, Ham mit "N" und unsicher mit
"U". Hinweis: Die Formatierung kann mithilfe der Konfigurationsdatei angepasst werden.
Die -T bietet einen invarianten knappen Modus für Skripte. bogofilter druckt ein
abgekürzte Spam-Nachricht mit 1 Buchstaben und der Punktzahl. Spam ist mit . gekennzeichnet
"S", Schinken von "H" und unsicher von "U".
Die -TT bietet einen invarianten knappen Modus für Skripte. Bogofilter druckt nur die
Punktzahl und zeigt sie mit 16 signifikanten Stellen an.
Die -u Option weist bogofilter an, den Text der Nachricht zu registrieren, nachdem sie als Spam klassifiziert wurde
oder kein Spam. Eine Spam-Nachricht wird in der Spamliste registriert und eine Nicht-Spam-Nachricht auf
die gute liste. Wenn die Klassifizierung "unsicher" ist, wird die Nachricht nicht registriert.
Effektiv läuft diese Option bogofilter mit dem -s or -n Flagge, ggf. Vorsicht ist
empfohlen, diese Fähigkeit zu nutzen, da alle Klassifikationsfehler, die bogofilter machen kann,
bleiben erhalten und sammeln sich an, bis sie manuell mit dem korrigiert werden -Sn und -Ns ganz ohne irgendetwas tun oder drücken zu müssen.
Kombinationen. Beachten Sie, dass diese Option bewirkt, dass die Datenbank für den Schreibzugriff geöffnet wird, was
kann zu massiven Verlangsamungen durch Sperrenkonflikte und synchrone I/O-Operationen führen.
Die -H Die Option weist bogofilter an, Token aus dem Header nicht zu markieren. Diese Option ist für
Testen, sollten Sie es nicht im normalen Betrieb verwenden.
Die -M Option weist bogofilter an, seine Eingabe als mbox-formatierte Datei zu verarbeiten. Wenn die -v or
-t Option angegeben ist, wird für jede Nachricht eine Spam-Zeile gedruckt.
Die -b Die Option (Streaming-Massenmodus) weist bogofilter an, mehrere Objekte zu klassifizieren, deren
Namen werden aus stdin gelesen. Wenn die -v or -t Option ist auch angegeben, bogofilter druckt a
Zeile mit Dateinamen und Klassifizierungsinformationen für jede Datei. Das ist eine Alternative
zu -B die Objekte in der Befehlszeile auflistet.
Ein Objekt in diesem Kontext soll ein maildir (automatisch erkannt) sein, oder wenn es kein maildir ist, a
Einzelpost, es sei denn -M ist gegeben - in diesem Fall wird es als mbox verarbeitet. (Die Inhalts-Länge:
Kopfzeile wird derzeit nicht berücksichtigt.)
Beim Lesen des mbox-Formats verlässt sich bogofilter auf die leere Zeile nach einer Mail. Wenn benötigt,
formail -es wird dafür sorgen, dass dies der Fall ist.
Die -B Objekt ... (Massenmodus) Option weist bogofilter an, mehrere Objekte mit dem Namen zu klassifizieren
auf der Kommandozeile. Die Objekte können Dateinamen (für einzelne Nachrichten), Mailboxen (Dateien
mit mehreren Nachrichten) oder Verzeichnissen (im Maildir- und MH-Format). Wenn die -v or -t ganz ohne irgendetwas tun oder drücken zu müssen.
ist auch angegeben, bogofilter druckt eine Zeile mit Dateiname und Klassifizierung
Informationen zu jeder Datei. Dies ist eine Alternative zu -b die Objekte auf stdin auflistet.
Die -R Option weist bogofilter an, einen R-Datenrahmen in Textform auf dem Standard auszugeben
Ausgang. Weitere Informationen finden Sie im Abschnitt zur Integration mit R weiter unten.
REGISTRIERUNGSOPTIONEN
Die -s Option weist bogofilter an, den als Spam präsentierten Text zu registrieren. Die Datenbank ist
erstellt, wenn abwesend.
Die -n Option weist bogofilter an, den als Nicht-Spam angezeigten Text zu registrieren.
Bogofilter erkennt nicht, wenn eine Nachricht doppelt registriert wurde. Wenn Sie dies versehentlich tun,
Token-Zählungen werden um 1 von dem, was Sie wirklich wollen, und den entsprechenden Spam-Werten abweichen
wird etwas daneben sein. Bei einer großen Anzahl von Token und Nachrichten in der Wortliste ist dies
ist egal. Das Problem können. korrigiert werden, indem Sie die -S Option oder die -N .
Die -S Option weist bogofilter an, eine vorherige Registrierung derselben Nachricht als Spam rückgängig zu machen.
Wenn eine Nachricht fälschlicherweise als Spam eingegeben wurde von -s or -u und Sie möchten es entfernen und
Geben Sie es als Nicht-Spam ein, verwenden Sie -Sn. Wenn -S wird für eine Nachricht verwendet, die nicht als Spam registriert wurde,
die Zählungen werden noch dekrementiert.
Die -N Option weist bogofilter an, eine vorherige Registrierung derselben Nachricht wie rückgängig zu machen
kein Spam. Wenn eine Nachricht fälschlicherweise als Nicht-Spam eingegeben wurde von -n or -u und du willst
Entfernen Sie es und geben Sie es als Spam ein, dann verwenden Sie -Ns. Wenn -N wird für eine Nachricht verwendet, die nicht war
als Nicht-Spam registriert, werden die Zählungen trotzdem dekrementiert.
ALLGEMEINE OPTIONEN
Die -c Dateinamen Option weist bogofilter an, die Konfigurationsdatei mit dem Namen zu lesen.
Die -C Option verhindert, dass bogofilter Konfigurationsdateien liest.
Die -d dir Mit dieser Option können Sie das Verzeichnis für die Datenbank festlegen. Siehe die UMWELT
Abschnitt für andere Verzeichniseinstellungsoptionen.
Die -k Cachegröße Option legt die Cachegröße für das BerkeleyDB-Subsystem in Einheiten von 1 . fest
MiB (1,048,576 Byte). Die richtige Größe des Caches verbessert die Leistung von Bogofilter. Die
Die empfohlene Größe beträgt ein Drittel der Größe der Datenbankdatei. Sie können den Bogotune ausführen
Skript (im Verzeichnis tuning), um die empfohlene Größe zu bestimmen.
Die -l Option schreibt bei jeder Ausführung von bogofilter eine Informationszeile in das Systemprotokoll.
Die protokollierten Informationen hängen davon ab, wie bogofilter ausgeführt wird.
Die -L Etikett Option konfiguriert ein Tag, das in die protokollierten Informationen aufgenommen werden kann
von dem -l Option, aber es erfordert vorerst ein benutzerdefiniertes Format, das die %l-Zeichenfolge enthält.
Diese Option impliziert -l.
Die -I Dateinamen Option weist bogofilter an, seine Eingaben aus der angegebenen Datei zu lesen, eher
als von Standard.
Die -O Dateinamen Die Option teilt bogofilter mit, wohin die Ausgabe im Passthrough-Modus geschrieben werden soll.
Beachten Sie, dass dies nur funktioniert, wenn -p explizit angegeben wird.
PARAMETEROPTIONEN
Die -E Wert[,Wert] Option ermöglicht die Einstellung des sp-esf-Wertes und des ns-esf-Wertes. Mit zwei
Werte werden sowohl sp-esf als auch ns-esf gesetzt. Wird nur ein Wert angegeben, werden die Parameter als
im Hinweis unten beschrieben.
Die -m Wert[,Wert][,Wert] Option ermöglicht das Festlegen des min-dev-Werts und optional die
robs- und robx-Werte. Mit drei Werten sind min-dev, robs und robx alle eingestellt. Wenn weniger
Werte angegeben, Parameter werden wie im Hinweis unten beschrieben eingestellt.
Die -o Wert[,Wert] Option ermöglicht das Einstellen der Spam-Cutoff-Ham-Cutoff-Werte. Mit zwei
Werte werden sowohl Spam-Cutoff als auch Ham-Cutoff gesetzt. Wenn nur ein Wert angegeben wird, Parameter
werden wie im Hinweis unten beschrieben eingestellt.
Hinweis: Bei all diesen Optionen können weniger Werte angegeben werden. Werte können übersprungen werden durch
nur das Komma-Trennzeichen verwenden, in diesem Fall sind die entsprechenden Parameter nicht
geändert. Wenn nur der erste Wert bereitgestellt wird, wird nur der erste Parameter gesetzt.
Nachgestellte Werte können übersprungen werden, in diesem Fall werden die entsprechenden Parameter nicht angezeigt
geändert. Innerhalb der Parameterliste sind Leerzeichen nach Kommas nicht erlaubt.
INFO-OPTIONEN
Die -v Option erstellt einen Bericht an die Standardausgabe über die Analyse der Eingabe durch bogofilter.
jede weitere v erhöht die Ausführlichkeit der Ausgabe auf maximal 4. Mit
-vv, listet der Bericht die Token mit der höchsten Abweichung von einem Mittelwert von 0.5 Assoziation auf
mit Spam.
Option -y Datum kann verwendet werden, um das aktuelle Datum beim Zeitstempeln von Token zu überschreiben. Ein Wert
von Null (0) deaktiviert die Zeitstempelung.
Die -D Option leitet die Debug-Ausgabe auf stdout um.
Die -x Fahnen Option ermöglicht das Setzen von Debug-Flags zum Drucken von Debug-Informationen. Sehen
Header-Datei debug.h für die Liste der verwendbaren Flags.
KONFIGURATIONSDATEIOPTIONEN
Verwendung von GNU-Longopt -- Syntax, die einer Konfigurationsdatei Name = value Anweisung wird zur Befehlszeile
--Option=Wert. Befehl verwenden Bogofilter --help für eine Liste der Optionen und siehe
bogofilter.cf.example für weitere Informationen dazu. Zum Beispiel um den X-Bogosity-Header zu ändern
zu "X-Spam-Header", verwenden Sie:
--spam-header-name=X-Spam-Header
Bogofilter verwendet ein Datenbankverzeichnis, das in der Konfigurationsdatei festgelegt werden kann. Wenn nicht eingestellt
dort verwendet bogofilter den Wert von BOGOFILTER_DIR. Beide können durch die überschrieben werden -d
dir Möglichkeit. Wenn nichts davon verfügbar ist, verwendet bogofilter das Verzeichnis $HOME/.bogofilter.
CONFIGURATION
Die bogofilter-Befehlszeile ermöglicht die Einstellung vieler Optionen, die bestimmen, wie bogofilter
betreibt. Die Datei /etc/bogofilter.cf kann verwendet werden, um zusätzliche Parameter einzustellen, die sich auf ihre
Betrieb. Die Datei /etc/bogofilter.cf.example enthält Beispiele aller Parameter. Status
und Protokollierungsnachrichten können für jede Site angepasst werden.
RÜCKKEHR WERTE
0 für Spam; 1 für Nicht-Spam; 2 für unsicher; 3 für E/A- oder andere Fehler.
Wenn beides -p und -e verwendet werden, sind die Rückgabewerte: 0 für Spam oder Nicht-Spam; 3 für I/O oder
andere Fehler.
Fehler 3 bedeutet normalerweise, dass die Wortlistendatei, die bogofilter beim Start lesen möchte, ist
fehlt oder die Festplatte ist voll -p Modus arbeiten können.
Integration MIT anderes TOOLS
Verwendung mit procmail
Das folgende Rezept (a) spam-bin alles, was Bogofilter als Spam einstuft, (b) registriert
die Wörter in Nachrichten, die als solche als Spam eingestuft wurden, und (c) registriert die Wörter in Nachrichten, die bewertet wurden
als Nicht-Spam als solche. Wenn dies vorhanden ist, ist es normalerweise nur für den Benutzer erforderlich
eingreifen (mit -Ns or -Sn), wenn bogofilter etwas falsch kategorisiert.
# E-Mails durch Bogofilter filtern und als Ham, Spam oder Unsicher markieren,
# und Aktualisieren der Wortliste
:0fw
| bogofilter -u -e -p
# wenn Bogofilter fehlgeschlagen ist, schicke die Mail an die Warteschlange zurück;
# der MTA wird später erneut versuchen, ihn zuzustellen
# 75 ist der Wert für EX_TEMPFAIL in /usr/include/sysexits.h
:0e
{ EXITCODE=75 HOST}
# lege die Mail an spam-bogofilter ab, wenn es sich um Spam handelt.
: 0:
* ^X-Bogosity: Spam, Tests=Bogofilter
Spam-Bogofilter
# lege die Mail an unsure-bogofilter
# wenn es weder Ham noch Spam ist.
: 0:
* ^X-Bogosity: Unsicher, tests=bogofilter
unsicher-bogofilter
# Mit diesem Rezept kannst du Bogofilter trainieren, beginnend mit einem leeren
# Wortliste. Überprüfen Sie regelmäßig Ihren unsicheren Ordner, nehmen Sie die
# Nachrichten daraus, klassifizieren Sie sie als Ham (oder Spam) und verwenden Sie sie, um
# Zug-Bogofilter.
Die folgende Procmail-Regel nimmt E-Mails auf stdin und speichert sie in Datei-Spam, wenn bogofilter
hält es für Spam:
:0HB:
* ? Bogofilter
Spam
und diese ähnliche Regel registriert auch die Token in der Mail gemäß der
Bogofilter-Klassifizierung:
:0HB:
* ? Bogofilter-u
Spam
Wenn bogofilter fehlschlägt (Rückgabe 3), wird die Nachricht als Nicht-Spam behandelt.
Dieser ist für Maildrop, er verschiebt die E-Mail automatisch und versucht es später erneut, wenn der
xfilter-Befehl schlägt fehl, verwenden Sie dies in Ihrem ~/.mailfilter:
xfilter "bogofilter -u -e -p"
if (/^X-Bogosity: Spam, tests=bogofilter/)
{
zu "Spam-Bogofilter"
}
Die folgenden .muttrc-Zeilen erstellen mutt-Makros zum Versenden von E-Mails an bogofilter.
Makroindex d" Warteschlüssel deaktivieren\n\
Bogofilter -n\n\
setze wait_key\n\
" "Nachricht als Nicht-Spam löschen"
Makroindex \ed" Warteschlüssel deaktivieren\n\
Bogofilter -s\n\
setze wait_key\n\
" "Nachricht als Spam löschen"
Integration mit Mail Transport Agent (MTA)
1. bogofilter kann auch in einen MTA integriert werden, um alle eingehenden Post zu filtern. Während
Die spezifische Implementierung ist MTA-abhängig, die allgemeinen Schritte sind wie folgt:
2. Bogofilter auf dem Mailserver installieren
3. Primen Sie die Bogofilter-Datenbanken mit einem Spam- und einem Nicht-Spam-Korpus. Da Bogofilter wird
einer größeren Gemeinschaft zu dienen, ist es wichtig, sie mit einem repräsentativen Set zu grundieren
von Nachrichten.
4. Richten Sie den MTA so ein, dass er bogofilter für jede Nachricht aufruft. Dies ist zwar ein MTA-spezifisch
Schritt müssen Sie wahrscheinlich die -p, -u und -e nach.
5. Richten Sie einen Mechanismus für Benutzer ein, um Spam-/Nicht-Spam-Nachrichten zu registrieren und zu korrigieren
Fehlklassifizierungen. Die allgemeinste Lösung besteht darin, Alias-E-Mail-Adressen einzurichten, um
welche Benutzer Nachrichten zurückweisen.
6. Weitere Informationen finden Sie in den Verzeichnissen doc und contrib.
Verwendung von R zur Überprüfung der Berechnungen von Bogofilter
Die Option -R weist bogofilter an, einen R-Datenrahmen zu generieren. Der Datenrahmen enthält einen
Zeile pro Token analysiert. Jede solche Zeile enthält das Token, die Summe seiner Datenbank "gut"
und "Spam"-Zählungen, die "gute" Anzahl geteilt durch die Anzahl der Nicht-Spam-Nachrichten, die verwendet werden, um
Erstellen Sie die Trainingsdatenbank, die "Spam"-Anzahl geteilt durch die Anzahl der Spam-Nachrichten,
Robinsons f(w) für das Token, die natürlichen Logarithmen von (1 - f(w)) und f(w) und ein Indikator
Zeichen (+ wenn der f(w)-Wert des Tokens die minimale Abweichung von 0.5 überschritten hat, - wenn es
nicht). Am Ende der Tabelle befindet sich eine zusätzliche Zeile, die eine Beschriftung im
Token-Feld, gefolgt von der Anzahl der tatsächlich verwendeten Wörter (die mit + Indikatoren),
Robinsons P-, Q-, S-, s- und x-Werte und die minimale Abweichung.
Der R-Datenrahmen kann in einer Datei gespeichert und später in eine R-Sitzung eingelesen werden (siehe die R
Projekt Website [5] für Informationen zum Mathematikpaket R). Ausgestattet mit dem
Die bogofilter-Distribution ist ein einfaches R-Skript (Datei bogo.R), das zur Überprüfung verwendet werden kann
Berechnungen von bogofilter. Anweisungen zur Verwendung sind im Skript im Formular enthalten
von Kommentaren.
LOG MITTEILUNGEN
Bogofilter schreibt Meldungen in das Systemprotokoll, wenn die -l Option verwendet wird. Was geschrieben ist
hängt davon ab, welche anderen Flags verwendet werden.
Ein Klassifizierungslauf wird generiert (wir zeigen hier nicht das Datum und den Host-Teil):
bogofilter[1412]: X-Bogosity: Schinken, Spamizität=0.000227
bogofilter[1415]: X-Bogosity: Spam, Spamicity=0.998918
Die richtigen -u Um eine Nachricht zu klassifizieren und zu aktualisieren, wird eine Wortliste erstellt (eine einzelne Zeile):
bogofilter[1426]: X-Bogosity: Spam, Spamizität=0.998918,
registrieren -s, 329 Wörter, 1 Nachrichten
Wörter registrieren (-l und -s, -n, -S oder -N) wird herstellen:
bogofilter[1440]: Register-n, 255 Wörter, 1 Nachrichten
Ein Registrierungslauf (mit -s, -n, -N oder -S) generiert Nachrichten wie:
bogofilter[17330]: Register-n, 574 Wörter, 3 Nachrichten
bogofilter[6244]: Register-s, 1273 Wörter, 4 Nachrichten
Verwenden Sie bogofilter-sqlite online mit den onworks.net-Diensten
 














