GoGPT Best VPN GoSearch

OnWorks-Favicon

mailcross - Online in der Cloud

Führen Sie Mailcross im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl mailcross, der im kostenlosen Hosting-Anbieter OnWorks über eine unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


mailcross - ein Kreuzvalidierungssimulator zur Verwendung mit dbacl.

ZUSAMMENFASSUNG


Mailcross Befehl [ Befehl_Argumente ]

BESCHREIBUNG


Mailcross automatisiert die Aufgabe der Kreuzvalidierung der E-Mail-Filterung und -Klassifizierung
Programme wie dbac(1). Ausgehend von einer Reihe kategorisierter Dokumente initiiert mailcross
Simulationsläufe zur Abschätzung der Klassifikationsfehler und ermöglicht damit eine Feinabstimmung von
die Parameter des Klassifikators.

Die Kreuzvalidierung ist eine weit verbreitete Methode, um die Qualität der Klassifikation zu vergleichen
und Lernalgorithmen und erlaubt als solche rudimentäre Vergleiche zwischen diesen
Klassifikatoren, die von dbac(1) und bayesol(1) und andere konkurrierende Klassifikatoren.

Die Mechanismen der Kreuzvalidierung sind wie folgt: Eine Reihe von vorklassifizierten E-Mail-Nachrichten
wird zunächst in eine Anzahl von etwa gleich großen Teilmengen zerlegt. Für jede Teilmenge ist der Filter
(standardmäßig, dbac(1)) wird verwendet, um jede Nachricht innerhalb dieser Untermenge zu klassifizieren, basierend auf
die Kategorien aus den verbleibenden Teilmengen gelernt haben. Die resultierende Klassifizierung
Fehler werden dann über alle Teilmengen gemittelt.

Die Ergebnisse der Kreuzvalidierung hängen im Wesentlichen nicht von der Reihenfolge der
die Beispiel-E-Mails. Andere Methoden (siehe Mailtoe(1)Postfuß(1)) versuchen, die zu erfassen
Verhalten von Klassifikationsfehlern im Zeitverlauf.

Mailcross verwendet die Umgebungsvariablen MAILCROSS_LEARNER und MAILCROSS_FILTER, wenn
Ausführung, die die Kreuzvalidierung beliebiger Filter ermöglicht, sofern diese
die Kompatibilitätsbedingungen, die im Abschnitt UMWELT unten angegeben sind.

Zur Bequemlichkeit, Mailcross implementiert a Testsuite Framework mit vordefinierten Wrappern für
mehrere Open-Source-Klassifikatoren. Dies ermöglicht den direkten Vergleich von dbac(1) mit
konkurrierende Klassifikatoren für denselben Satz von E-Mail-Beispielen. Siehe den Abschnitt VERWENDUNG unten.

Während der Vorbereitung, Mailcross erstellt ein Unterverzeichnis namens mailcross.d im aktuellen
Arbeitsverzeichnis. Alle erforderlichen Berechnungen werden in diesem Unterverzeichnis durchgeführt.

EXIT STATUS


Mailcross gibt 0 bei Erfolg zurück, 1 wenn ein Problem aufgetreten ist.

BEFEHLE


vorbereiten Größe
Bereitet ein Unterverzeichnis namens mailcross.d im aktuellen Arbeitsverzeichnis vor und
füllt es mit leeren Unterverzeichnissen für genau Größe Teilmengen.

hinzufügen Kategorie [DATEI]...
Nimmt eine Reihe von E-Mails entweder aus DATEI, falls angegeben, oder aus STDIN und ordnet sie zu.
mit Kategorie. Alle E-Mails werden nach dem Zufallsprinzip in die Unterverzeichnisse von verteilt
mailcross.d zur späteren Verwendung. Für jeden Kategorie, dieser Befehl kann mehrmals wiederholt werden
Mal, sollte aber mindestens einmal ausgeführt werden.

reinigen Löscht das Verzeichnis mailcross.d und seinen gesamten Inhalt.

lernen Erlernt für jede zuvor erstellte Untermenge von E-Mail-Nachrichten alle Kategorien im Voraus
basierend auf den Inhalten aller Teilmengen außer dieser. Die Befehl_Argumente
werden an MAILCROSS_LEARNER weitergegeben.

Lauf Führt für jede zuvor erstellte Untermenge von E-Mail-Nachrichten die Klassifizierung durch.
basierend auf den vorerlernten Kategorien, die mit allen außer dieser Teilmenge verbunden sind. Die
Befehl_Argumente werden an MAILCROSS_FILTER übergeben.

zusammenfassen
Druckt Statistiken für den letzten Kreuzvalidierungslauf.

Überprüfen wahre Katze Predcat
Scannt die letzten Laufstatistiken und extrahiert alle zugehörigen Nachrichten
Kategorie wahre Katze wurden aber in eine Kategorie eingeordnet Predcat. Das extrahierte
Nachrichten werden zur Einsichtnahme in das Verzeichnis mailcross.d/review kopiert.

Testsuite Liste
Zeigt eine Liste der verfügbaren Filter/Wrapper-Skripte an, die ausgewählt werden können.

Testsuite wählen [FILTER]...
Bereitet den/die benannten Filter vor FILTER zur Simulation verwendet werden. Der Filtername ist
der Name eines Wrapper-Skripts, das sich im Verzeichnis befindet /usr/share/dbacl/testsuite.
Jeder Filter hat eine starre Schnittstelle, die unten dokumentiert ist, und der Vorgang, ihn auszuwählen
kopiert es in die mailcross.d/filters Verzeichnis. Es werden nur dort befindliche Filter verwendet
bei den Simulationen.

Testsuite Abwählen [FILTER]...
Entfernt den/die benannten Filter aus dem Verzeichnis mailcross.d/filters damit sie sind
wird in der Simulation nicht verwendet.

Testsuite Lauf
Ruft jeden ausgewählten Filter für die zuvor hinzugefügten Datensätze auf und berechnet
Fehlklassifizierungsraten.

Testsuite Status
Beschreibt die geplanten Simulationen.

Testsuite zusammenfassen
Zeigt die Kreuzvalidierungsergebnisse für alle Filter an. Macht erst Sinn nach dem Lauf
Befehl.

ANWENDUNG


Das normale Nutzungsmuster ist wie folgt: Zuerst sollten Sie Ihre E-Mail trennen
Sammlung in mehrere Kategorien (manuell oder anderweitig). Jede Kategorie sollte sein
einem oder mehreren Ordnern zugeordnet, aber jeder Ordner sollte nicht mehr als einen enthalten
Kategorie. Als nächstes sollten Sie entscheiden, wie viele Teilmengen Sie verwenden möchten, sagen wir 10. Beachten Sie, dass zu viele
Teilmengen werden die Berechnungen schnell verlangsamen. Jetzt können Sie tippen

% Mailcross vorbereiten 10

Als nächstes müssen Sie für jede Kategorie jeden dieser Kategorie zugeordneten Ordner hinzufügen. Vermuten
Sie haben drei Kategorien benannt Spam, Arbeit und Spiel & Sport, die mit der mbox verknüpft sind
Dateien spam.mbox, Arbeit.mbox und play.mbox bzw. Du würdest tippen

% mailcross Spam hinzufügen spam.mbox
% mailcross Arbeit hinzufügen work.mbox
% Mailcross Play Play.mbox hinzufügen

Sie können nun beliebig viele Simulationen durchführen. Jede Kreuzvalidierung besteht aus a
Lern-, Lauf- und Zusammenfassungsphase. Diese Operationen werden auf der
Klassifizierer, der in den Variablen MAILCROSS_FILTER und MAILCROSS_LEARNER angegeben ist. Indem man es einstellt
Wenn Sie diese Variablen entsprechend anpassen, können Sie die Klassifikationsleistung vergleichen, wenn Sie die
Befehlszeilenoptionen Ihres/Ihrer Klassifikatoren.

% Mailcross lernen
% Mailcross-Lauf
% Mailcross-Zusammenfassung

Die Testsuite-Befehle wurden entwickelt, um die obigen Schritte zu vereinfachen und den Vergleich von a
breite Palette von E-Mail-Klassifikatoren, einschließlich, aber nicht beschränkt auf dbac. Klassifikatoren sind
unterstützt durch Wrapper-Skripte, die sich im /usr/share/dbacl/testsuite
Verzeichnis.

Der erste Schritt bei der Verwendung der Testsuite ist die Entscheidung, welche Klassifikatoren verglichen werden sollen. Du
kann eine Liste der verfügbaren Wrapper anzeigen, indem Sie Folgendes eingeben:

% Mailcross-Testsuite-Liste

Beachten Sie, dass die Wrapper-Skripte NICHT die tatsächlichen E-Mail-Klassifizierer sind, die sein müssen
separat von Ihrem Systemadministrator oder auf andere Weise installiert werden. Sobald dies erledigt ist,
können einen oder mehrere Wrapper für die Simulation auswählen, indem Sie beispielsweise Folgendes eingeben:

% mailcross testsuite wählen dbaclA ifile

Wenn einige der ausgewählten Klassifikatoren im System nicht gefunden werden können, werden sie nicht ausgewählt.
Beachten Sie auch, dass einige Wrapper hartcodierte Kategorienamen haben können, z. B. wenn der Klassifikator
unterstützt nur binäre Klassifizierung. Beachten Sie die Warnhinweise.

Es bleibt nur die Simulation auszuführen. Achtung, dies kann lange dauern (mehrere Stunden
je nach Klassifikator).

% Mailcross-Testsuite ausgeführt
% mailcross Testsuite Zusammenfassung

Wenn Sie alle Simulationen abgeschlossen haben, können Sie die Arbeitsdateien, Protokolldateien usw. löschen.
indem

% Mailcross sauber

Der Fortschritt der Kreuzvalidierung wird stillschweigend in verschiedene Protokolldateien geschrieben, die
der sich in der mailcross.d/log Verzeichnis. Überprüfen Sie diese bei Problemen.

SCRIPT INTERFACE


Mailcross Testsuite kümmert sich um das Lernen und Klassifizieren Ihrer vorbereiteten E-Mail-Korpora für
jeder ausgewählte Klassifikator. Da Klassifikatoren sehr unterschiedliche Schnittstellen haben, ist dies nur
möglich, indem diese Schnittstellen einzeln in ein verwendbares Standardformular verpackt werden
by Mailcross Testsuite.

Jedes Wrapper-Skript ist ein Befehlszeilentool, das einen einzelnen Befehl akzeptiert, gefolgt von einer Null
oder mehr optionale Argumente in der Standardform:

Wrapper-Befehl [Argument]...

Jedes Wrapper-Skript verwendet auch STDIN und STDOUT auf genau definierte Weise. Wenn nein
Verhalten beschrieben ist, sollte kein Ausgang oder Eingang verwendet werden. Die möglichen Befehle sind
nachstehend beschrieben:

filter In diesem Fall wird eine einzelne E-Mail auf STDIN erwartet und eine Liste von Kategorie-Dateinamen
wird in $2, $3 usw. erwartet. Das Skript schreibt den Kategorienamen entsprechend
die eingegebene E-Mail auf STDOUT. Es ist kein abschließender Zeilenumbruch erforderlich oder erwartet.

In diesem Fall wird auf STDIN ein Standard-Mbox-Stream erwartet, während ein geeigneter
Der Dateiname der Kategorie wird in $2 erwartet. Auf STDOUT wird keine Ausgabe geschrieben.

clean In diesem Fall wird ein Verzeichnis in $2 erwartet, das auf alte Datenbank untersucht wird
Information. Wenn alte Datenbanken gefunden werden, werden sie gelöscht oder zurückgesetzt. Keine Ausgabe ist
in STDOUT geschrieben.

beschreiben
In diesem Fall wird eine einzelne Textzeile in STDOUT geschrieben, die die Filterfunktionen beschreibt
Funktionalität. Die Zeile sollte kurz gehalten werden, um Zeilenumbrüche auf a . zu vermeiden
Terminal.

bootstrap
In diesem Fall wird ein Verzeichnis in $2 erwartet. Das Wrapper-Skript sucht zuerst nach
die Existenz des zugehörigen Klassifikators und andere Voraussetzungen. Wenn der Scheck
erfolgreich ist, wird der Wrapper in das angegebene Verzeichnis geklont. Eine Höflichkeit
Benachrichtigung sollte auf STDOUT erfolgen, um Erfolg oder Misserfolg auszudrücken. Es ist auch
zulässig, längere Beschreibungen Vorbehalte zu geben.

Zehe Verwendet von Mailtoe(1).

Fuß Verwendet von Postfuß(1).


Direkt nach dem Laden, Mailcross liest die versteckte Datei .mailcrossrc im Verzeichnis $HOME,
Wenn es existiert, wäre dies ein guter Ort, um benutzerdefinierte Werte für die Umgebung zu definieren
Variablen.

MAILCROSS_FILTER
Diese Variable enthält einen Shell-Befehl, der während der Ausführung wiederholt ausgeführt werden soll
Bühne. Der Befehl sollte eine E-Mail-Nachricht auf STDIN akzeptieren und ein Ergebnis ausgeben
Kategoriename. Es sollte auch eine Liste von Kategoriedateinamen auf dem Befehl akzeptieren
Leitung. Wenn nicht definiert, Mailcross verwendet den Standardwert MAILCROSS_FILTER="dbacl -T
email -T xml -v" (und fügt auch auf magische Weise die Option -c vor jeder Kategorie hinzu).

MAILCROSS_LEARNER
Diese Variable enthält einen Shell-Befehl, der während des wiederholt ausgeführt werden soll
Lernphase. Der Befehl sollte einen E-Mail-Stream vom Typ mbox auf STDIN akzeptieren für
Lernen und den Dateinamen der Kategorie in der Befehlszeile. Wenn nicht definiert,
Mailcross verwendet den Standardwert MAILCROSS_LEARNER="dbacl -H 19 -T email -T xml
-l".

TEMPDIR
Dieses Verzeichnis wird zugunsten von Wrapper-Skripten exportiert. Skripte die brauchen
Um temporäre Dateien zu erstellen, sollten Sie diese an dem in TEMPDIR angegebenen Ort ablegen.

ANMERKUNG


Das Unterverzeichnis mailcross.d kann recht groß werden. Es enthält eine vollständige Kopie der Schulung
Korpora sowie Lerndateien für Größe mal alle hinzugefügten Kategorien und verschiedene
Protokolldateien.

WARNUNG


Kreuzvalidierung ist ein weit verbreitetes, aber ad-hoc statistisches Verfahren, das völlig unabhängig ist
Bayes'scher Theorie und kontrovers diskutiert. Verwenden Sie dies auf eigene Gefahr.

SOURCE


Der Quellcode für die neueste Version dieses Programms ist unter folgendem verfügbar
Standorte:

http://www.lbreyer.com/gpl.html
http://dbacl.sourceforge.net

Mailcross online mit den onworks.net-Diensten nutzen


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad




×
Werbung
❤ ️Hier einkaufen, buchen oder kaufen – kostenlos, damit die Dienste kostenlos bleiben.