EngelsFransSpaans

Ad


OnWorks-favicon

mailcross - Online in de Cloud

Voer mailcross uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht mailcross die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


mailcross - een kruisvalidatiesimulator voor gebruik met dbacl.

KORTE INHOUD


mailcross commando [ command_argumenten ]

PRODUCTBESCHRIJVING


mailcross automatiseert de taak van het kruisvalideren van e-mailfiltering en -classificatie
programma's zoals dbacl(1). Gegeven een reeks gecategoriseerde documenten, initieert mailcross
Er wordt een simulatie uitgevoerd om de classificatiefouten te schatten en daardoor fijnafstemming mogelijk te maken
de parameters van de classificator.

Kruisvalidatie is een methode die veel wordt gebruikt om de kwaliteit van classificatie te vergelijken
en leeralgoritmen, en maakt als zodanig rudimentaire vergelijkingen daartussen mogelijk
classificaties waar gebruik van wordt gemaakt dbacl(1) en Bayesol(1), en andere concurrerende classificatoren.

De werking van kruisvalidatie is als volgt: Een reeks vooraf geclassificeerde e-mailberichten
wordt eerst opgesplitst in een aantal ongeveer even grote subsets. Voor elke subset het filter
(standaard, dbacl(1)) wordt gebruikt om elk bericht binnen deze subset te classificeren op basis van
nadat je de categorieën uit de overige subsets hebt geleerd. De resulterende classificatie
fouten worden vervolgens gemiddeld over alle subsets.

De resultaten die door kruisvalidatie worden verkregen, zijn in wezen niet afhankelijk van de volgorde van de resultaten
de voorbeeld-e-mails. Andere methoden (zie mailtoe(1)postvoet(1)) poging om de vast te leggen
gedrag van classificatiefouten in de loop van de tijd.

mailcross gebruikt de omgevingsvariabelen MAILCROSS_LEARNER en MAILCROSS_FILTER wanneer
uitvoeren, wat de kruisvalidatie van willekeurige filters mogelijk maakt, op voorwaarde dat deze voldoen
de compatibiliteitsvoorwaarden vermeld in het onderstaande gedeelte MILIEU.

Voor het gemak, mailcross implementeert een test pak framework met voorgedefinieerde wrappers voor
verschillende open source classificaties. Dit maakt de directe vergelijking van dbacl(1) met
concurrerende classifiers op dezelfde set e-mailvoorbeelden. Zie het gedeelte GEBRUIK hieronder.

Tijdens de voorbereiding, mailcross bouwt een submap met de naam mailcross.d in de current
werkmap. Alle benodigde berekeningen worden in deze submap uitgevoerd.

EXIT STATUS


mailcross geeft 0 terug bij succes, 1 als er een probleem is opgetreden.

COMMANDO'S


voorbereiden grootte
Bereidt een submap voor met de naam mailcross.d in de huidige werkmap, en
vult het met lege submappen voor precies grootte deelverzamelingen.

toevoegen categorie [HET DOSSIER]...
Neemt een reeks e-mails van BESTAND, indien opgegeven, of STDIN, en koppelt deze
Met categorie. Alle e-mails worden willekeurig verdeeld in de submappen van
mailcross.d voor later gebruik. Voor elk categorie, kan dit commando meerdere keren worden herhaald
keer, maar moet minstens één keer worden uitgevoerd.

schoon Verwijdert de map mailcross.d en de gehele inhoud ervan.

leren Voor elke eerder samengestelde subset van e-mailberichten worden alle categorieën vooraf geleerd
gebaseerd op de inhoud van alle subsets behalve deze. De command_argumenten
worden doorgegeven aan MAILCROSS_LEARNER.

lopen Voert de classificatie uit voor elke eerder samengestelde subset van e-mailberichten
gebaseerd op de vooraf geleerde categorieën die verband houden met alles behalve deze subset. De
command_argumenten worden doorgegeven aan MAILCROSS_FILTER.

samenvatten
Drukt statistieken af ​​voor de laatste kruisvalidatierun.

beoordelen echte kat predkat
Scant de laatste run-statistieken en extraheert alle berichten die behoren tot
categorie echte kat maar zijn ingedeeld in categorie predkat. de geëxtraheerde
berichten worden ter inzage gekopieerd naar de map mailcross.d/review.

test pak lijst
Toont een lijst met beschikbare filters/wrapperscripts die kunnen worden geselecteerd.

test pak kiezen [FILTER]...
Bereidt de filter(s) voor met de naam FILTER te gebruiken voor simulatie. De filternaam is
de naam van een wrapper-script dat zich in de map bevindt /usr/share/dbacl/testsuite.
Elk filter heeft een rigide interface die hieronder wordt gedocumenteerd, en de handeling van het selecteren ervan
kopieert het naar de mailcross.d/filters map. Alleen filters die zich daar bevinden, worden gebruikt
in de simulaties.

test pak deselecteren [FILTER]...
Verwijdert de genoemde filter(s) uit de directory mailcross.d/filters zodat ze zijn
niet gebruikt in de simulatie.

test pak lopen
Roept elk geselecteerd filter op de eerder toegevoegde datasets op en berekent
tarieven voor misclassificatie.

test pak toestand
Beschrijft de geplande simulaties.

test pak samenvatten
Toont de kruisvalidatieresultaten voor alle filters. Heeft pas zin na de lopen
opdracht.

GEBRUIK


Het normale gebruikspatroon is als volgt: eerst moet u uw e-mail scheiden
verzameling in verschillende categorieën (handmatig of anderszins). Elke categorie zou moeten zijn:
gekoppeld aan een of meer mappen, maar elke map mag er niet meer dan één bevatten
categorie. Vervolgens moet u beslissen hoeveel subsets u wilt gebruiken, bijvoorbeeld 10. Houd er rekening mee dat dit te veel zijn
subsets zullen de berekeningen snel vertragen. Nu kunt u typen

% mailcross voorbereiding 10

Vervolgens moet u voor elke categorie elke map toevoegen die aan deze categorie is gekoppeld. Veronderstellen
je hebt drie categorieën met de naam spam, werk en spelen, die zijn gekoppeld aan de mbox
bestanden spam.mbox, werk.mbox en speel.mbox respectievelijk. je zou typen

% mailcross spam toevoegen spam.mbox
% mailcross werk werk.mbox toevoegen
% mailcross voeg play play.mbox toe

U kunt nu zoveel simulaties uitvoeren als u wilt. Elke kruisvalidatie bestaat uit een
leer-, een loop- en een samenvattende fase. Deze handelingen worden uitgevoerd op de
classifier gespecificeerd in de variabelen MAILCROSS_FILTER en MAILCROSS_LEARNER. Door in te stellen
Als u deze variabelen op de juiste manier gebruikt, kunt u de classificatieprestaties vergelijken terwijl u de variabelen varieert
opdrachtregelopties van uw classificator(en).

% mailcross leren
% mailcross-run
% mailcross samenvatting

De testsuite-opdrachten zijn ontworpen om de bovenstaande stappen te vereenvoudigen en vergelijking van a
breed scala aan e-mailclassificaties, inclusief maar niet beperkt tot: dbacl. Classificaties zijn
ondersteund door wrapper-scripts, die zich in de /usr/share/dbacl/testsuite
directory.

De eerste stap bij het gebruik van de testsuite is om te beslissen welke classificaties u wilt vergelijken. Jij
kan een lijst met beschikbare wrappers bekijken door te typen:

% mailcross testsuitelijst

Merk op dat de wrapper-scripts NIET de daadwerkelijke e-mailclassificaties zijn, wat moet zijn
apart geïnstalleerd door uw systeembeheerder of anderszins. Zodra dit is gebeurd,
kan een of meer wrappers voor de simulatie selecteren door bijvoorbeeld te typen:

% mailcross testsuite selecteer dbaclA-bestand

Als sommige van de geselecteerde classificaties niet op het systeem kunnen worden gevonden, worden ze niet geselecteerd.
Merk ook op dat sommige wrappers hardgecodeerde categorienamen kunnen hebben, bijv. als de classifier
ondersteunt alleen binaire classificatie. Let op de waarschuwingsberichten.

Het blijft alleen om de simulatie uit te voeren. Let op, dit kan lang duren (enkele uren
afhankelijk van de classificatie).

% mailcross-testsuite uitgevoerd
% mailcross testsuite samenvatting

Als u klaar bent met de simulaties, kunt u de werkbestanden, logbestanden enz. verwijderen.
door te typen

% mailcross schoon

De voortgang van de kruisvalidatie wordt stil in verschillende logbestanden geschreven
in de mailcross.d/log map. Controleer deze bij problemen.

SCRIPT INTERFACE


mailcross test pak zorgt voor het leren en classificeren van uw voorbereide e-mailcorpora voor
elke geselecteerde classificatie. Aangezien classifiers zeer uiteenlopende interfaces hebben, is dit alleen:
mogelijk door die interfaces afzonderlijk in een standaardformulier te wikkelen dat kan worden gebruikt
by mailcross test pak.

Elk wrapper-script is een opdrachtregelprogramma dat een enkele opdracht accepteert gevolgd door nul
of meer optionele argumenten, in de standaardvorm:

wrapper commando [argument]...

Elk wrapper-script maakt ook op een goed gedefinieerde manier gebruik van STDIN en STDOUT. Als Nee
gedrag wordt beschreven, mag er geen output of input worden gebruikt. De mogelijke commando's zijn:
hieronder beschreven:

filter In dit geval wordt een enkele e-mail verwacht op STDIN en een lijst met categoriebestandsnamen
wordt verwacht in $2, $3, etc. Het script schrijft de categorienaam die overeenkomt met
de invoer-e-mail op STDOUT. Er is geen trailing newline vereist of verwacht.

leren In dit geval wordt een standaard mbox-stream verwacht op STDIN, terwijl een geschikte
categorie bestandsnaam wordt verwacht in $2. Er wordt geen uitvoer naar STDOUT geschreven.

clean In dit geval wordt een directory verwacht in $2, die wordt onderzocht op oude database
informatie. Als er oude databases worden gevonden, worden deze opgeschoond of opnieuw ingesteld. Geen uitvoer is
geschreven naar STDOUT.

beschrijven
IN dit geval wordt een enkele regel tekst naar STDOUT geschreven, waarin de filter's worden beschreven
functionaliteit. De lijn moet kort worden gehouden om te voorkomen dat de lijn op een
terminal.

bootstrap
In dit geval wordt een directory verwacht in $2. Het wrapper-script controleert eerst op
het bestaan ​​van de bijbehorende classificatie en andere vereisten. Als de cheque
succesvol is, wordt de wrapper gekloond naar de opgegeven directory. een beleefdheid
melding moet worden gegeven op STDOUT om succes of mislukking uit te drukken. Het is ook
toegestaan ​​om langere beschrijvingen voorbehouden te geven.

teen Gebruikt door mailtoe(1).

voet Gebruikt door postvoet(1).

MILIEU


Direct na het laden, mailcross leest het verborgen bestand .mailcrossrc in de map $HOME,
als het bestaat, zou dit een goede plek zijn om aangepaste waarden voor de omgeving te definiëren
variabelen.

MAILCROSS_FILTER
Deze variabele bevat een shell-opdracht die herhaaldelijk moet worden uitgevoerd tijdens het draaien
fase. De opdracht zou een e-mailbericht op STDIN moeten accepteren en een resultaat moeten geven:
categorie naam. Het zou ook een lijst met categoriebestandsnamen op de opdracht moeten accepteren
lijn. Indien niet gedefinieerd, mailcross gebruikt de standaardwaarde MAILCROSS_FILTER="dbacl -T
email -T xml -v" (en voegt op magische wijze ook de optie -c toe vóór elke categorie).

MAILCROSS_LEARNER
Deze variabele bevat een shell-opdracht die herhaaldelijk moet worden uitgevoerd tijdens de
leerfase. De opdracht moet een mbox-achtige stroom e-mails op STDIN accepteren
learning en de bestandsnaam van de categorie op de opdrachtregel. Indien niet gedefinieerd,
mailcross gebruikt de standaardwaarde MAILCROSS_LEARNER="dbacl -H 19 -T email -T xml
-l".

TEMPDI
Deze directory wordt geëxporteerd ten behoeve van wrapper-scripts. Scripts die nodig hebben
om tijdelijke bestanden te maken, moet u ze op de locatie plaatsen die is opgegeven in TEMPDIR.

OPMERKINGEN


De submap mailcross.d kan behoorlijk groot worden. Het bevat een volledige kopie van de training
corpora, evenals leerbestanden voor grootte keer alle toegevoegde categorieën, en verschillende
logboek bestanden.

WAARSCHUWING


Kruisvalidatie is een veelgebruikte, maar ad-hoc statistische procedure die totaal niets met elkaar te maken heeft
aan de Bayesiaanse theorie, en onderwerp van controverse. Gebruik dit op eigen risico.

BRON


De broncode voor de nieuwste versie van dit programma is beschikbaar op het volgende:
locaties:

http://www.lbreyer.com/gpl.html
http://dbacl.sourceforge.net

Gebruik mailcross online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

  • 1
    SLOK
    SLOK
    SWIG is een tool voor softwareontwikkeling
    dat programma's verbindt die zijn geschreven in C en
    C ++ met een verscheidenheid aan high-level
    programmeertalen. SWIG wordt gebruikt met
    verschillend...
    SWIG downloaden
  • 2
    WooCommerce Nextjs React-thema
    WooCommerce Nextjs React-thema
    Reageer WooCommerce-thema, gebouwd met
    Volgende JS, Webpack, Babel, Node en
    Express, met behulp van GraphQL en Apollo
    Cliënt. WooCommerce Store in React(
    bevat: Producten...
    Download het WooCommerce Nextjs React-thema
  • 3
    archlabs_repo
    archlabs_repo
    Pakketrepo voor ArchLabs Dit is een
    toepassing die ook kan worden opgehaald
    oppompen van
    https://sourceforge.net/projects/archlabs-repo/.
    Het is gehost in OnWorks in...
    Archlabs_repo downloaden
  • 4
    Zephyr-project
    Zephyr-project
    Het Zephyr Project is een nieuwe generatie
    real-time besturingssysteem (RTOS) dat
    ondersteunt meerdere hardware
    architecturen. Het is gebaseerd op een
    kernel met kleine voetafdruk ...
    Zephyr-project downloaden
  • 5
    SConen
    SConen
    SCons is een softwareconstructietool
    dat is een superieur alternatief voor de
    klassieke "Make" build-tool die
    we kennen en houden allemaal van. SCons is
    implementeerde een...
    SCons downloaden
  • 6
    PSeInt
    PSeInt
    PSeInt is een pseudo-code-interpreter voor
    Spaanstalige programmeerstudenten.
    Het belangrijkste doel is om een ​​hulpmiddel te zijn voor:
    de basis leren en begrijpen
    concept...
    PSeInt downloaden
  • Meer "

Linux-commando's

  • 1
    7z
    7z
    7z - Een bestandsarchiveringstool met de hoogste
    compressieverhouding ...
    Loop 7z
  • 2
    7za
    7za
    7za - Een bestandsarchiveringstool met de hoogste
    compressieverhouding ...
    Loop 7za
  • 3
    griezelig
    griezelig
    CREEPY - Een geolocatie-informatie
    aggregator BESCHRIJVING: griezelig is een
    applicatie waarmee u kunt verzamelen
    geolocatie gerelateerde informatie over
    gebruikers van ...
    Loop griezelig
  • 4
    cricket-compileren
    cricket-compileren
    cricket - Een programma om de
    verzameling en weergave van tijdreeksen
    gegevens ...
    Voer cricket-compilatie uit
  • 5
    g-wrap-config
    g-wrap-config
    g-wrap-config - script om te krijgen
    informatie over de geïnstalleerde versie
    van G-wrap ...
    Voer g-wrap-config uit
  • 6
    g.toegangsgras
    g.toegangsgras
    g.access - Beheert de toegang tot de
    huidige kaartenset voor andere gebruikers op de
    systeem. Als er geen optie wordt gegeven, drukt u af
    huidige status. KEYWORDS: algemeen, kaart
    management, pr...
    Voer g.accessgrass uit
  • Meer "

Ad