GoGPT Best VPN GoSearch

Favicon OnWorks

bogofilter-sqlite - Online în cloud

Rulați bogofilter-sqlite în furnizorul de găzduire gratuit OnWorks prin Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS

Aceasta este comanda bogofilter-sqlite care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS

PROGRAM:

NUME


bogofilter - filtru de spam bayesian rapid

REZUMAT


bogofiltru [opțiuni de ajutor | opțiuni de clasificare | opțiuni de înregistrare |
opțiunile parametrilor | opțiuni de informații] [opțiuni generale] [opțiuni fișier de configurare]

Unde

ajutor Opțiuni sunt:

[-h] [--help] [-V] [-Q]

clasificare Opțiuni sunt:

[-p] [-e] [-t] [-T] [-u] [-H] [-M] [-b] [-B obiect ...] [-R] [opțiuni generale]
[opțiuni parametri] [opțiuni fișier de configurare]

înregistrare Opțiuni sunt:

[-s | -n] [-S | -N] [opțiuni generale]

general Opțiuni sunt:

[-c nume de fișier] [-C] [-d dir] [-k mărimea cache-ului] [-ll etichetă] [-I nume de fișier] [-O nume de fișier]

parametru Opțiuni sunt:

[-E valoare[,valoare]] [-m valoare[,valoare][,valoare]] [-O valoare[,valoare]]

info Opțiuni sunt:

[-v] [-y data] [-D] [-x steaguri]

config fişier Opțiuni sunt:

[--opțiune=valoare]

Notă: Utilizați bogofiltru --Ajutor pentru a afișa lista completă de opțiuni.

DESCRIERE


Bogofilter este un filtru bayesian de spam. În modul normal de funcționare, este nevoie de un e-mail
mesaj sau alt text la intrarea standard, face o verificare statistică pe listele de „bun”
și cuvinte „rele” și returnează un cod de stare care indică dacă mesajul este sau nu spam.
Bogofilter este proiectat cu un algoritm rapid, folosește Berkeley DB pentru pornire rapidă și
căutări, codificate direct în C și reglate pentru viteză, astfel încât să poată fi utilizat pentru producție de
site-uri care procesează o mulțime de e-mailuri.

TEORIE OF OPERAȚIUNEA


Bogofilter tratează intrarea sa ca pe un sac de jetoane. Fiecare jeton este verificat cu o listă de cuvinte,
care menține contorizarea numărului de ori a apărut în e-mailuri non-spam și spam.
Aceste numere sunt folosite pentru a calcula o estimare a probabilității ca un mesaj în care
simbolul care apare este spam. Acestea sunt combinate pentru a indica dacă mesajul este spam sau
șuncă.

Deși această metodă sună grosolană în comparație cu abordarea mai obișnuită de potrivire a modelelor, ea
se dovedește a fi extrem de eficient. Hârtia lui Paul Graham A Planifică Pentru Spam[1] este recomandat
citind.

Acest program îmbunătățește substanțial propunerea lui Paul, făcând o analiză lexicală mai inteligentă.
Bogofilter face o decodare MIME adecvată și o analiză HTML rezonabilă. Tipuri speciale de
jetoanele precum numele de gazdă și adresele IP sunt păstrate ca caracteristici de recunoaștere, mai degrabă decât
spart. Diferite tipuri de MTA cruft, cum ar fi datele și ID-urile mesajelor sunt ignorate pentru a nu
a umfla lista de cuvinte. Jetoanele găsite în diferite câmpuri de antet sunt marcate corespunzător.

O altă îmbunătățire este că acest program oferă modificările sugerate de Gary Robinson la
calculele (vezi mai jos parametrii robx și robs). Aceste modificări sunt
descrise în lucrarea lui Robinson Spam Detectare[2].

De atunci, Robinson (vezi articolul său din Linux Journal A Statistic Abordarea la il Spam
Problemă[3]) și alții au realizat că calculul poate fi optimizat în continuare folosind
metoda lui Fisher. O alta îmbunătățire[4] compensează redundanța token-ului prin aplicare
separați factorii de dimensiune efectivă (ESF) pentru calculele probabilității spam și nonspam.

Pe scurt, așa funcționează: estimările pentru probabilitățile de spam ale individului
jetoanele sunt combinate folosind „funcția inversă chi-pătrat”. Valoarea lui indică cât de rău
ipoteza nulă că mesajul este doar o colecție aleatorie de cuvinte independente cu
probabilitățile date de estimările noastre anterioare eșuează. Această funcție este foarte sensibilă la
probabilități mici (cuvinte hammish), dar nu și probabilități mari (cuvinte spam); asa de
valoarea indică doar semne puternice de hammish într-un mesaj. Acum folosind invers
probabilități pentru jetoane, același calcul se face din nou, dând un indicator că
un mesaj pare puternic spam. În cele din urmă, acești doi indicatori sunt scăzuți (și
scalat într-un interval de 0-1). Acest indicator combinat (bogosity) este aproape de 0 dacă semnele
pentru un mesaj hammish sunt mai puternice decât pentru un mesaj spam și aproape de 1 dacă
situatia este inversa. Dacă semnele pentru ambele sunt la fel de puternice, valoarea va fi
aproape de 0.5. Deoarece mesajele respective nu dau o indicație clară, există un mod triestat
bogofilter pentru a marca acele mesaje ca nesigure, în timp ce mesajele clare sunt marcate ca spam
sau respectiv șuncă. În modul cu două stări, fiecare mesaj este marcat fie ca spam, fie ca ham.

Diferiți parametri influențează aceste calcule, cei mai importanți sunt:

robx: scorul acordat unui jeton care nu a mai văzut. robx este probabilitatea ca
jetonul este spam.

robs: o greutate pe robx care mută probabilitatea unui jeton puțin văzut către robx.

min-dev: o distanță minimă de la 5 pentru ca jetoanele să fie utilizate în calcul. Doar jetoane
sunt utilizate mai departe de 0.5 decât această valoare.

spam-cutoff: mesajele cu scoruri mai mari sau egale cu vor fi marcate ca spam.

ham-cutoff: dacă zero sau spam-cutoff, toate mesajele cu valori strict sub spam-cutoff
sunt marcate ca șuncă, toate celelalte ca spam (cu două stări). Altfel valori mai mici sau egale cu
ham-cutoff sunt marcate ca ham, mesajele cu valori strict intre ham-cutoff si
spam-cutoff sunt marcate ca nesigur; restul ca spam (tristat)

sp-esf: factorul de dimensiune efectivă (ESF) pentru spam.

ns-esf: ESF pentru non-spam. Aceste valori ESF sunt implicite la 1.0, care este la fel ca nu
folosind ESF în calcul. Valorile potrivite pentru populația de e-mail a unui utilizator pot fi
determinată cu ajutorul programului bogotune.

OPŢIUNI


OPȚIUNI DE AJUTOR

-h opțiunea imprimă mesajul de ajutor și iese.

-V opțiunea imprimă numărul versiunii și iese.

-Q opțiunea (interogare) imprimă configurația bogofilterului, adică parametrii de înregistrare,
opțiuni de analiză, directorul bogofilter etc.

OPTIUNI DE CLASIFICARE

-p Opțiunea (passthrough) scoate mesajul cu o linie X-Bogosity la sfârșitul
antetul mesajului. Acest lucru necesită păstrarea întregului mesaj în memorie atunci când este citit
stdin (sau dintr-o țeavă sau priză). Dacă mesajul este citit dintr-un fișier care poate fi derulat înapoi,
bogofilter îl va citi a doua oară.

-e Opțiunea (incorporare) îi spune bogofilterului să iasă cu codul 0 dacă mesajul poate fi
clasificate, adică dacă nu există o eroare. În mod normal, bogofilter folosește coduri diferite pentru
spam, ham și clasificări nesigure, dar acest lucru simplifică utilizarea bogofilter cu procmail
sau maildrop.

-t opțiunea (concisă) îi spune bogofilter să imprime un mesaj abreviat de spamicitate
conţinând 1 literă şi scorul. Spamul este indicat cu „Y”, ham cu „N” și nesigur cu
„U”. Notă: formatarea poate fi personalizată folosind fișierul de configurare.

-T oferă un mod concis invariant pentru scripturi de utilizat. bogofilter va imprima o
mesaj prescurtat de spamicitate care conține 1 literă și scorul. Spam-ul este indicat cu
„S”, șuncă cu „H”, și nesigur cu „U”.

-TT oferă un mod concis invariant pentru scripturi de utilizat. Bogofilter imprimă numai
scor și îl afișează la 16 cifre semnificative.

-u opțiunea îi spune bogofilter să înregistreze textul mesajului după ce l-a clasificat ca spam
sau non-spam. Un mesaj spam va fi înregistrat în lista de spam și un mesaj non-spam
lista bună. Dacă clasificarea este „nesigură”, mesajul nu va fi înregistrat.
În mod efectiv, această opțiune rulează bogofilter cu -s or -n pavilion, după caz. Atenția este
îndemnat în utilizarea acestei capabilități, deoarece orice erori de clasificare pe care le poate face bogofilter vor
se păstrează și se va acumula până la corectarea manuală cu -Sn și -Ns opțiune
combinatii. Rețineți că această opțiune face ca baza de date să fie deschisă pentru acces la scriere, ceea ce
poate implica încetiniri masive prin dispută de blocare și operațiuni I/O sincrone.

-H opțiunea îi spune lui bogofilter să nu eticheteze jetoanele din antet. Această opțiune este pentru
testare, nu ar trebui să-l utilizați în funcționare normală.

-M opțiunea îi spune lui bogofilter să-și proceseze intrarea ca fișier formatat mbox. Dacă -v or
-t este de asemenea dată opțiunea, se va imprima o linie de spamicitate pentru fiecare mesaj.

-b (modul de difuzare în bloc) îi spune lui bogofilter să clasifice mai multe obiecte ale căror
numele sunt citite din stdin. Dacă -v or -t este de asemenea dată opțiunea, bogofilter va imprima a
linie care oferă numele fișierului și informațiile de clasificare pentru fiecare fișier. Aceasta este o alternativă
la -B care listează obiecte pe linia de comandă.

Un obiect în acest context va fi un maildir (detectat automat), sau dacă nu este un maildir, a
poştă unică dacă nu -M este dat - în acest caz este procesat ca mbox. (Lungimea conținutului:
antetul nu este luat în considerare în prezent.)

Când citește formatul mbox, bogofilter se bazează pe linia goală după un e-mail. Daca este nevoie,
formail -es se va asigura că acesta este cazul.

-B obiect ... Opțiunea (mod în bloc) îi spune lui bogofilter să clasifice mai multe obiecte numite
pe linia de comandă. Obiectele pot fi nume de fișiere (pentru mesaje individuale), cutii poștale (fișiere
cu mai multe mesaje) sau directoare (în format maildir și MH). Dacă -v or -t opțiune
este de asemenea dat, bogofilter va tipări o linie care va oferi numele și clasificarea fișierului
informații pentru fiecare fișier. Aceasta este o alternativă la -b care listează obiecte pe stdin.

-R opțiunea îi spune lui bogofilter să scoată un cadru de date R sub formă de text pe standard
ieșire. Consultați secțiunea despre integrarea cu R, de mai jos, pentru mai multe detalii.

OPȚIUNI DE ÎNREGISTRARE

-s opțiunea îi spune bogofilter să înregistreze textul prezentat ca spam. Baza de date este
creat dacă lipsește.

-n opțiunea îi spune bogofilter să înregistreze textul prezentat ca non-spam.

Bogofilter nu detectează dacă un mesaj a fost înregistrat de două ori. Dacă faci asta din întâmplare,
Numărul de jetoane se va reduce cu 1 față de ceea ce doriți cu adevărat și scorurile de spam corespunzătoare
va fi ușor dezactivat. Având în vedere un număr mare de jetoane și mesaje în lista de cuvinte, aceasta
nu contează. Problema poate să fi corectat folosind -S sau opțiunea -N opțiune.

-S opțiunea îi spune bogofilter să anuleze o înregistrare anterioară a aceluiași mesaj ca spam.
Dacă un mesaj a fost introdus incorect ca spam de către -s or -u și vrei să-l elimini și
introduceți-l ca non-spam, utilizați -Sn. Dacă -S este folosit pentru un mesaj care nu a fost înregistrat ca spam,
numerele vor fi tot diminuate.

-N opțiunea îi spune bogofilter să anuleze o înregistrare anterioară a aceluiași mesaj ca
non-spam. Dacă un mesaj a fost introdus incorect ca non-spam de către -n or -u și tu vrei
eliminați-l și introduceți-l ca spam, apoi utilizați -Ns. Dacă -N este folosit pentru un mesaj care nu a fost
înregistrate ca non-spam, contorizarea va fi în continuare diminuată.

OPTIUNI GENERALE

-c nume de fișier opțiunea îi spune bogofilter să citească fișierul de configurare numit.

-C opțiunea împiedică bogofilter să citească fișierele de configurare.

-d dir opțiunea vă permite să setați directorul pentru baza de date. Vezi MEDIUL
secțiunea pentru alte opțiuni de setare a directorului.

-k mărimea cache-ului opțiunea setează dimensiunea cache-ului pentru subsistemul BerkeleyDB, în unități de 1
MiB (1,048,576 de octeți). Dimensiunea corectă a memoriei cache îmbunătățește performanța bogofilterului. The
dimensiunea recomandată este o treime din dimensiunea fișierului bazei de date. Puteți rula bogotune
script (în directorul de reglare) pentru a determina dimensiunea recomandată.

-l opțiunea scrie o linie informațională în jurnalul de sistem de fiecare dată când bogofilter este rulat.
Informațiile înregistrate depind de modul în care este rulat bogofilter.

-L etichetă opțiunea configurează o etichetă care poate fi inclusă în informațiile înregistrate
langa -l opțiunea, dar necesită un format personalizat care include șirul %l pentru moment.
Această opțiune implică -l.

-I nume de fișier opțiunea îi spune lui bogofilter să citească, mai degrabă, intrarea din fișierul specificat
decât din stdin.

-O nume de fișier opțiunea îi spune lui bogofilter unde să scrie rezultatul în modul passthrough.
Rețineți că acest lucru funcționează numai atunci când -p este dat în mod explicit.

OPȚIUNI DE PARAMETRI

-E valoare[,valoare] opțiunea permite setarea valorii sp-esf și a valorii ns-esf. Cu doi
valori, atât sp-esf cât și ns-esf sunt setate. Dacă este dată o singură valoare, parametrii sunt setați ca
descrise în nota de mai jos.

-m valoare[,valoare][,valoare] opțiunea permite setarea valorii min-dev și, opțional, a
robs și robx values. Cu trei valori, min-dev, robs și robx sunt toate setate. Daca mai putini
sunt date valori, parametrii sunt setați așa cum este descris în nota de mai jos.

-o valoare[,valoare] opțiunea permite setarea valorilor spam-cutoff ham-cutoff. Cu doi
valorile, atât spam-cutoff cât și ham-cutoff sunt setate. Dacă este dată o singură valoare, parametrii
sunt setate așa cum este descris în nota de mai jos.

Notă: Toate aceste opțiuni permit furnizarea de mai puține valori. Valorile pot fi sărite de
folosind doar delimitatorul virgulă, caz în care parametrul(ii) corespunzător(i) nu vor fi
schimbat. Dacă este furnizată doar prima valoare, atunci este setat doar primul parametru.
Valorile finale pot fi sărite, caz în care parametrii corespunzători nu vor fi
schimbat. În lista de parametri, spațiile nu sunt permise după virgule.

OPȚIUNI DE INFORMAȚII

-v opțiunea produce un raport la ieșirea standard pe analiza de intrare de către bogofilter.
Fiecare suplimentar v va crește verbozitatea ieșirii, până la maximum 4. Cu
-vv, raportul listează jetoanele cu cea mai mare abatere de la o asociere medie de 0.5
cu spam.

Opțiune -y data poate fi folosit pentru a suprascrie data curentă la marcarea temporală a jetoanelor. O valoare
de zero (0) dezactivează marcarea temporală.

-D opțiunea redirecționează ieșirea de depanare către stdout.

-x steaguri opțiunea permite setarea steagurilor de depanare pentru tipărirea informațiilor de depanare. Vedea
fișier antet debug.h pentru lista de steaguri utilizabile.

CONFIG OPȚIUNI DE FIȘIER

Folosind GNU longopt -- sintaxă, un fișier de configurare nume=valoare declarația devine o linie de comandă
--opțiune=valoare. Utilizați comanda bogofiltru --Ajutor pentru o listă de opțiuni și vezi
bogofilter.cf.example pentru mai multe informații despre ele. De exemplu, pentru a schimba antetul X-Bogosity
la „X-Spam-Header”, utilizați:

--spam-header-name=X-Spam-Header

MEDIUL


Bogofilter folosește un director al bazei de date, care poate fi setat în fișierul de configurare. Dacă nu se setează
acolo, bogofilter va folosi valoarea lui BOGOFILTER_DIR. Ambele pot fi depășite de -d
dir opțiune. Dacă nimic nu este disponibil, bogofilter va folosi directorul $HOME/.bogofilter.

CONFIGURARE


Linia de comandă bogofilter permite setarea mai multor opțiuni care determină modul în care bogofilter
opereaza. Fișierul /etc/bogofilter.cf poate fi folosit pentru a seta parametri suplimentari care îi afectează
Operațiune. Fișierul /etc/bogofilter.cf.example are mostre ale tuturor parametrilor. stare
iar mesajele de înregistrare pot fi personalizate pentru fiecare site.

A REVENI VALORI


0 pentru spam; 1 pentru non-spam; 2 pentru nesigur; 3 pentru I/O sau alte erori.

Dacă ambele -p și -e sunt utilizate, valorile returnate sunt: ​​0 pentru spam sau non-spam; 3 pentru I/O sau
alte erori.

Eroarea 3 înseamnă de obicei că fișierul liste de cuvinte pe care bogofilter vrea să îl citească la pornire este
lipsește sau hard disk-ul s-a umplut -p Mod.

INTEGRARE CU ALTE UNELTE


Utilizați cu procmail

Următoarea rețetă (a) spam-bină tot ceea ce bogofilter evaluează ca spam, (b) înregistrează
cuvintele din mesajele evaluate drept spam ca atare și (c) înregistrează cuvintele din mesajele evaluate
ca non-spam ca atare. Cu acest lucru în loc, în mod normal va fi necesar doar pentru utilizator
a interveni (cu -Ns or -Sn) când bogofilter categorizează greșit ceva.

# filtrează e-mailurile prin bogofilter, etichetându-l ca Ham, Spam sau Nesigur,
# și actualizarea listei de cuvinte

:0fw
| bogofilter -u -e -p

# dacă bogofilter a eșuat, returnați e-mailul în coadă;
# MTA va încerca din nou să-l livreze mai târziu
# 75 este valoarea pentru EX_TEMPFAIL în /usr/include/sysexits.h

:0e
{ EXITCODE=75 HOST }

# trimiteți e-mailul la spam-bogofilter dacă este spam.

: 0:
* ^X-Bogosity: Spam, teste=bogofilter
spam-bogofilter

# trimite e-mailul la unsure-bogofilter
# dacă nu este nici șuncă, nici spam.

: 0:
* ^X-Bogosity: Nesigur, teste=bogofilter
nesigur-bogofilter

# Cu această rețetă, puteți antrena bogofilter începând cu un gol
# listă de cuvinte. Asigurați-vă că vă verificați în mod regulat folderul nesigur, luați
# de mesaje scoase din el, clasifică-le ca ham (sau spam) și folosește-le pentru
# tren bogofilter.

Următoarea regulă procmail va prelua e-mailul pe stdin și îl va salva în fișierul spam dacă bogofilter
crede ca este spam:

:0HB:
* ? bogofiltru
spam-

iar această regulă similară va înregistra și jetoanele în e-mail conform
clasificare bogofilter:

:0HB:
* ? bogofilter -u
spam-

Dacă bogofilter eșuează (returnând 3) mesajul va fi tratat ca non-spam.

Acesta este pentru maildrop, amână automat e-mailul și reîncearcă mai târziu când
Comanda xfilter eșuează, utilizați aceasta în dvs ~/.mailfilter:

xfilter "bogofilter -u -e -p"
if (/^X-Bogosity: Spam, teste=bogofilter/)
{
la "spam-bogofilter"
}

Următoarele linii .muttrc vor crea macrocomenzi mutt pentru expedierea e-mailurilor către bogofilter.

indice macro d " dezactivați cheia_așteaptă\n\
bogofilter -n\n\
setați cheia_așteaptă\n\
" "Ștergeți mesajul ca non-spam"
index macro \ed " dezactivați cheia_așteaptă\n\
bogofilter -s\n\
setați cheia_așteaptă\n\
" "Ștergeți mesajul ca spam"

Integrare cu Mail Transport Agent (MTA)

1. bogofilter poate fi, de asemenea, integrat într-un MTA pentru a filtra toate mesajele primite. In timp ce
implementarea specifică depinde de MTA, pașii generali sunt următorii:

2. Instalați bogofilter pe serverul de e-mail

3. Îmbunătățiți bazele de date bogofilter cu un corpus de spam și non-spam. Din moment ce bogofilter va
pentru a deservi o comunitate mai mare, este important să o pregătiți cu un set reprezentativ
a mesajelor.

4. Configurați MTA pentru a invoca bogofilter pentru fiecare mesaj. Deși acesta este un MTA specific
pas, probabil va trebui să utilizați -p, -u și -e opțiuni.

5. Configurați un mecanism pentru ca utilizatorii să înregistreze mesajele spam/non-spam, precum și să le corecteze
clasificări greșite. Cea mai generală soluție este să configurați adrese de e-mail alias
pe care utilizatorii transmit mesaje.

6. Consultați directoarele doc și contrib pentru mai multe informații.

Utilizarea lui R pentru a verifica calculele bogofilter

Opțiunea -R îi spune lui bogofilter să genereze un cadru de date R. Cadrul de date conține unul
rând pe jeton analizat. Fiecare astfel de rând conține jetonul, suma bazei de date „bună”
și numărul de „spam”, numărul „bun” împărțit la numărul de mesaje non-spam utilizate pentru
creați baza de date de instruire, numărul de „spam” împărțit la numărul de mesaje spam,
f(w) lui Robinson pentru jeton, jurnalele naturale ale (1 - f(w)) și f(w) și un indicator
caracter (+ dacă valoarea f(w) a jetonului a depășit abaterea minimă de la 0.5, - dacă
nu a făcut-o). Există un rând suplimentar la sfârșitul tabelului care conține o etichetă în
câmp de simbol, urmat de numărul de cuvinte efectiv utilizate (cele cu + indicatori),
Valorile lui Robinson P, Q, S, s și x și abaterea minimă.

Cadrul de date R poate fi salvat într-un fișier și apoi citit într-o sesiune R (vezi il R
proiect [5] pentru informații despre pachetul de matematică R). Prevăzut cu
distribuția bogofilter este un script R simplu (fișier bogo.R) care poate fi folosit pentru verificare
calculele lui bogofilter. Instrucțiunile pentru utilizarea acestuia sunt incluse în scriptul din formular
de comentarii.

LOG MESAJE


Bogofilter scrie mesaje în jurnalul de sistem atunci când -l este utilizată opțiunea. Ce este scris
depinde de ce alte steaguri sunt folosite.

Se va genera o rundă de clasificare (nu arătăm aici data și partea gazdă):

bogofilter[1412]: X-Bogosity: Ham, spamicity=0.000227
bogofilter[1415]: X-Bogosity: Spam, spamicitate=0.998918

Utilizarea -u pentru a clasifica un mesaj și a actualiza o listă de cuvinte va produce (una pe o singură linie):

bogofilter[1426]: X-Bogosity: Spam, spamicitate=0.998918,
registru -s, 329 cuvinte, 1 mesaje

Înregistrarea cuvintelor (-l și -s, -n, -S, -N) va produce:

bogofilter[1440]: register-n, 255 cuvinte, 1 mesaje

O rulare de înregistrare (folosind -s, -n, -N, -S) va genera mesaje precum:

bogofilter[17330]: register-n, 574 cuvinte, 3 mesaje
bogofilter[6244]: register-s, 1273 cuvinte, 4 mesaje

Utilizați bogofilter-sqlite online folosind serviciile onworks.net


Servere și stații de lucru gratuite

Descărcați aplicații Windows și Linux

Comenzi Linux

Ad




×
publicitate
❤️Cumpără, rezervă sau cumpără aici — gratuit, contribuind la menținerea serviciilor gratuite.