GoGPT Best VPN GoSearch

Favicon di OnWorks

bogofilter - Online nel cloud

Esegui bogofilter nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando bogofilter che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


bogofilter - filtro antispam bayesiano veloce

SINOSSI


bogofiltro [opzioni di aiuto | opzioni di classificazione | opzioni di registrazione |
opzioni dei parametri | opzioni info] [opzioni generali] [opzioni file di configurazione]

where

Aiuto Opzioni siamo:

[-h] [--aiuto] [-V] [-Q]

classificazione Opzioni siamo:

[-p] [-e] [-t] [-T] [-u] [-H] [-M] [-b] [-B oggetto ...] [-R] [opzioni generali]
[opzioni parametro] [opzioni file di configurazione]

Registrazione Opzioni siamo:

[-s | -n] [-S | -N] [opzioni generali]

generale Opzioni siamo:

[-C Nome del file] [-Cd dir] [-K dimensione della cache] [-ll etichetta] [-IO Nome del file] [-O Nome del file]

parametro Opzioni siamo:

[-E valore[,valore]] [-M valore[,valore][,valore]] [-O valore[,valore]]

Maggiori informazioni. Opzioni siamo:

[-v] [-y quando] [-D] [-x bandiere]

config filetto Opzioni siamo:

[--opzione=valore]

Nota: utilizzare bogofiltro --Aiuto per visualizzare l'elenco completo delle opzioni.

DESCRIZIONE


Bogofilter è un filtro antispam bayesiano. Nella sua normale modalità di funzionamento, richiede un'e-mail
messaggio o altro testo su input standard, esegue un controllo statistico rispetto a elenchi di "buoni"
e parole "cattive" e restituisce un codice di stato che indica se il messaggio è spam o meno.
Bogofilter è progettato con un algoritmo veloce, utilizza il Berkeley DB per un avvio rapido e
ricerche, codificate direttamente in C e sintonizzate per la velocità, quindi può essere utilizzato per la produzione da
siti che elaborano molta posta.

TEORIA OF FUNZIONAMENTO


Bogofilter tratta il suo input come un sacco di gettoni. Ogni token viene confrontato con un elenco di parole,
che mantiene i conteggi del numero di volte in cui si è verificato nelle e-mail non spam e spam.
Questi numeri vengono utilizzati per calcolare una stima della probabilità che un messaggio in cui
il token si verifica è spam. Questi sono combinati per indicare se il messaggio è spam o
lui.

Sebbene questo metodo sembri rozzo rispetto al più comune approccio di corrispondenza dei modelli, è
risulta essere estremamente efficace. L'articolo di Paul Graham A Pianifica Da Spam[1] è consigliato
lettura.

Questo programma migliora sostanzialmente la proposta di Paul effettuando un'analisi lessicale più intelligente.
Bogofilter esegue la corretta decodifica MIME e un'analisi ragionevole dell'HTML. Tipi speciali di
token come nomi host e indirizzi IP vengono mantenuti come funzioni di riconoscimento anziché
infranto. Vari tipi di cruft MTA come date e ID messaggio vengono ignorati così come no
per gonfiare l'elenco delle parole. I token trovati in vari campi di intestazione sono contrassegnati in modo appropriato.

Un altro miglioramento è che questo programma offre le modifiche suggerite da Gary Robinson a
i calcoli (vedere i parametri robx e robs di seguito). Queste modifiche sono
descritto nell'articolo di Robinson Spam rivelazione[2].

Da allora, Robinson (vedi il suo articolo sul Linux Journal A Statistico Approccio a , il Spam
Problema[3]) e altri si sono resi conto che il calcolo può essere ulteriormente ottimizzato utilizzando
Il metodo di Fisher. Un altro miglioramento[4] compensa la ridondanza del token applicando
separare i fattori di dimensione effettiva (ESF) per i calcoli di probabilità di spam e non spam.

In breve, ecco come funziona: le stime per le probabilità di spam dell'individuo
i token vengono combinati utilizzando la "funzione chi-quadrato inverso". Il suo valore indica quanto male
l'ipotesi nulla che il messaggio sia solo una raccolta casuale di parole indipendenti con
probabilità fornite dalle nostre stime precedenti falliscono. Questa funzione è molto sensibile a
probabilità piccole (parole hammish), ma non ad alte probabilità (parole spam); così
il valore indica solo forti segni di hammish in un messaggio. Ora usando l'inverso
probabilità per i token, lo stesso calcolo viene ripetuto, fornendo un indicatore che
un messaggio sembra fortemente spam. Infine, questi due indicatori vengono sottratti (e
ridimensionato in un intervallo 0-1). Questo indicatore combinato (bogosity) è vicino a 0 se i segni
per un messaggio hammish sono più forti che per un messaggio spam e vicino a 1 se il
la situazione è al contrario. Se i segni per entrambi sono ugualmente forti, il valore sarà
vicino a 0.5. Dal momento che quei messaggi non danno una chiara indicazione che c'è una modalità a tre stati in
bogofilter per contrassegnare quei messaggi come non sicuri, mentre i messaggi chiari sono contrassegnati come spam
o prosciutto, rispettivamente. Nella modalità a due stati, ogni messaggio è contrassegnato come spam o ham.

Vari parametri influenzano questi calcoli, i più importanti sono:

robx: il punteggio assegnato a un token che non ha mai visto prima. robx è la probabilità che
il token è spam.

robs: un peso su robx che sposta la probabilità di un token poco visto verso robx.

min-dev: una distanza minima da 5 per i token da utilizzare nel calcolo. Solo token
più lontano da 0.5 di questo valore vengono utilizzati.

spam-cutoff: i messaggi con punteggi maggiori o uguali a verranno contrassegnati come spam.

ham-cutoff: se zero o spam-cutoff, tutti i messaggi con valori rigorosamente inferiori a spam-cutoff
sono contrassegnati come ham, tutti gli altri come spam (a due stati). Altri valori inferiori o uguali a
ham-cutoff sono contrassegnati come ham, i messaggi con valori rigorosamente compresi tra ham-cutoff e
spam-cutoff sono contrassegnati come incerti; il resto come spam (tristato)

sp-esf: il fattore di dimensione effettiva (ESF) per lo spam.

ns-esf: l'ESF per il non spam. Questi valori ESF sono predefiniti su 1.0, che equivale a not
utilizzando ESF nel calcolo. I valori adatti alla popolazione di posta elettronica di un utente possono essere
determinato con l'aiuto del programma bogotune.

VERSIONI


OPZIONI DI AIUTO

. -h opzione stampa il messaggio di aiuto ed esce.

. -V opzione stampa il numero di versione ed esce.

. -Q (query) stampa la configurazione di bogofilter, cioè i parametri di registrazione,
opzioni di analisi, directory bogofilter, ecc.

OPZIONI DI CLASSIFICAZIONE

. -p (passthrough) emette il messaggio con una linea X-Bogosity alla fine del
intestazione del messaggio. Ciò richiede di mantenere l'intero messaggio in memoria quando viene letto da
stdin (o da una pipe o socket). Se il messaggio viene letto da un file che può essere riavvolto,
bogofilter lo leggerà una seconda volta.

. -e (incorpora) l'opzione dice a bogofilter di uscire con il codice 0 se il messaggio può essere
classificato, cioè se non c'è un errore. Normalmente bogofilter utilizza codici diversi per
spam, ham e classificazioni incerte, ma questo semplifica l'uso di bogofilter con procmail
o posta.

. -t L'opzione (conciso) dice a bogofilter di stampare un messaggio di spam abbreviato
contenente 1 lettera e il punteggio. Lo spam è indicato con "Y", ham con "N" e insicuro con
"U". Nota: la formattazione può essere personalizzata utilizzando il file di configurazione.

. -T fornisce una modalità concisa invariante per gli script da utilizzare. bogofilter stamperà un
messaggio di spam abbreviato contenente 1 lettera e il punteggio. Lo spam è indicato con
"S", prosciutto per "H" e incerto per "U".

. -TT fornisce una modalità concisa invariante per gli script da utilizzare. Bogofilter stampa solo il
punteggio e lo visualizza a 16 cifre significative.

. -u opzione dice a bogofilter di registrare il testo del messaggio dopo averlo classificato come spam
o non spam. Un messaggio spam verrà registrato nella lista spam e un messaggio non spam su
la buona lista. Se la classificazione è "incerta", il messaggio non verrà registrato.
In effetti questa opzione esegue bogofilter con il -s or -n bandiera, a seconda dei casi. La cautela è
sollecitato nell'uso di questa capacità, poiché qualsiasi errore di classificazione che bogofilter può commettere sarà
essere preservato e si accumulerà fino a quando non sarà corretto manualmente con il -Sn e -Ns opzione
combinazioni. Nota che questa opzione fa sì che il database venga aperto per l'accesso in scrittura, che
può comportare rallentamenti massicci attraverso la contesa dei blocchi e le operazioni di I/O sincrone.

. -H opzione dice a bogofilter di non taggare i token dall'intestazione. Questa opzione è per
test, non dovresti usarlo durante il normale funzionamento.

. -M opzione dice a bogofilter di elaborare il suo input come un file formattato mbox. Se la -v or
-t viene data anche l'opzione, verrà stampata una riga di spam per ogni messaggio.

. -b (streaming bulk mode) l'opzione dice a bogofilter di classificare più oggetti di cui
i nomi vengono letti da stdin. Se la -v or -t viene data anche l'opzione, bogofilter stamperà a
riga che fornisce il nome del file e le informazioni sulla classificazione per ciascun file. Questa è un'alternativa
a -B che elenca gli oggetti sulla riga di comando.

Un oggetto in questo contesto deve essere una maildir (rilevata automaticamente), o se non è una maildir, un
posta singola a meno che -M è dato - in tal caso viene elaborato come mbox. (La lunghezza del contenuto:
l'intestazione non è attualmente presa in considerazione.)

Quando si legge il formato mbox, bogofilter si basa sulla riga vuota dopo un messaggio di posta. Se necessario,
forma -es farà in modo che questo sia il caso.

. -B oggetto ... (modalità bulk) l'opzione dice a bogofilter di classificare più oggetti nominati
sulla riga di comando. Gli oggetti possono essere nomi di file (per messaggi singoli), caselle di posta (file
con più messaggi) o directory (di formato maildir e MH). Se la -v or -t opzione
viene anche fornito, bogofilter stamperà una riga che fornisce il nome del file e la classificazione
informazioni per ogni file. Questa è un'alternativa a -b che elenca gli oggetti su stdin.

. -R l'opzione dice a bogofilter di produrre un frame di dati R in forma di testo sullo standard
produzione. Vedere la sezione sull'integrazione con R, di seguito, per ulteriori dettagli.

OPZIONI DI REGISTRAZIONE

. -s opzione dice a bogofilter di registrare il testo presentato come spam. Il database è
creato se assente.

. -n opzione dice a bogofilter di registrare il testo presentato come non spam.

Bogofilter non rileva se un messaggio è stato registrato due volte. Se lo fai per sbaglio, il
il conteggio dei token diminuirà di 1 da ciò che desideri veramente e dai corrispondenti punteggi di spam
sarà leggermente spento. Dato un gran numero di token e messaggi nell'elenco di parole, questo
non importa. Il problema può essere corretto utilizzando il -S opzione o il -N opzione.

. -S opzione dice a bogofilter di annullare una registrazione precedente dello stesso messaggio come spam.
Se un messaggio è stato inserito erroneamente come spam da -s or -u e vuoi rimuoverlo e
inseriscilo come non spam, usa -Sn. Se -S viene utilizzato per un messaggio che non è stato registrato come spam,
i conteggi saranno comunque decrementati.

. -N opzione dice a bogofilter di annullare una registrazione precedente dello stesso messaggio come
non spam. Se un messaggio è stato inserito erroneamente come non spam da -n or -u e tu vuoi
rimuovilo e inseriscilo come spam, quindi usa -Ns. Se -N è usato per un messaggio che non lo era
registrati come non spam, i conteggi verranno comunque decrementati.

OPZIONI GENERALI

. -c Nome del file opzione dice a bogofilter di leggere il file di configurazione denominato.

. -C L'opzione impedisce a bogofilter di leggere i file di configurazione.

. -d dir L'opzione consente di impostare la directory per il database. Vedi l'AMBIENTE
sezione per altre opzioni di impostazione della directory.

. -k dimensione della cache opzione imposta la dimensione della cache per il sottosistema BerkeleyDB, in unità di 1
MiB (1,048,576 byte). Il corretto dimensionamento della cache migliora le prestazioni di bogofilter. Il
la dimensione consigliata è un terzo della dimensione del file di database. Puoi correre il bogotune
script (nella directory di ottimizzazione) per determinare la dimensione consigliata.

. -l L'opzione scrive una riga informativa nel registro di sistema ogni volta che viene eseguito bogofilter.
Le informazioni registrate dipendono da come viene eseguito bogofilter.

. -L etichetta opzione configura un tag che può essere incluso nelle informazioni che vengono registrate
dal -l opzione, ma richiede un formato personalizzato che includa la stringa %l per ora.
Questa opzione implica -l.

. -I Nome del file opzione dice a bogofilter di leggere il suo input dal file specificato, piuttosto
che da stdin.

. -O Nome del file opzione dice a bogofilter dove scrivere il suo output in modalità passthrough.
Nota che questo funziona solo quando -p è dato esplicitamente.

PARAMETRI OPZIONI

. -E valore[,valore] L'opzione consente di impostare il valore sp-esf e il valore ns-esf. Con due
valori, sono impostati sia sp-esf che ns-esf. Se viene fornito un solo valore, i parametri sono impostati come
descritto nella nota sottostante.

. -m valore[,valore][,valore] opzione consente di impostare il valore min-dev e, opzionalmente, il
robs e valori robx. Con tre valori, min-dev, robs e robx sono tutti impostati. Se meno
vengono dati i valori, i parametri vengono impostati come descritto nella nota sottostante.

. -o valore[,valore] L'opzione consente di impostare i valori di ham-cutoff di spam-cutoff. Con due
valori, sono impostati sia spam-cutoff che ham-cutoff. Se viene fornito un solo valore, parametri
sono impostati come descritto nella nota sottostante.

Nota: tutte queste opzioni consentono di fornire meno valori. I valori possono essere saltati da
utilizzando solo il delimitatore di virgola, nel qual caso i parametri corrispondenti non saranno
cambiato. Se viene fornito solo il primo valore, viene impostato solo il primo parametro.
I valori finali possono essere saltati, nel qual caso i parametri corrispondenti non lo saranno
cambiato. All'interno dell'elenco dei parametri, non sono consentiti spazi dopo le virgole.

INFO OPZIONI

. -v L'opzione produce un rapporto allo standard output sull'analisi dell'input da parte di bogofilter.
Ogni ulteriore v aumenterà la verbosità dell'output, fino a un massimo di 4. Con
-vv, il report elenca i token con la massima deviazione da una media di 0.5 associazioni
con spam.

Opzione -y quando può essere utilizzato per sovrascrivere la data corrente durante il timestamp dei token. Un valore
di zero (0) disattiva il timestamp.

. -D l'opzione reindirizza l'output di debug a stdout.

. -x bandiere L'opzione consente l'impostazione dei flag di debug per la stampa delle informazioni di debug. Vedere
file di intestazione debug.h per l'elenco dei flag utilizzabili.

OPZIONI FILE DI CONFIGURAZIONE

Utilizzo di GNU longopt -- sintassi, un file di configurazione nome=valore l'istruzione diventa una riga di comando
--opzione=valore. Usa il comando bogofiltro --Aiuto per un elenco di opzioni e vedere
bogofilter.cf.example per maggiori informazioni su di essi. Ad esempio per cambiare l'intestazione X-Bogosity
a "X-Spam-Header", usa:

--spam-header-name=X-Spam-Header

AMBIENTE


Bogofilter utilizza una directory del database, che può essere impostata nel file di configurazione. Se non impostato
lì, bogofilter utilizzerà il valore di BOGOFILTER_DIR. Entrambi possono essere sovrascritti da -d
dir opzione. Se nessuno di questi è disponibile, bogofilter utilizzerà la directory $HOME/.bogofilter.

CONFIGURAZIONE


La riga di comando di bogofilter consente l'impostazione di molte opzioni che determinano come bogofilter
opera. Il file /etc/bogofilter.cf può essere utilizzato per impostare parametri aggiuntivi che ne influenzano
operazione. Il file /etc/bogofilter.cf.example contiene esempi di tutti i parametri. Stato
e i messaggi di registrazione possono essere personalizzati per ogni sito.

RITORNO VALORI


0 per lo spam; 1 per non spam; 2 per incerto; 3 per I/O o altri errori.

Se entrambi -p e -e vengono utilizzati, i valori restituiti sono: 0 per spam o non spam; 3 per I/O o
altri errori.

L'errore 3 di solito significa che il file della lista di parole che bogofilter vuole leggere all'avvio è
mancante o l'hard disk si è riempito -p modalità.

INTEGRAZIONE CON ALTRO TOOLS


Utilizzare con procmail

La seguente ricetta (a) elimina tutto ciò che bogofilter classifica come spam, (b) registra
le parole nei messaggi classificati come spam in quanto tali e (c) registra le parole nei messaggi classificati
come non spam in quanto tale. Con questo in atto, sarà normalmente necessario solo per l'utente
intervenire (con -Ns or -Sn) quando bogofilter classifica erroneamente qualcosa.

# filtra la posta tramite bogofilter, contrassegnandola come Ham, Spam o Unsure,
# e aggiornando l'elenco di parole

:0fw
| bogofilter -u -e -p

# se bogofilter fallisce, restituisce la posta alla coda;
# l'MTA riproverà a consegnarlo più tardi
# 75 è il valore per EX_TEMPFAIL in /usr/include/sysexits.h

:0e
{CODICE DI USCITA=75 OSPITE}

# invia la posta a spam-bogofilter se è spam.

: 0:
* ^X-Bogosity: spam, test=bogofilter
filtro anti-spam

# invia la posta a unsure-bogofilter
# se non è né prosciutto né spam.

: 0:
* ^X-Bogosity: incerto, test=bogofilter
insicuro-bogofilter

# Con questa ricetta, puoi addestrare bogofilter iniziando con un vuoto
# lista di parole. Assicurati di controllare regolarmente la tua cartella incerta, prendi il
# messaggi da esso, classificali come ham (o spam) e usali per
# treno bogofilter.

La seguente regola procmail prenderà la posta su stdin e la salverà nel file spam se bogofilter
pensa sia spam:

:0HB:
* ? bogofiltro
carne in scatola

e questa regola simile registrerà anche i token nella posta secondo il
classificazione bogofilter:

:0HB:
*? bogofilter -u
carne in scatola

Se bogofilter fallisce (restituisce 3) il messaggio verrà trattato come non spam.

Questo è per maildrop, rinvia automaticamente la posta e riprova più tardi quando il
Il comando xfilter fallisce, usalo nel tuo ~/.filtro di posta:

xfilter "bogofilter -u -e -p"
if (/^X-Bogosity: Spam, test=bogofilter/)
{
a "spam-bogofilter"
}

Le seguenti righe .muttrc creeranno macro mutt per inviare la posta a bogofilter.

indice macro d " disinserisci wait_key\n\
bogofilter -n\n\
imposta wait_key\n\
" "elimina il messaggio come non spam"
indice macro \ed " disinserisci wait_key\n\
bogofilter -s\n\
imposta wait_key\n\
" "elimina messaggio come spam"

Integrazione con Mail Transport Agent (MTA)

1. bogofilter può anche essere integrato in un MTA per filtrare tutta la posta in arrivo. Mentre il
l'implementazione specifica dipende dall'MTA, i passaggi generali sono i seguenti:

2. Installa bogofilter sul server di posta

3. Preparare i database di bogofilter con un corpus di spam e non di spam. Dal momento che bogofilter lo farà
servire una comunità più ampia, è importante prepararla con un set rappresentativo
di messaggi.

4. Configurare l'MTA per richiamare bogofilter su ogni messaggio. Anche se questo è uno specifico MTA
passo, probabilmente dovrai usare il -p, -ue -e opzioni.

5. Configurare un meccanismo per consentire agli utenti di registrare messaggi spam/non spam e di correggerli
classificazioni errate. La soluzione più generica è impostare indirizzi email alias per
quali utenti rimbalzano i messaggi.

6. Per ulteriori informazioni, vedere le directory doc e contrib.

Uso di R per verificare i calcoli di bogofilter

L'opzione -R dice a bogofilter di generare un frame di dati R. Il frame di dati ne contiene uno
riga per token analizzato. Ciascuna di queste righe contiene il token, la somma del suo database "buono"
e "spam", il conteggio "buono" diviso per il numero di messaggi non spam utilizzati per
creare il database di formazione, il conteggio "spam" diviso per il conteggio dei messaggi spam,
f(w) di Robinson per il token, i log naturali di (1 - f(w)) e f(w) e un indicatore
carattere (+ se il valore f(w) del token ha superato la deviazione minima da 0.5, - se è
non l'ho fatto). C'è una riga aggiuntiva alla fine della tabella che contiene un'etichetta nel
campo token, seguito dal numero di parole effettivamente utilizzate (quelle con indicatori +),
I valori P, Q, S, s e x di Robinson e la deviazione minima.

Il frame di dati R può essere salvato in un file e successivamente letto in una sessione R (vedi , il R
progetto sito web ufficiale[5] per informazioni sul pacchetto di matematica R). Fornito con il
La distribuzione bogofilter è un semplice script R (file bogo.R) che può essere utilizzato per verificare
calcoli di bogofilter. Le istruzioni per il suo utilizzo sono incluse nello script nel modulo
di commenti.

LOG MESSAGGI


Bogofilter scrive messaggi nel registro di sistema quando il -l viene utilizzata l'opzione. Cosa c'è scritto
dipende da quali altri flag vengono utilizzati.

Verrà generata un'esecuzione di classificazione (non mostriamo la data e la parte ospitante qui):

bogofilter[1412]: X-Bogosity: Prosciutto, spamity=0.000227
bogofilter[1415]: X-Bogosità: Spam, spamicità=0.998918

utilizzando -u per classificare un messaggio e aggiornare un elenco di parole produrrà (uno una singola riga):

bogofilter[1426]: X-Bogosity: Spam, spamity=0.998918,
registra -s, 329 parole, 1 messaggi

Registrazione di parole (-l e -s, -n, -S, o -N) produrrà:

bogofilter[1440]: registro-n, 255 parole, 1 messaggi

Una corsa di registrazione (usando -s, -n, -N, o -S) genererà messaggi come:

bogofilter[17330]: registro-n, 574 parole, 3 messaggi
bogofilter[6244]: register-s, 1273 parole, 4 messaggi

Usa bogofilter online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

Comandi Linux

Ad




×
Cookie per pubblicità
❤️Fai acquisti, prenota o acquista qui: nessun costo, aiuta a mantenere i servizi gratuiti.