Amazon Best VPN GoSearch

Icône de favori OnWorks

bogofilter-sqlite - En ligne dans le Cloud

Exécutez bogofilter-sqlite dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande bogofilter-sqlite qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


bogofilter - filtre anti-spam bayésien rapide

SYNOPSIS


bogofiltre [options d'aide | options de classement | options d'inscription |
options de paramètre | options d'informations] [options générales] [options du fichier de configuration]



vous aider Options sont:

[-h] [--help] [-V] [-Q]

classification Options sont:

[-p] [-e] [-t] [-T] [-u] [-H] [-M] [-b] [-B objet ...] [-R] [options générales]
[options de paramètres] [options de fichier de configuration]

registration Options sont:

[-s | -n] [-S | -N] [options générales]

général Options sont:

[-c nom de fichier] [-C] [-d dir] [-k taille du cache] [-ll Étiquette] [-JE nom de fichier] [-O nom de fichier]

paramètre Options sont:

[-E valeur[,valeur]] [-m valeur[,valeur][,valeur]] [-O valeur[,valeur]]

info Options sont:

[-v] [-y données] [-D] [-x drapeaux]

config filet Options sont:

[--option=valeur]

Remarque: utilisez bogofiltre --Aidez-moi pour afficher la liste complète des options.

DESCRIPTION


Bogofilter est un filtre anti-spam bayésien. Dans son mode de fonctionnement normal, il prend un email
message ou autre texte sur l'entrée standard, effectue une vérification statistique par rapport aux listes de « bons »
et "mauvais" mots, et renvoie un code d'état indiquant si le message est ou non un spam.
Bogofilter est conçu avec un algorithme rapide, utilise la base de données Berkeley pour un démarrage rapide et
recherches, codé directement en C et réglé pour la vitesse, il peut donc être utilisé pour la production par
sites qui traitent beaucoup de courrier.

THÉORIE OF FONCTIONNEMENT


Bogofilter traite son entrée comme un sac de jetons. Chaque jeton est vérifié par rapport à une liste de mots,
qui comptabilise le nombre de fois où cela s'est produit dans les e-mails non-spam et spam.
Ces nombres sont utilisés pour calculer une estimation de la probabilité qu'un message dans lequel
le jeton se produit est un spam. Ceux-ci sont combinés pour indiquer si le message est un spam ou
lui.

Bien que cette méthode semble grossière par rapport à l'approche de correspondance de motifs plus habituelle, elle
s'avère extrêmement efficace. L'article de Paul Graham A Plan Pour Spam[1] est recommandé
en train de lire.

Ce programme améliore considérablement la proposition de Paul en faisant une analyse lexicale plus intelligente.
Bogofilter effectue un décodage MIME approprié et une analyse HTML raisonnable. types spéciaux de
les jetons tels que les noms d'hôtes et les adresses IP sont conservés en tant que fonctionnalités de reconnaissance plutôt que
rompu. Divers types de MTA cruft tels que les dates et les ID de message sont ignorés afin de ne pas
pour gonfler la liste de mots. Les jetons trouvés dans divers champs d'en-tête sont marqués de manière appropriée.

Une autre amélioration est que ce programme offre les modifications suggérées par Gary Robinson à
les calculs (voir les paramètres robx et robs ci-dessous). Ces modifications sont
décrit dans l'article de Robinson Spam Détection[2].

Depuis lors, Robinson (voir son article du Linux Journal A Statistique Approche à le Spam
Problème[3]) et d'autres ont réalisé que le calcul peut être encore optimisé en utilisant
Méthode de Fisher. Une autre amélioration[4] compense la redondance des jetons en appliquant
séparer les facteurs de taille effective (ESF) des calculs de probabilité de spam et de non-spam.

En bref, voici comment cela fonctionne : Les estimations des probabilités de spam de l'individu
les jetons sont combinés à l'aide de la "fonction chi carré inverse". Sa valeur indique à quel point
l'hypothèse nulle selon laquelle le message n'est qu'une collection aléatoire de mots indépendants avec
probabilités données par nos estimations précédentes échoue. Cette fonction est très sensible à
petites probabilités (mots hammish), mais pas à des probabilités élevées (mots spam) ; donc
la valeur n'indique que des signes de hamish forts dans un message. Maintenant en utilisant l'inverse
probabilités pour les jetons, le même calcul est refait, donnant un indicateur qui
un message ressemble fortement à du spam. Enfin, ces deux indicateurs sont soustraits (et
mis à l'échelle dans un intervalle de 0-1). Cet indicateur combiné (bogosité) est proche de 0 si les signes
pour un message de hamish sont plus forts que pour un message de spam et proches de 1 si le
la situation est inverse. Si les signes des deux sont également forts, la valeur sera
près de 0.5. Étant donné que ces messages ne donnent pas une indication claire, il existe un mode à trois états dans
bogofilter pour marquer ces messages comme incertains, tandis que les messages clairs sont marqués comme spam
ou jambon, respectivement. En mode à deux états, chaque message est marqué comme spam ou jambon.

Divers paramètres influencent ces calculs, les plus importants sont :

robx : le score attribué à un jeton qui n'a jamais vu auparavant. robx est la probabilité que
le jeton est un spam.

robs : un poids sur robx qui déplace la probabilité d'un jeton peu vu vers robx.

min-dev : une distance minimale de 5 pour les jetons à utiliser dans le calcul. Uniquement des jetons
plus loin de 0.5 que cette valeur sont utilisés.

spam-cutoff : les messages avec des scores supérieurs ou égaux à seront marqués comme spam.

ham-cutoff : si zéro ou spam-cutoff, tous les messages avec des valeurs strictement inférieures à spam-cutoff
sont marqués comme jambon, tous les autres comme spam (deux états). Sinon des valeurs inférieures ou égales à
ham-cutoff sont marqués comme ham, les messages avec des valeurs strictement comprises entre ham-cutoff et
les coupures de spam sont marquées comme incertaines ; le reste comme spam (tristate)

sp-esf : le facteur de taille efficace (ESF) pour le spam.

ns-esf : l'ESF pour le non-spam. Ces valeurs ESF par défaut sont de 1.0, ce qui équivaut à not
en utilisant ESF dans le calcul. Les valeurs adaptées à la population de messagerie d'un utilisateur peuvent être
déterminé à l'aide du programme de bogotune.

OPTIONS


OPTIONS D'AIDE

Le -h L'option imprime le message d'aide et quitte.

Le -V L'option imprime le numéro de version et quitte.

Le -Q L'option (requête) imprime la configuration de bogofilter, c'est-à-dire les paramètres d'enregistrement,
options d'analyse, répertoire bogofilter, etc.

OPTIONS DE CLASSEMENT

Le -p (passthrough) produit le message avec une ligne X-Bogosity à la fin de la
entête de message. Cela nécessite de garder l'intégralité du message en mémoire lorsqu'il est lu à partir de
stdin (ou à partir d'un tuyau ou d'une prise). Si le message est lu à partir d'un fichier rembobinable,
bogofilter le lira une seconde fois.

Le -e L'option (embed) indique à Bogofilter de quitter avec le code 0 si le message peut être
classés, c'est-à-dire s'il n'y a pas d'erreur. Normalement, Bogofilter utilise des codes différents pour
spam, jambon et classifications incertaines, mais cela simplifie l'utilisation de bogofilter avec procmail
ou courrier.

Le -t L'option (lacune) indique à Bogofilter d'imprimer un message de spam abrégé
contenant 1 lettre et la partition. Le spam est indiqué par "Y", le jambon par "N", et incertain par
"U". Remarque : le formatage peut être personnalisé à l'aide du fichier de configuration.

Le -T fournit un mode laconique invariant pour les scripts à utiliser. bogofilter imprimera un
message de spam abrégé contenant 1 lettre et le score. Le spam est signalé par
"S", jambon par "H", et incertain par "U".

Le -TT fournit un mode laconique invariant pour les scripts à utiliser. Bogofilter n'imprime que le
score et l'affiche à 16 chiffres significatifs.

Le -u L'option indique à Bogofilter d'enregistrer le texte du message après l'avoir classé comme spam
ou non-spam. Un message de spam sera enregistré sur la liste de spam et un message non-spam sur
la bonne liste. Si la classification est "incertain", le message ne sera pas enregistré.
Effectivement, cette option exécute bogofilter avec le -s or -n drapeau, le cas échéant. La prudence est
dans l'utilisation de cette capacité, car toute erreur de classification que bogofilter peut faire
seront conservés et s'accumuleront jusqu'à ce qu'ils soient corrigés manuellement avec le -Sn , -Ns option
combinaisons. Notez que cette option entraîne l'ouverture de la base de données pour un accès en écriture, ce qui
peut entraîner des ralentissements massifs en raison de conflits de verrouillage et d'opérations d'E/S synchrones.

Le -H L'option indique à Bogofilter de ne pas marquer les jetons de l'en-tête. Cette option est pour
test, vous ne devez pas l'utiliser en fonctionnement normal.

Le -M L'option indique à Bogofilter de traiter son entrée en tant que fichier au format mbox. Si la -v or
-t option est également donnée, une ligne de spam sera imprimée pour chaque message.

Le -b (mode de diffusion en masse) indique à Bogofilter de classer plusieurs objets dont
les noms sont lus à partir de stdin. Si la -v or -t est également donnée, bogofilter imprimera un
ligne donnant le nom du fichier et les informations de classification pour chaque fichier. C'est une alternative
à -B qui répertorie les objets sur la ligne de commande.

Un objet dans ce contexte doit être un maildir (autodétecté), ou si ce n'est pas un maildir, un
courrier unique sauf -M est donné - dans ce cas, il est traité comme mbox. (La longueur du contenu :
l'en-tête n'est pas pris en compte actuellement.)

Lors de la lecture du format mbox, bogofilter s'appuie sur la ligne vide après un mail. Si besoin,
formulaire -es veillera à ce que ce soit le cas.

Le -B objet ... L'option (mode en vrac) indique à Bogofilter de classer plusieurs objets nommés
sur la ligne de commande. Les objets peuvent être des noms de fichiers (pour les messages uniques), des boîtes aux lettres (fichiers
avec plusieurs messages), ou des répertoires (de format maildir et MH). Si la -v or -t option
est également donné, bogofilter imprimera une ligne donnant le nom et la classification du fichier
informations pour chaque fichier. C'est une alternative à -b qui répertorie les objets sur stdin.

Le -R L'option indique à Bogofilter de générer un bloc de données R sous forme de texte sur le standard
sortir. Voir la section sur l'intégration avec R, ci-dessous, pour plus de détails.

OPTIONS D'INSCRIPTION

Le -s L'option indique à Bogofilter d'enregistrer le texte présenté comme spam. La base de données est
créé s'il est absent.

Le -n L'option indique à Bogofilter d'enregistrer le texte présenté comme non-spam.

Bogofilter ne détecte pas si un message s'est enregistré deux fois. Si vous faites cela par accident, le
le nombre de jetons diminuera de 1 par rapport à ce que vous voulez vraiment et aux scores de spam correspondants
sera légèrement décalé. Étant donné un grand nombre de jetons et de messages dans la liste de mots, cette
n'a pas d'importance. Le problème Vous pouvez être corrigé en utilisant le -S option ou le -N option.

Le -S L'option indique à Bogofilter d'annuler un enregistrement préalable du même message en tant que spam.
Si un message a été incorrectement saisi comme spam par -s or -u et vous voulez le supprimer et
entrez-le comme non-spam, utilisez -Sn. Si -S est utilisé pour un message qui n'a pas été enregistré comme spam,
les comptes seront encore décrémentés.

Le -N L'option indique à Bogofilter d'annuler un enregistrement préalable du même message que
non-spam. Si un message a été incorrectement saisi comme non-spam par -n or -u et tu veux
supprimez-le et saisissez-le comme spam, puis utilisez -Ns. Si -N est utilisé pour un message qui n'était pas
enregistré comme non-spam, les comptes seront toujours décrémentés.

OPTIONS GÉNÉRALES

Le -c nom de fichier L'option indique à Bogofilter de lire le fichier de configuration nommé.

Le -C L'option empêche Bogofilter de lire les fichiers de configuration.

Le -d dir L'option vous permet de définir le répertoire de la base de données. Voir l'ENVIRONNEMENT
section pour les autres options de configuration du répertoire.

Le -k taille du cache L'option définit la taille du cache pour le sous-système BerkeleyDB, en unités de 1
Mio (1,048,576 XNUMX XNUMX octets). Un bon dimensionnement du cache améliore les performances de Bogofilter. Les
la taille recommandée est un tiers de la taille du fichier de base de données. Vous pouvez exécuter le bogotune
script (dans le répertoire de réglage) pour déterminer la taille recommandée.

Le -l L'option écrit une ligne d'information dans le journal système à chaque exécution de Bogofilter.
Les informations enregistrées dépendent de la façon dont Bogofilter est exécuté.

Le -L Étiquette L'option configure une balise qui peut être incluse dans les informations enregistrées
par le -l option, mais il nécessite un format personnalisé qui inclut la chaîne %l pour le moment.
Cette option implique -l.

Le -I nom de fichier L'option indique à Bogofilter de lire son entrée à partir du fichier spécifié, plutôt
que de Stdin.

Le -O nom de fichier L'option indique à Bogofilter où écrire sa sortie en mode passthrough.
Notez que cela ne fonctionne que lorsque -p est explicitement donné.

OPTIONS DE PARAMÈTRES

Le -E valeur[,valeur] L'option permet de définir la valeur sp-esf et la valeur ns-esf. Avec deux
valeurs, sp-esf et ns-esf sont définies. Si une seule valeur est donnée, les paramètres sont définis comme
décrit dans la note ci-dessous.

Le -m valeur[,valeur][,valeur] L'option permet de définir la valeur min-dev et, éventuellement, le
valeurs robs et robx. Avec trois valeurs, min-dev, robs et robx sont tous définis. Si moins
les valeurs sont données, les paramètres sont définis comme décrit dans la note ci-dessous.

Le -o valeur[,valeur] L'option permet de définir les valeurs ham-cutoff de spam-cutoff. Avec deux
valeurs, à la fois spam-cutoff et ham-cutoff sont définis. Si une seule valeur est donnée, les paramètres
sont définis comme décrit dans la note ci-dessous.

Remarque : Toutes ces options permettent de fournir moins de valeurs. Les valeurs peuvent être ignorées par
en utilisant uniquement le délimiteur virgule, auquel cas le ou les paramètres correspondants ne seront pas
modifié. Si seule la première valeur est fournie, seul le premier paramètre est défini.
Les valeurs de fin peuvent être ignorées, auquel cas les paramètres correspondants ne seront pas
modifié. Dans la liste des paramètres, les espaces ne sont pas autorisés après les virgules.

OPTIONS D'INFOS

Le -v L'option produit un rapport sur la sortie standard sur l'analyse de l'entrée par Bogofilter.
Chaque supplémentaires v augmentera la verbosité de la sortie, jusqu'à un maximum de 4. Avec
-vv, le rapport répertorie les jetons avec le plus grand écart par rapport à une moyenne de 0.5 association
avec spam.

Option -y données peut être utilisé pour remplacer la date actuelle lors de l'horodatage des jetons. Une valeur
de zéro (0) désactive l'horodatage.

Le -D L'option redirige la sortie de débogage vers stdout.

Le -x drapeaux L'option permet de définir des indicateurs de débogage pour l'impression des informations de débogage. Voir
fichier d'en-tête debug.h pour la liste des indicateurs utilisables.

OPTIONS DE FICHIER DE CONFIGURATION

Utiliser GNU longopt -- syntaxe, un fichier de configuration nom=valeur l'instruction devient une ligne de commande
--option=valeur. Utiliser la commande bogofiltre --Aidez-moi pour une liste d'options et voir
bogofilter.cf.example pour plus d'informations à leur sujet. Par exemple pour changer l'en-tête X-Bogosity
vers "X-Spam-Header", utilisez :

--spam-header-name=X-Spam-En-tête

ENVIRONNEMENT


Bogofilter utilise un répertoire de base de données, qui peut être défini dans le fichier de configuration. Si non défini
là, bogofilter utilisera la valeur de BOGOFILTER_DIR. Les deux peuvent être annulés par le -d
dir option. Si rien de tout cela n'est disponible, bogofilter utilisera le répertoire $HOME/.bogofilter.

CONFIGURATION


La ligne de commande bogofilter permet de définir de nombreuses options qui déterminent comment bogofilter
fonctionne. Le fichier /etc/bogofilter.cf peut être utilisé pour définir des paramètres supplémentaires qui affectent son
opération. Le fichier /etc/bogofilter.cf.example contient des exemples de tous les paramètres. Statut
et les messages de journalisation peuvent être personnalisés pour chaque site.

RETOUR VALEURS


0 pour le spam ; 1 pour les non-pourriels ; 2 pour incertain ; 3 pour les E/S ou autres erreurs.

Si les deux -p , -e sont utilisées, les valeurs de retour sont : 0 pour le spam ou le non-spam ; 3 pour les E/S ou
autres erreurs.

L'erreur 3 signifie généralement que le fichier de liste de mots que Bogofilter veut lire au démarrage est
manquant ou le disque dur s'est rempli -p mode.

INTÉGRATION avec AUTRES OUTILS


Utiliser avec procmail

La recette suivante (a) spam-bins tout ce que bogofilter considère comme spam, (b) enregistre
les mots dans les messages classés comme spam en tant que tels, et (c) enregistre les mots dans les messages classés
comme non-spam en tant que tel. Une fois ceci en place, il ne sera normalement nécessaire que pour l'utilisateur
intervenir (avec -Ns or -Sn) lorsque bogofilter classe quelque chose de manière erronée.

# filtrer le courrier via bogofilter, en le marquant comme Ham, Spam ou Incertain,
# et mise à jour de la liste de mots

:0fw
| bogofiltre -u -e -p

# si bogofilter a échoué, renvoie le courrier dans la file d'attente ;
# le MTA réessayera de le livrer plus tard
# 75 est la valeur de EX_TEMPFAIL dans /usr/include/sysexits.h

:0e
{ CODE DE SORTIE=75 HTE }

# classer le courrier dans spam-bogofilter s'il s'agit de spam.

: 0:
* ^X-Bogosity : Spam, tests=bogofilter
filtre anti-spam

# déposer le courrier à unsure-bogofilter
# si ce n'est ni du jambon ni du spam.

: 0:
* ^X-Bogosity : Incertain, tests=bogofilter
incertain-bogofilter

# Avec cette recette, vous pouvez entraîner le bogofilter en commençant par un
# liste de mots. Assurez-vous de vérifier régulièrement votre dossier incertain, prenez le
# messages, classez-les comme jambon (ou spam) et utilisez-les pour
# train bogofiltre.

La règle procmail suivante prendra le courrier sur stdin et l'enregistrera dans un fichier spam si bogofilter
pense que c'est du spam :

:0HB :
* ? bogofiltre
le spam

et cette règle similaire enregistrera également les jetons dans le courrier selon le
classement bogofiltre :

:0HB :
* ? bogofiltre -u
le spam

Si Bogofilter échoue (renvoie 3), le message sera traité comme non-spam.

Celui-ci est pour maildrop, il reporte automatiquement le mail et réessaye plus tard lorsque le
La commande xfilter échoue, utilisez-la dans votre ~/.mailfilter:

xfilter "bogofilter -u -e -p"
if (/^X-Bogosity : Spam, tests=bogofilter/)
{
à "spam-bogofilter"
}

Les lignes .muttrc suivantes créeront des macros mutt pour envoyer le courrier à bogofilter.

indice de macro d " unset wait_key\n\
bogofilter -n\n\
définir wait_key\n\
" "supprimer le message comme non-spam"
index de macro \ed " unset wait_key\n\
bogofilter -s\n\
définir wait_key\n\
" "supprimer le message comme spam"

Intégration avec l'agent de transport de courrier (MTA)

1. bogofilter peut également être intégré dans un MTA pour filtrer tous les courriers entrants. Tandis que le
la mise en œuvre spécifique dépend du MTA, les étapes générales sont les suivantes :

2. Installez bogofilter sur le serveur de messagerie

3. Amorcez les bases de données bogofilter avec un corpus de spam et de non-spam. Étant donné que Bogofilter
servir une communauté plus large, il est important de la préparer avec un ensemble représentatif
des messages.

4. Configurez le MTA pour appeler bogofilter sur chaque message. Bien qu'il s'agisse d'un MTA spécifique
étape, vous aurez probablement besoin d'utiliser le -p, -u et -e options.

5. Mettre en place un mécanisme permettant aux utilisateurs d'enregistrer les messages de spam/non-spam, ainsi que de corriger
erreurs de classification. La solution la plus générique consiste à configurer des adresses e-mail d'alias pour
quels utilisateurs rebondissent les messages.

6. Consultez les répertoires doc et contrib pour plus d'informations.

Utilisation de R pour vérifier les calculs de Bogofilter

L'option -R indique à Bogofilter de générer une trame de données R. Le bloc de données contient un
ligne par jeton analysé. Chacune de ces lignes contient le jeton, la somme de sa base de données "bonne"
et le nombre de « spam », le nombre de « bons » divisé par le nombre de messages non-spam utilisés pour
créer la base de données d'entraînement, le nombre de "spams" divisé par le nombre de messages de spam,
Le f(w) de Robinson pour le jeton, les logarithmes naturels de (1 - f(w)) et f(w), et un indicateur
caractère (+ si la valeur f(w) du jeton dépasse l'écart minimum de 0.5, - s'il
pas). Il y a une ligne supplémentaire à la fin du tableau qui contient une étiquette dans le
champ jeton, suivi du nombre de mots effectivement utilisés (ceux avec des indicateurs +),
Les valeurs P, Q, S, s et x de Robinson et l'écart minimum.

La trame de données R peut être enregistrée dans un fichier et lue ultérieurement dans une session R (voir le R
Projet site de NDN Collective[5] pour des informations sur le package mathématique R). Fourni avec le
La distribution bogofilter est un simple script R (fichier bogo.R) qui peut être utilisé pour vérifier
calculs de Bogofilter. Les instructions pour son utilisation sont incluses dans le script sous la forme
de commentaires.

Se Connecter MESSAGES


Bogofilter écrit des messages dans le journal système lorsque le -l option est utilisée. Ce qui est écrit
dépend des autres drapeaux utilisés.

Un cycle de classification va générer (nous n'affichons pas la date et la partie hôte ici) :

bogofilter[1412] : X-Bogosity : Jambon, spam = 0.000227
bogofilter[1415] : X-Bogosity : Spam, spam=0.998918

En utilisant -u pour classer un message et mettre à jour une liste de mots produira (une par ligne) :

bogofilter[1426] : X-Bogosity : Spam, spam=0.998918,
registre -s, 329 mots, 1 messages

Enregistrement de mots (-l , -s, -n, -S, ou un -N) produira:

bogofilter[1440] : registre-n, 255 mots, 1 messages

Une course d'enregistrement (en utilisant -s, -n, -N, ou un -S) générera des messages tels que :

bogofilter[17330] : registre-n, 574 mots, 3 messages
bogofilter[6244] : registre-s, 1273 mots, 4 messages

Utilisez bogofilter-sqlite en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.