यह कमांड बोगोफिल्टर-बीडीबी है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
बोगोफ़िल्टर - तेज़ बायेसियन स्पैम फ़िल्टर
SYNOPSIS
बोगोफिल्टर [सहायता विकल्प | वर्गीकरण विकल्प | पंजीकरण विकल्प |
पैरामीटर विकल्प | जानकारी विकल्प] [सामान्य विकल्प] [कॉन्फिग फ़ाइल विकल्प]
जहां
मदद विकल्पों यह है:
[-एच] [--सहायता] [-वी] [-क्यू]
वर्गीकरण विकल्पों यह है:
[-पी] [-ई] [-टी] [-टी] [-यू] [-एच] [-एम] [-बी] [-बी वस्तु ...] [-आर] [सामान्य विकल्प]
[पैरामीटर विकल्प] [कॉन्फिग फ़ाइल विकल्प]
पंजीकरण विकल्पों यह है:
[-एस | -एन] [-एस | -एन] [सामान्य विकल्प]
सामान्य विकल्पों यह है:
[-सी फ़ाइल का नाम] [-सी] [-डी दीर] [-क कैचे आकार] [-एल] [-एल टैग] [-मैं फ़ाइल का नाम] [-ओ फ़ाइल का नाम]
प्राचल विकल्पों यह है:
[-इ मूल्य[,मूल्य]] [-एम मूल्य[,मूल्य][,मूल्य]] [-ओ मूल्य[,मूल्य]]
पता विकल्पों यह है:
[-वी] [-वाई डेटा] [-डी] [-एक्स झंडे]
विन्यास पट्टिका विकल्पों यह है:
[--विकल्प = मान]
नोट: उपयोग बोगोफिल्टर --मदद विकल्पों की पूरी सूची प्रदर्शित करने के लिए।
वर्णन
बोगोफ़िल्टर एक बायेसियन स्पैम फ़िल्टर है। संचालन के अपने सामान्य तरीके में, यह एक ईमेल लेता है
मानक इनपुट पर संदेश या अन्य पाठ, "अच्छे" की सूचियों के विरुद्ध एक सांख्यिकीय जाँच करता है
और "खराब" शब्द, और एक स्थिति कोड लौटाता है जो बताता है कि संदेश स्पैम है या नहीं।
बोगोफ़िल्टर को तेज़ एल्गोरिदम के साथ डिज़ाइन किया गया है, तेज़ स्टार्टअप के लिए बर्कले डीबी का उपयोग करता है
लुकअप, सीधे सी में कोडित, और गति के लिए ट्यून किया गया, ताकि इसका उपयोग उत्पादन के लिए किया जा सके
ऐसी साइटें जो बहुत सारे मेल संसाधित करती हैं।
सिद्धांत OF संचालन
बोगोफ़िल्टर अपने इनपुट को टोकन के एक बैग के रूप में मानता है। प्रत्येक टोकन को एक शब्दसूची के विरुद्ध जांचा जाता है,
जो गैर-स्पैम और स्पैम मेल में घटित होने वाली घटनाओं की संख्या का हिसाब रखता है।
इन नंबरों का उपयोग किसी संदेश की संभावना का अनुमान लगाने के लिए किया जाता है
जो टोकन होता है वह स्पैम है। इन्हें यह बताने के लिए संयोजित किया जाता है कि संदेश स्पैम है या नहीं
जांघ।
हालाँकि यह विधि अधिक सामान्य पैटर्न-मिलान दृष्टिकोण की तुलना में अपरिष्कृत लगती है
अत्यंत प्रभावशाली साबित होता है. पॉल ग्राहम का पेपर A योजना के लिए स्पैम[1] की अनुशंसा की जाती है
पढ़ने।
यह कार्यक्रम बेहतर शाब्दिक विश्लेषण करके पॉल के प्रस्ताव में काफी सुधार करता है।
बोगोफ़िल्टर उचित MIME डिकोडिंग और उचित HTML पार्सिंग करता है। विशेष प्रकार के
होस्टनाम और आईपी पते जैसे टोकन को पहचान सुविधाओं के बजाय बनाए रखा जाता है
टूटा हुआ। विभिन्न प्रकार के एमटीए क्रॉफ्ट जैसे तिथियां और संदेश-आईडी को नजरअंदाज कर दिया जाता है
शब्द सूची को फुलाना। विभिन्न हेडर फ़ील्ड में पाए गए टोकन उचित रूप से चिह्नित किए गए हैं।
एक और सुधार यह है कि यह कार्यक्रम गैरी रॉबिन्सन द्वारा सुझाए गए संशोधनों की पेशकश करता है
गणना (पैरामीटर रोबक्स और रॉब नीचे देखें)। ये संशोधन हैं
रॉबिन्सन के पेपर में वर्णित है स्पैम खोज[2]
तब से, रॉबिन्सन (उनका लिनक्स जर्नल लेख देखें A सांख्यिकीय दृष्टिकोण सेवा मेरे la स्पैम
मुसीबत[3]) और अन्य लोगों ने महसूस किया है कि गणना को और अधिक अनुकूलित किया जा सकता है
फिशर की विधि. अन्य सुधार[4] आवेदन करके टोकन अतिरेक की भरपाई की जाती है
स्पैम और नॉनस्पैम संभाव्यता गणना के लिए प्रभावी आकार कारक (ईएसएफ) को अलग करें।
संक्षेप में, यह इस प्रकार काम करता है: व्यक्ति की स्पैम संभावनाओं का अनुमान
टोकन को "इनवर्स ची-स्क्वायर फ़ंक्शन" का उपयोग करके संयोजित किया जाता है। इसका मूल्य बताता है कि कितना बुरा है
शून्य परिकल्पना कि संदेश केवल स्वतंत्र शब्दों का एक यादृच्छिक संग्रह है
हमारे पिछले अनुमानों द्वारा दी गई संभावनाएँ विफल हो जाती हैं। यह फ़ंक्शन बहुत संवेदनशील है
छोटी संभावनाएँ (हैमिश शब्द), लेकिन उच्च संभावनाएँ नहीं (स्पैमिश शब्द); इसलिए
मान केवल संदेश में मजबूत हैमिश चिह्नों को इंगित करता है। अब उलटा उपयोग कर रहे हैं
टोकन के लिए संभावनाओं की गणना फिर से की जाती है, जिससे एक संकेतक मिलता है
कोई संदेश अत्यधिक स्पैमयुक्त दिखता है. अंत में, उन दो संकेतकों को घटा दिया जाता है (और
0-1-अंतराल में स्केल किया गया)। यदि संकेत मिले तो यह संयुक्त सूचक (बोगोसिटी) 0 के करीब है
एक हैमिश संदेश के लिए एक स्पैमिश संदेश की तुलना में अधिक मजबूत होते हैं और यदि 1 के करीब होते हैं
स्थिति इसके विपरीत है. यदि दोनों के संकेत समान रूप से मजबूत हैं, तो मूल्य होगा
0.5 के करीब. चूंकि वे संदेश कोई स्पष्ट संकेत नहीं देते कि वहां एक ट्रिस्टेट मोड मौजूद है
बोगोफ़िल्टर उन संदेशों को अनिश्चित के रूप में चिह्नित करता है, जबकि स्पष्ट संदेशों को स्पैम के रूप में चिह्नित किया जाता है
या हैम, क्रमशः। टू-स्टेट मोड में, प्रत्येक संदेश को स्पैम या हैम के रूप में चिह्नित किया जाता है।
विभिन्न पैरामीटर इन गणनाओं को प्रभावित करते हैं, सबसे महत्वपूर्ण हैं:
रोबक्स: एक टोकन को दिया गया स्कोर जो पहले नहीं देखा गया है। robx इसकी प्रायिकता है
टोकन स्पैमयुक्त है.
रॉब्स: रॉबक्स पर एक भार जो थोड़े से देखे गए टोकन की संभावना को रॉबक्स की ओर ले जाता है।
न्यूनतम-देव: गणना में उपयोग करने के लिए टोकन के लिए .5 से न्यूनतम दूरी। केवल टोकन
इस मान से 0.5 से अधिक दूर का उपयोग किया जाता है।
स्पैम-कटऑफ: इससे अधिक या उसके बराबर स्कोर वाले संदेशों को स्पैम के रूप में चिह्नित किया जाएगा।
हैम-कटऑफ़: यदि शून्य या स्पैम-कटऑफ़ है, तो सभी संदेशों का मान स्पैम-कटऑफ़ से बिल्कुल नीचे है
को हैम के रूप में चिह्नित किया गया है, अन्य सभी को स्पैम (दो-राज्य) के रूप में चिह्नित किया गया है। अन्यथा मान इससे कम या बराबर है
हैम-कटऑफ को हैम के रूप में चिह्नित किया जाता है, हैम-कटऑफ और के बीच मूल्यों वाले संदेश
स्पैम-कटऑफ़ को अनिश्चित के रूप में चिह्नित किया गया है; बाकी स्पैम के रूप में (ट्रिस्टेट)
एसपी-ईएसएफ: स्पैम के लिए प्रभावी आकार कारक (ईएसएफ)।
एनएस-ईएसएफ: नॉनस्पैम के लिए ईएसएफ। ये ESF मान डिफ़ॉल्ट रूप से 1.0 पर हैं, जो कि नहीं के समान है
गणना में ईएसएफ का उपयोग करना। उपयोगकर्ता की ईमेल आबादी के लिए उपयुक्त मान हो सकते हैं
बोगोट्यून कार्यक्रम की सहायता से निर्धारित किया गया।
विकल्प
सहायता विकल्प
RSI -h विकल्प मदद संदेश को प्रिंट करता है और बाहर निकलता है।
RSI -V विकल्प संस्करण संख्या को प्रिंट करता है और बाहर निकलता है।
RSI -Q (क्वेरी) विकल्प बोगोफ़िल्टर के कॉन्फ़िगरेशन को प्रिंट करता है, अर्थात पंजीकरण पैरामीटर,
पार्सिंग विकल्प, बोगोफ़िल्टर निर्देशिका, आदि।
वर्गीकरण विकल्प
RSI -p (पासथ्रू) विकल्प के अंत में एक्स-बोगोसिटी लाइन के साथ संदेश को आउटपुट करता है
संदेश हैडर। इसके लिए पूरे संदेश को पढ़ते समय उसे स्मृति में रखना आवश्यक है
stdin (या पाइप या सॉकेट से)। यदि संदेश किसी ऐसी फ़ाइल से पढ़ा जाता है जिसे दोबारा लिखा जा सकता है,
बोगोफ़िल्टर इसे दूसरी बार पढ़ेगा।
RSI -e (एम्बेड) विकल्प बोगोफ़िल्टर को कोड 0 के साथ बाहर निकलने के लिए कहता है यदि संदेश हो सकता है
वर्गीकृत, अर्थात यदि कोई त्रुटि नहीं है। आम तौर पर बोगोफिल्टर के लिए अलग-अलग कोड का उपयोग करता है
स्पैम, हैम और अनिश्चित वर्गीकरण, लेकिन यह प्रोमेल के साथ बोगोफ़िल्टर का उपयोग करना सरल बनाता है
या मेलड्रॉप.
RSI -t (शब्दांश) विकल्प बोगोफ़िल्टर को संक्षिप्त स्पैमिसिटी संदेश मुद्रित करने के लिए कहता है
जिसमें 1 अक्षर और स्कोर शामिल है। स्पैम को "Y", हैम को "N" और अनिश्चित को "N" से दर्शाया जाता है
"यू"। नोट: फ़ॉर्मेटिंग को कॉन्फ़िगरेशन फ़ाइल का उपयोग करके अनुकूलित किया जा सकता है।
RSI -T स्क्रिप्ट के उपयोग के लिए एक अपरिवर्तनीय संक्षिप्त मोड प्रदान करता है। बोगोफिल्टर एक प्रिंट करेगा
संक्षिप्त स्पैमिसिटी संदेश जिसमें 1 अक्षर और स्कोर शामिल है। स्पैम का संकेत दिया गया है
"S", हैम से "H", और unsure से "U"।
RSI -टीटी स्क्रिप्ट के उपयोग के लिए एक अपरिवर्तनीय संक्षिप्त मोड प्रदान करता है। बोगोफ़िल्टर केवल प्रिंट करता है
स्कोर करता है और इसे 16 महत्वपूर्ण अंकों में प्रदर्शित करता है।
RSI -u विकल्प बोगोफ़िल्टर को संदेश के टेक्स्ट को स्पैम के रूप में वर्गीकृत करने के बाद पंजीकृत करने के लिए कहता है
या गैर-स्पैम. एक स्पैम संदेश स्पैम सूची पर और एक गैर-स्पैम संदेश पंजीकृत किया जाएगा
अच्छी सूची. यदि वर्गीकरण "अनिश्चित" है, तो संदेश पंजीकृत नहीं किया जाएगा।
प्रभावी रूप से यह विकल्प बोगोफिल्टर के साथ चलता है -s or -n ध्वज, जैसा उपयुक्त हो। सावधानी है
इस क्षमता के उपयोग में आग्रह किया गया है, क्योंकि बोगोफ़िल्टर किसी भी वर्गीकरण त्रुटियां कर सकता है
संरक्षित किया जाएगा और मैन्युअल रूप से ठीक किए जाने तक जमा होता रहेगा -सं और -एन.एस विकल्प
संयोजन. ध्यान दें कि यह विकल्प डेटाबेस को लेखन पहुंच के लिए खोलने का कारण बनता है, जो
लॉक विवाद और सिंक्रोनस I/O संचालन के माध्यम से बड़े पैमाने पर मंदी आ सकती है।
RSI -H विकल्प बोगोफ़िल्टर को हेडर से टोकन टैग न करने के लिए कहता है। यह विकल्प के लिए है
परीक्षण, आपको इसे सामान्य ऑपरेशन में उपयोग नहीं करना चाहिए।
RSI -M विकल्प बोगोफ़िल्टर को अपने इनपुट को एमबॉक्स स्वरूपित फ़ाइल के रूप में संसाधित करने के लिए कहता है। यदि -v or
-t विकल्प भी दिया गया है, प्रत्येक संदेश के लिए एक स्पैमिसिटी लाइन मुद्रित की जाएगी।
RSI -b (स्ट्रीमिंग बल्क मोड) विकल्प बोगोफिल्टर को कई वस्तुओं को वर्गीकृत करने के लिए कहता है
नाम stdin से पढ़े जाते हैं। यदि -v or -t विकल्प भी दिया गया है, बोगोफ़िल्टर एक प्रिंट करेगा
प्रत्येक फ़ाइल के लिए फ़ाइल नाम और वर्गीकरण जानकारी देने वाली पंक्ति। यह एक विकल्प है
सेवा मेरे -B जो कमांड लाइन पर ऑब्जेक्ट को सूचीबद्ध करता है।
इस संदर्भ में एक ऑब्जेक्ट एक मेलडीआईआर (स्वतः पता लगाया गया) होगा, या यदि यह एक मेलडीआईआर नहीं है, तो एक
एकल मेल जब तक -M दिया गया है - उस स्थिति में इसे एमबॉक्स के रूप में संसाधित किया जाता है। (सामग्री-लंबाई:
वर्तमान में हेडर पर ध्यान नहीं दिया गया है।)
एमबॉक्स प्रारूप पढ़ते समय, बोगोफिल्टर मेल के बाद खाली लाइन पर निर्भर करता है। यदि ज़रूरत हो तो,
formail -es यह सुनिश्चित करेंगे कि यही मामला है.
RSI -B वस्तु ... (बल्क मोड) विकल्प बोगोफिल्टर को नामित कई वस्तुओं को वर्गीकृत करने के लिए कहता है
कमांड लाइन पर. ऑब्जेक्ट फ़ाइल नाम (एकल संदेशों के लिए), मेलबॉक्स (फ़ाइलें) हो सकते हैं
एकाधिक संदेशों के साथ), या निर्देशिकाएं (मेलडिर और एमएच प्रारूप की)। यदि -v or -t विकल्प
भी दिया गया है, बोगोफ़िल्टर फ़ाइल का नाम और वर्गीकरण देते हुए एक लाइन प्रिंट करेगा
प्रत्येक फ़ाइल के लिए जानकारी. यह इसका एक विकल्प है -b जो stdin पर वस्तुओं को सूचीबद्ध करता है।
RSI -R विकल्प बोगोफिल्टर को मानक पर टेक्स्ट फॉर्म में आर डेटा फ्रेम आउटपुट करने के लिए कहता है
आउटपुट. अधिक विवरण के लिए नीचे R के साथ एकीकरण पर अनुभाग देखें।
पंजीकरण विकल्प
RSI -s विकल्प बोगोफ़िल्टर को प्रस्तुत पाठ को स्पैम के रूप में पंजीकृत करने के लिए कहता है। डेटाबेस है
अनुपस्थित होने पर बनाया गया।
RSI -n विकल्प बोगोफ़िल्टर को प्रस्तुत पाठ को गैर-स्पैम के रूप में पंजीकृत करने के लिए कहता है।
बोगोफ़िल्टर यह पता नहीं लगाता कि कोई संदेश दो बार पंजीकृत हुआ है या नहीं। यदि आप गलती से ऐसा करते हैं,
आप वास्तव में क्या चाहते हैं और संबंधित स्पैम स्कोर से टोकन की गिनती 1 कम हो जाएगी
थोड़ा हटकर होगा. वर्डलिस्ट में बड़ी संख्या में टोकन और संदेशों को देखते हुए, यह
कोई फर्क नहीं पड़ता। समस्या कर सकते हैं का उपयोग करके ठीक किया जा सकता है -S विकल्प या -N विकल्प.
RSI -S विकल्प बोगोफ़िल्टर को स्पैम के समान संदेश के पूर्व पंजीकरण को पूर्ववत करने के लिए कहता है।
यदि कोई संदेश गलत तरीके से स्पैम के रूप में दर्ज किया गया था -s or -u और आप इसे हटाना चाहते हैं और
इसे गैर-स्पैम के रूप में दर्ज करें, उपयोग करें -सं. अगर -S उस संदेश के लिए उपयोग किया जाता है जो स्पैम के रूप में पंजीकृत नहीं था,
गिनती अभी भी कम हो जाएगी.
RSI -N विकल्प बोगोफ़िल्टर को उसी संदेश के पूर्व पंजीकरण को पूर्ववत करने के लिए कहता है
गैर-स्पैम. यदि कोई संदेश गलत तरीके से गैर-स्पैम के रूप में दर्ज किया गया था -n or -u और आप चाहते हैं
इसे हटाएं और स्पैम के रूप में दर्ज करें, फिर उपयोग करें -एन.एस. अगर -N उस संदेश के लिए उपयोग किया जाता है जो नहीं था
गैर-स्पैम के रूप में पंजीकृत होने पर भी गिनती कम हो जाएगी।
आम विकल्प
RSI -c फ़ाइल का नाम विकल्प बोगोफिल्टर को नामित कॉन्फिग फाइल को पढ़ने के लिए कहता है।
RSI -C विकल्प बोगोफिल्टर को कॉन्फ़िगरेशन फ़ाइलों को पढ़ने से रोकता है।
RSI -d दीर विकल्प आपको डेटाबेस के लिए निर्देशिका सेट करने की अनुमति देता है। पर्यावरण देखें
अन्य निर्देशिका सेटिंग विकल्पों के लिए अनुभाग।
RSI -k कैचे आकार विकल्प बर्कलेडीबी सबसिस्टम के लिए कैश आकार को 1 की इकाइयों में सेट करता है
एमआईबी (1,048,576 बाइट्स)। कैश को उचित रूप से आकार देने से बोगोफ़िल्टर के प्रदर्शन में सुधार होता है।
अनुशंसित आकार डेटाबेस फ़ाइल के आकार का एक तिहाई है। आप बोगोट्यून चला सकते हैं
अनुशंसित आकार निर्धारित करने के लिए स्क्रिप्ट (ट्यूनिंग निर्देशिका में)।
RSI -l विकल्प हर बार बोगोफ़िल्टर चलाने पर सिस्टम लॉग में एक सूचनात्मक पंक्ति लिखता है।
लॉग की गई जानकारी इस बात पर निर्भर करती है कि बोगोफ़िल्टर कैसे चलाया जाता है।
RSI -L टैग विकल्प एक टैग को कॉन्फ़िगर करता है जिसे लॉग की जा रही जानकारी में शामिल किया जा सकता है
द्वारा -l विकल्प, लेकिन इसके लिए एक कस्टम प्रारूप की आवश्यकता है जिसमें अभी के लिए %l स्ट्रिंग शामिल है।
इस विकल्प का तात्पर्य है -l.
RSI -I फ़ाइल का नाम विकल्प बोगोफ़िल्टर को निर्दिष्ट फ़ाइल से अपना इनपुट पढ़ने के लिए कहता है
से stdin.
RSI -O फ़ाइल का नाम विकल्प बोगोफिल्टर को बताता है कि उसे पासथ्रू मोड में अपना आउटपुट कहां लिखना है।
ध्यान दें कि यह तभी काम करता है जब -p स्पष्ट रूप से दिया गया हो।
पैरामीटर विकल्प
RSI -E मूल्य[,मूल्य] विकल्प sp-esf मान और ns-esf मान सेट करने की अनुमति देता है। दो के साथ
मान, sp-esf और ns-esf दोनों सेट हैं। यदि केवल एक मान दिया गया है, तो पैरामीटर इस प्रकार सेट किए जाते हैं
नीचे नोट में वर्णित है।
RSI -m मूल्य[,मूल्य][,मूल्य] विकल्प न्यूनतम-देव मान सेट करने की अनुमति देता है और, वैकल्पिक रूप से,
रॉब और रॉबक्स मान। तीन मानों के साथ, मिन-डेव, रॉब और रॉबक्स सभी सेट हैं। यदि कम हो
मान दिए गए हैं, पैरामीटर नीचे दिए गए नोट में वर्णित अनुसार सेट किए गए हैं।
RSI -o मूल्य[,मूल्य] विकल्प स्पैम-कटऑफ हैम-कटऑफ मान सेट करने की अनुमति देता है। दो के साथ
मान, स्पैम-कटऑफ़ और हैम-कटऑफ़ दोनों सेट हैं। यदि केवल एक मान दिया गया है, तो पैरामीटर
नीचे दिए गए नोट में वर्णित अनुसार सेट किए गए हैं।
ध्यान दें: ये सभी विकल्प कम मान प्रदान करने की अनुमति देते हैं। मानों को छोड़ा जा सकता है
केवल अल्पविराम सीमांकक का उपयोग करते हुए, ऐसी स्थिति में संबंधित पैरामीटर नहीं होंगे
बदला हुआ। यदि केवल पहला मान प्रदान किया गया है, तो केवल पहला पैरामीटर सेट किया गया है।
अनुगामी मानों को छोड़ा जा सकता है, ऐसी स्थिति में संबंधित पैरामीटर नहीं होंगे
बदला हुआ। पैरामीटर सूची के भीतर, अल्पविराम के बाद रिक्त स्थान की अनुमति नहीं है।
जानकारी विकल्प
RSI -v विकल्प बोगोफ़िल्टर के इनपुट के विश्लेषण पर मानक आउटपुट के लिए एक रिपोर्ट तैयार करता है।
हर एक अतिरिक्त v आउटपुट की वर्बोसिटी को अधिकतम 4 तक बढ़ा देगा
-वीवी, रिपोर्ट 0.5 एसोसिएशन के माध्य से उच्चतम विचलन वाले टोकन को सूचीबद्ध करती है
स्पैम के साथ.
विकल्प -y डेटा टोकन पर टाइमस्टैम्पिंग करते समय वर्तमान दिनांक को ओवरराइड करने के लिए उपयोग किया जा सकता है। एक कीमत
शून्य (0) का टाइमस्टैम्पिंग बंद हो जाता है।
RSI -D विकल्प डिबग आउटपुट को stdout पर रीडायरेक्ट करता है।
RSI -x झंडे विकल्प डिबग जानकारी मुद्रित करने के लिए डिबग फ़्लैग सेट करने की अनुमति देता है। देखना
प्रयोग करने योग्य झंडों की सूची के लिए हेडर फ़ाइल debug.h।
कॉन्फ़िग फ़ाइल विकल्प
जीएनयू लॉन्गऑप्ट का उपयोग करना -- सिंटैक्स, एक कॉन्फ़िगरेशन फ़ाइल नाम = मान स्टेटमेंट एक कमांड लाइन बन जाता है
--विकल्प = मान. आदेश का प्रयोग करें बोगोफिल्टर --मदद विकल्पों की सूची के लिए और देखें
उनके बारे में अधिक जानकारी के लिए bogofilter.cf.example. उदाहरण के लिए एक्स-बोगोसिटी हेडर को बदलने के लिए
"एक्स-स्पैम-हेडर" के लिए, उपयोग करें:
--स्पैम-हेडर-नाम=एक्स-स्पैम-हेडर
वातावरण
Bogofilter एक डेटाबेस निर्देशिका का उपयोग करता है, जिसे कॉन्फ़िग फ़ाइल में सेट किया जा सकता है। अगर सेट नहीं है
वहां, बोगोफिल्टर के मान का उपयोग करेगा BOGOFILTER_DIR. दोनों को ओवरराइड किया जा सकता है -d
दीर विकल्प। यदि इनमें से कुछ भी उपलब्ध नहीं है, तो बोगोफ़िल्टर निर्देशिका $HOME/.bogofilter का उपयोग करेगा।
विन्यास
बोगोफ़िल्टर कमांड लाइन कई विकल्पों की सेटिंग की अनुमति देती है जो यह निर्धारित करती है कि बोगोफ़िल्टर कैसा है
संचालित होता है. फ़ाइल /etc/bogofilter.cf का उपयोग इसे प्रभावित करने वाले अतिरिक्त पैरामीटर सेट करने के लिए किया जा सकता है
कार्यवाही। फ़ाइल /etc/bogofilter.cf.example में सभी मापदंडों के नमूने हैं। दर्जा
और लॉगिंग संदेशों को प्रत्येक साइट के लिए अनुकूलित किया जा सकता है।
वापसी मान
स्पैम के लिए 0; 1 गैर-स्पैम के लिए; 2 अनिश्चित के लिए ; I/O या अन्य त्रुटियों के लिए 3.
अगर दोनों -p और -e उपयोग किया जाता है, रिटर्न मान हैं: स्पैम या गैर-स्पैम के लिए 0; I/O के लिए 3 या
अन्य त्रुटियाँ.
त्रुटि 3 का आम तौर पर मतलब यह है कि वर्डलिस्ट फ़ाइल बोगोफ़िल्टर स्टार्टअप पर पढ़ना चाहता है
गायब है या हार्ड डिस्क भर गई है -p मोड।
एकीकरण साथ में अन्य उपकरण
प्रोमेल के साथ प्रयोग करें
निम्नलिखित नुस्खा (ए) किसी भी चीज़ को स्पैम-बिन करता है जिसे बोगोफ़िल्टर स्पैम के रूप में रेट करता है, (बी) रजिस्टर करता है
संदेशों में शब्दों को स्पैम के रूप में रेट किया गया है, और (सी) रेटेड संदेशों में शब्दों को पंजीकृत करता है
जैसे कि गैर-स्पैम। इसके लागू होने पर, यह सामान्यतः केवल उपयोगकर्ता के लिए ही आवश्यक होगा
हस्तक्षेप करना (साथ) -एन.एस or -सं) जब बोगोफ़िल्टर किसी चीज़ को गलत तरीके से वर्गीकृत करता है।
# बोगोफ़िल्टर के माध्यम से मेल फ़िल्टर करें, इसे हैम, स्पैम, या अनश्योर के रूप में टैग करें,
# और वर्डलिस्ट को अपडेट कर रहा हूं
:0fw
| बोगोफ़िल्टर -यू -ई -पी
# यदि बोगोफ़िल्टर विफल हो गया, तो मेल को कतार में लौटा दें;
# एमटीए बाद में इसे वितरित करने का पुनः प्रयास करेगा
#75 /usr/include/sysexits.h में EX_TEMPFAIL का मान है
:0इ
{ एक्ज़िटकोड=75 होस्ट }
# यदि मेल स्पैम है तो उसे स्पैम-बोगोफ़िल्टर पर फ़ाइल करें।
: 0:
* ^एक्स-बोगोसिटी: स्पैम, परीक्षण=बोगोफिल्टर
स्पैम-बोगोफ़िल्टर
# unsure-bogofilter पर मेल फ़ाइल करें
# यदि यह न तो हैम है और न ही स्पैम है।
: 0:
* ^एक्स-बोगोसिटी: अनिश्चित, परीक्षण=बोगोफिल्टर
अनिश्चित-बोगोफ़िल्टर
# इस नुस्खे से आप खाली से शुरू करके बोगोफिल्टर को प्रशिक्षित कर सकते हैं
# शब्द सूची। अपने अनश्योर-फ़ोल्डर को नियमित रूप से जांचना सुनिश्चित करें, लें
इसमें से # संदेश, उन्हें हैम (या स्पैम) के रूप में वर्गीकृत करें, और उनका उपयोग करें
#ट्रेन बोगोफ़िल्टर.
निम्नलिखित procmail नियम stdin पर मेल लेगा और बोगोफ़िल्टर होने पर इसे स्पैम फ़ाइल में सहेजेगा
सोचता है कि यह स्पैम है:
:0HB:
* ? बोगोफ़िल्टर
स्पैम
और इसी तरह के नियम के अनुसार मेल में टोकन भी पंजीकृत होंगे
बोगोफ़िल्टर वर्गीकरण:
:0HB:
* ? बोगोफ़िल्टर -यू
स्पैम
यदि बोगोफ़िल्टर विफल हो जाता है (3 लौटाता है) तो संदेश को गैर-स्पैम माना जाएगा।
यह मेलड्रॉप के लिए है, यह स्वचालित रूप से मेल को स्थगित कर देता है और बाद में पुनः प्रयास करता है
xfilter कमांड विफल हो गया है, इसे अपने में उपयोग करें ~/.मेलफ़िल्टर:
एक्सफ़िल्टर "बोगोफ़िल्टर -यू -ई -पी"
यदि (/^X-बोगोसिटी: स्पैम, परीक्षण=बोगोफ़िल्टर/)
{
"स्पैम-बोगोफ़िल्टर" के लिए
}
निम्नलिखित .muttrc लाइनें बोगोफ़िल्टर को मेल भेजने के लिए म्यूट मैक्रोज़ बनाएंगी।
मैक्रो इंडेक्स डी " प्रतीक्षा_कुंजी को अनसेट करें\n
बोगोफ़िल्टर -n\n
प्रतीक्षा_कुंजी सेट करें\n
" "संदेश को गैर-स्पैम के रूप में हटाएं"
मैक्रो इंडेक्स \ed " प्रतीक्षा_कुंजी को अनसेट करें\n
बोगोफ़िल्टर -s\n
प्रतीक्षा_कुंजी सेट करें\n
" "संदेश को स्पैम के रूप में हटाएं"
मेल ट्रांसपोर्ट एजेंट (एमटीए) के साथ एकीकरण
1. आने वाले सभी मेल को फ़िल्टर करने के लिए बोगोफ़िल्टर को एमटीए में भी एकीकृत किया जा सकता है। जब
विशिष्ट कार्यान्वयन एमटीए पर निर्भर है, सामान्य चरण इस प्रकार हैं:
2. मेल सर्वर पर बोगोफ़िल्टर स्थापित करें
3. स्पैम और गैर-स्पैम कॉर्पस के साथ बोगोफ़िल्टर डेटाबेस को प्राइम करें। चूंकि बोगोफ़िल्टर होगा
एक बड़े समुदाय की सेवा करने के लिए, इसे एक प्रतिनिधि समूह के साथ प्रमुख बनाना महत्वपूर्ण है
संदेशों का.
4. प्रत्येक संदेश पर बोगोफ़िल्टर लागू करने के लिए एमटीए सेट करें। जबकि यह एक एमटीए विशिष्ट है
चरण, आपको संभवतः इसका उपयोग करने की आवश्यकता होगी -p, -u, तथा -e विकल्प.
5. उपयोगकर्ताओं के लिए स्पैम/गैर-स्पैम संदेशों को पंजीकृत करने के साथ-साथ सही करने के लिए एक तंत्र स्थापित करें
ग़लत वर्गीकरण. सबसे सामान्य समाधान उपनाम ईमेल पते सेट करना है
जो यूजर्स मैसेज बाउंस करते हैं।
6. अधिक जानकारी के लिए दस्तावेज़ और योगदान निर्देशिका देखें।
बोगोफिल्टर की गणनाओं को सत्यापित करने के लिए आर का उपयोग
-R विकल्प बोगोफ़िल्टर को R डेटा फ़्रेम उत्पन्न करने के लिए कहता है। डेटा फ़्रेम में एक शामिल है
पंक्ति प्रति टोकन का विश्लेषण किया गया। ऐसी प्रत्येक पंक्ति में टोकन होता है, इसके डेटाबेस का योग "अच्छा" होता है
और "स्पैम" की गिनती होती है, "अच्छी" गिनती को उपयोग किए गए गैर-स्पैम संदेशों की संख्या से विभाजित किया जाता है
प्रशिक्षण डेटाबेस बनाएं, "स्पैम" गिनती को स्पैम संदेश गिनती से विभाजित करें,
टोकन के लिए रॉबिन्सन का f(w), (1 - f(w)) और f(w) के प्राकृतिक लॉग, और एक संकेतक
वर्ण (+ यदि टोकन का f(w) मान 0.5 से न्यूनतम विचलन से अधिक है, - यदि यह
नहीं किया)। तालिका के अंत में एक अतिरिक्त पंक्ति है जिसमें एक लेबल है
टोकन फ़ील्ड, उसके बाद वास्तव में उपयोग किए गए शब्दों की संख्या (+ संकेतक वाले),
रॉबिन्सन के पी, क्यू, एस, एस और एक्स मान और न्यूनतम विचलन।
आर डेटा फ्रेम को एक फ़ाइल में सहेजा जा सकता है और बाद में आर सत्र में पढ़ा जा सकता है (देखें)। la R
परियोजना वेबसाइट [5] गणित पैकेज आर के बारे में जानकारी के लिए)। के साथ प्रदान किया गया
बोगोफ़िल्टर वितरण एक सरल आर स्क्रिप्ट (फ़ाइल bogo.R) है जिसका उपयोग सत्यापित करने के लिए किया जा सकता है
बोगोफ़िल्टर की गणना। इसके उपयोग के निर्देश प्रपत्र में स्क्रिप्ट में शामिल हैं
टिप्पणियों का.
LOG संदेश
बोगोफ़िल्टर सिस्टम लॉग पर संदेश लिखता है जब -l विकल्प का प्रयोग किया जाता है. क्या लिखा है
यह इस पर निर्भर करता है कि कौन से अन्य झंडे का उपयोग किया जाता है।
एक वर्गीकरण रन उत्पन्न होगा (हम यहां दिनांक और होस्ट भाग नहीं दिखा रहे हैं):
बोगोफ़िल्टर[1412]: एक्स-बोगोसिटी: हैम, स्पैमिसिटी=0.000227
बोगोफिल्टर[1415]: एक्स-बोगोसिटी: स्पैम, स्पैमिसिटी=0.998918
का प्रयोग -u एक संदेश को वर्गीकृत करने और एक शब्द सूची को अद्यतन करने के लिए (एक एकल पंक्ति) उत्पन्न होगी:
बोगोफ़िल्टर[1426]: एक्स-बोगोसिटी: स्पैम, स्पैमिसिटी=0.998918,
रजिस्टर -एस, 329 शब्द, 1 संदेश
शब्दों का पंजीकरण (-l और -s, -n, -Sया, -N) उत्पादन करेंगे:
बोगोफिल्टर[1440]: रजिस्टर-एन, 255 शब्द, 1 संदेश
एक पंजीकरण रन (का उपयोग करके) -s, -n, -Nया, -S) जैसे संदेश उत्पन्न करेगा:
बोगोफिल्टर[17330]: रजिस्टर-एन, 574 शब्द, 3 संदेश
बोगोफिल्टर[6244]: रजिस्टर-एस, 1273 शब्द, 4 संदेश
onworks.net सेवाओं का उपयोग करके bogofilter-bdb का ऑनलाइन उपयोग करें