ภาษาอังกฤษภาษาฝรั่งเศสสเปน

Ad


ไอคอน Fav ของ OnWorks

bogofilter-bdb - ออนไลน์ใน Cloud

เรียกใช้ bogofilter-bdb ในผู้ให้บริการโฮสต์ฟรีของ OnWorks ผ่าน Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

นี่คือคำสั่ง bogofilter-bdb ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

โครงการ:

ชื่อ


bogofilter - ตัวกรองสแปม Bayesian ที่รวดเร็ว

เรื่องย่อ


โบโกฟิลเตอร์ [ตัวเลือกความช่วยเหลือ | ตัวเลือกการจัดหมวดหมู่ | ตัวเลือกการลงทะเบียน |
ตัวเลือกพารามิเตอร์ | ตัวเลือกข้อมูล] [ตัวเลือกทั่วไป] [ตัวเลือกไฟล์ปรับแต่ง]

ที่ไหน

ช่วย ตัวเลือก คือ:

[-h] [--ช่วยเหลือ] [-V] [-Q]

การจัดหมวดหมู่ ตัวเลือก คือ:

[-p] [-e] [-t] [-T] [-u] [-H] [-M] [-b] [-B วัตถุ ...] [-R] [ตัวเลือกทั่วไป]
[ตัวเลือกพารามิเตอร์] [ตัวเลือกไฟล์ปรับแต่ง]

การลงทะเบียน ตัวเลือก คือ:

[-s | -n] [-S | -N] [ตัวเลือกทั่วไป]

ทั่วไป ตัวเลือก คือ:

[-ค ชื่อไฟล์] [-ซีดี dir] [-เค ขนาดแคช] [-NS แท็ก] [-ผม ชื่อไฟล์] [-อ ชื่อไฟล์]

พารามิเตอร์ ตัวเลือก คือ:

[-อี ค่า[,ค่า]] [-NS ค่า[,ค่า][,ค่า]] [-โอ ค่า[,ค่า]]

ข้อมูล ตัวเลือก คือ:

[-v] [-ย ข้อมูล] [-D] [-x ธง]

การตั้งค่า ไฟล์ ตัวเลือก คือ:

-ตัวเลือก=ค่า]

หมายเหตุ: ใช้ โบโกฟิลเตอร์ --ช่วยด้วย เพื่อแสดงรายการตัวเลือกทั้งหมด

DESCRIPTION


Bogofilter เป็นตัวกรองสแปมแบบเบย์ ในโหมดการทำงานปกติ ต้องใช้อีเมล
ข้อความหรือข้อความอื่นบนอินพุตมาตรฐาน ทำการตรวจสอบทางสถิติกับรายการ "ดี"
และคำที่ "ไม่ดี" และส่งคืนรหัสสถานะที่ระบุว่าข้อความนั้นเป็นสแปมหรือไม่
Bogofilter ได้รับการออกแบบด้วยอัลกอริธึมที่รวดเร็ว ใช้ Berkeley DB เพื่อการเริ่มต้นที่รวดเร็วและ
ค้นหา, เข้ารหัสโดยตรงใน C, และปรับความเร็วเพื่อให้สามารถใช้สำหรับการผลิตโดย
ไซต์ที่ประมวลผลอีเมลจำนวนมาก

ทฤษฎี OF ในการดำเนินกิจการ


Bogofilter ถือว่าข้อมูลที่ป้อนเป็นถุงโทเค็น แต่ละโทเค็นจะถูกตรวจสอบกับรายการคำศัพท์
ซึ่งรักษาจำนวนครั้งที่เกิดขึ้นในอีเมลที่ไม่ใช่สแปมและสแปม
ตัวเลขเหล่านี้ใช้ในการคำนวณค่าประมาณความน่าจะเป็นที่ข้อความซึ่ง
โทเค็นที่เกิดขึ้นคือสแปม สิ่งเหล่านี้รวมกันเพื่อระบุว่าข้อความนั้นเป็นสแปมหรือ
แฮม.

แม้ว่าวิธีนี้จะฟังดูหยาบเมื่อเทียบกับวิธีการจับคู่รูปแบบทั่วไป แต่วิธีนี้
กลับกลายเป็นว่ามีประสิทธิภาพอย่างยิ่ง กระดาษของพอล เกรแฮม A แพ็กเกจ สำหรับ สแปม[1] แนะนำ
การอ่าน

โปรแกรมนี้ช่วยปรับปรุงข้อเสนอของ Paul อย่างมากโดยทำการวิเคราะห์คำศัพท์อย่างชาญฉลาด
Bogofilter ทำการถอดรหัส MIME ที่เหมาะสมและแยกวิเคราะห์ HTML ที่เหมาะสม .ชนิดพิเศษ
โทเค็นเช่นชื่อโฮสต์และที่อยู่ IP จะถูกเก็บไว้เป็นคุณสมบัติการจดจำมากกว่า
เลิกกัน MTA cruft ประเภทต่างๆเช่นวันที่และรหัสข้อความจะถูกละเว้นดังนั้น
เพื่อขยายรายการคำศัพท์ โทเค็นที่พบในฟิลด์ส่วนหัวต่างๆ จะถูกทำเครื่องหมายอย่างเหมาะสม

การปรับปรุงอีกประการหนึ่งคือ โปรแกรมนี้เสนอการแก้ไขที่แนะนำของ Gary Robinson ให้กับ
การคำนวณ (ดูพารามิเตอร์ robx และ robs ด้านล่าง) การปรับเปลี่ยนเหล่านี้คือ
อธิบายไว้ในกระดาษของโรบินสัน สแปม การตรวจพบ[2]

ตั้งแต่นั้นมา โรบินสัน (ดูบทความวารสารลินุกซ์ของเขา A สถิติ เข้าใกล้ ไปยัง สแปม
ปัญหา[3]) และคนอื่นๆ ได้ตระหนักว่าการคำนวณนั้นสามารถเพิ่มประสิทธิภาพได้อีกโดยใช้
วิธีการของฟิชเชอร์ อื่น การปรับปรุง[4] ชดเชยความซ้ำซ้อนของโทเค็นด้วยการสมัคร
แยกปัจจัยขนาดที่มีประสิทธิภาพ (ESF) เพื่อคำนวณความน่าจะเป็นของสแปมและไม่ใช่สแปม

โดยสรุป นี่คือวิธีการทำงาน: ค่าประมาณความน่าจะเป็นของสแปมของแต่ละบุคคล
รวมโทเค็นโดยใช้ "ฟังก์ชันไคสแควร์ผกผัน" ค่าของมันบ่งบอกว่าแย่แค่ไหน
สมมติฐานว่างว่าข้อความเป็นเพียงการรวบรวมคำอิสระด้วย
ความน่าจะเป็นที่ได้รับจากการประมาณการครั้งก่อนของเราล้มเหลว ฟังก์ชันนี้มีความไวต่อ
ความน่าจะเป็นเล็กน้อย (คำหยาบคาย) แต่ไม่น่าเป็นไปได้สูง (คำสแปม); ดังนั้น
ค่านี้บ่งบอกถึงสัญญาณอันตรายที่รุนแรงในข้อความเท่านั้น ตอนนี้ใช้ผกผัน
ความน่าจะเป็นของโทเค็นการคำนวณแบบเดิมอีกครั้งทำให้ตัวบ่งชี้ว่า
ข้อความมีลักษณะเป็นสแปมอย่างยิ่ง ในที่สุด ตัวบ่งชี้ทั้งสองนั้นจะถูกลบออก (และ
แบ่งเป็นช่วง 0-1) ตัวบ่งชี้ที่รวมกันนี้ (ความโกลาหล) อยู่ใกล้กับ 0 ถ้าสัญญาณ
สำหรับข้อความขยะแขยงจะแข็งแกร่งกว่าข้อความสแปมและใกล้เคียงกับ 1 ถ้า
สถานการณ์กลับเป็นตรงกันข้าม หากเครื่องหมายทั้งสองมีค่าเท่ากัน ค่าจะเป็น
ใกล้ 0.5. เนื่องจากข้อความเหล่านั้นไม่ได้ระบุอย่างชัดเจนจึงมีโหมดไตรสเตตใน
bogofilter เพื่อทำเครื่องหมายข้อความเหล่านั้นว่าไม่แน่ใจ ในขณะที่ข้อความที่ชัดเจนจะถูกทำเครื่องหมายว่าเป็นสแปม
หรือแฮมตามลำดับ ในโหมดสองสถานะ ทุกข้อความจะถูกทำเครื่องหมายว่าเป็นสแปมหรือแฮม

พารามิเตอร์ต่างๆ มีอิทธิพลต่อการคำนวณเหล่านี้ ที่สำคัญที่สุดคือ:

robx: คะแนนที่มอบให้กับโทเค็นที่ไม่เคยเห็นมาก่อน robx คือความน่าจะเป็นที่
โทเค็นนั้นเป็นสแปม

robs: น้ำหนักของ robx ซึ่งย้ายความน่าจะเป็นของโทเค็นที่เห็นเล็กน้อยไปยัง robx

min-dev: ระยะห่างขั้นต่ำจาก .5 สำหรับโทเค็นที่จะใช้ในการคำนวณ โทเค็นเท่านั้น
ใช้ค่าที่ห่างจาก 0.5 มากกว่าค่านี้

การตัดสแปม: ข้อความที่มีคะแนนมากกว่าหรือเท่ากับจะถูกทำเครื่องหมายว่าเป็นสแปม

ham-cutoff: หากเป็น XNUMX หรือ spam-cutoff ข้อความทั้งหมดที่มีค่าต่ำกว่า spam-cutoff อย่างเคร่งครัด
ถูกทำเครื่องหมายว่าเป็นแฮม ส่วนอื่นๆ ทั้งหมดเป็นสแปม (สองสถานะ) ค่าอื่นน้อยกว่าหรือเท่ากับ
ham-cutoff ถูกทำเครื่องหมายเป็น ham ข้อความที่มีค่าระหว่าง ham-cutoff และ
การตัดสแปมถูกทำเครื่องหมายว่าไม่แน่ใจ ส่วนที่เหลือเป็นสแปม (tristate)

sp-esf: ปัจจัยขนาดที่มีประสิทธิภาพ (ESF) สำหรับสแปม

ns-esf: ESF สำหรับ nonspam ค่า ESF เหล่านี้เริ่มต้นเป็น 1.0 ซึ่งเหมือนกับไม่
โดยใช้ ESF ในการคำนวณ ค่าที่เหมาะสมกับประชากรอีเมลของผู้ใช้อาจเป็น
กำหนดด้วยความช่วยเหลือของโปรแกรมโบโกทูน

OPTIONS


ตัวเลือกความช่วยเหลือ

พื้นที่ -h ตัวเลือกพิมพ์ข้อความช่วยเหลือและออก

พื้นที่ -V ตัวเลือกพิมพ์หมายเลขเวอร์ชันและออก

พื้นที่ -Q (แบบสอบถาม) ตัวเลือกพิมพ์การกำหนดค่าของ bogofilter เช่นพารามิเตอร์การลงทะเบียน
ตัวเลือกการแยกวิเคราะห์ ไดเร็กทอรี bogofilter ฯลฯ

ตัวเลือกการจำแนกประเภท

พื้นที่ -p (ส่งผ่าน) ตัวเลือกจะส่งข้อความด้วยบรรทัด X-Bogosity ที่ส่วนท้ายของ
ส่วนหัวของข้อความ สิ่งนี้ต้องเก็บข้อความทั้งหมดไว้ในหน่วยความจำเมื่ออ่านจาก
stdin (หรือจากไพพ์หรือซ็อกเก็ต) หากข้อความถูกอ่านจากไฟล์ที่สามารถกรอกลับได้
bogofilter จะอ่านมันอีกครั้ง

พื้นที่ -e (ฝัง) ตัวเลือกบอกให้ bogofilter ออกด้วยรหัส 0 หากข้อความสามารถเป็น
จำแนกประเภทคือถ้าไม่มีข้อผิดพลาด โดยปกติ bogofilter ใช้รหัสที่แตกต่างกันสำหรับ
สแปม แฮม และการจัดประเภทที่ไม่แน่นอน แต่สิ่งนี้ช่วยลดความยุ่งยากในการใช้ bogofilter ด้วย procmail
หรือไปรษณีย์

พื้นที่ -t (สั้น) ตัวเลือกบอกให้ bogofilter พิมพ์ข้อความสแปมแบบย่อ
ประกอบด้วยตัวอักษร 1 ตัวและคะแนน สแปมระบุด้วย "Y" แฮมโดย "N" และไม่แน่ใจด้วย
"ยู". หมายเหตุ: การจัดรูปแบบสามารถปรับแต่งได้โดยใช้ไฟล์ปรับแต่ง

พื้นที่ -T จัดเตรียมโหมดสั้น ๆ ที่ไม่เปลี่ยนแปลงสำหรับสคริปต์ที่จะใช้ bogofilter จะพิมพ์ an
ข้อความสแปมตัวย่อที่มีตัวอักษร 1 ตัวและคะแนน สแปมจะถูกระบุด้วย
ตัว S แฮม ตัว H และตัว U ไม่แน่ใจ

พื้นที่ - อปท จัดเตรียมโหมดสั้น ๆ ที่ไม่เปลี่ยนแปลงสำหรับสคริปต์ที่จะใช้ Bogofilter พิมพ์เฉพาะ
ให้คะแนนและแสดงเป็นตัวเลขนัยสำคัญ 16 หลัก

พื้นที่ -u ตัวเลือกบอกให้ bogofilter ลงทะเบียนข้อความหลังจากจัดว่าเป็นสแปม
หรือไม่ใช่สแปม ข้อความสแปมจะถูกลงทะเบียนในรายการสแปมและข้อความที่ไม่ใช่สแปมบน
รายการที่ดี หากการจัดประเภทเป็น "ไม่แน่ใจ" ข้อความจะไม่ได้รับการลงทะเบียน
ตัวเลือกนี้จะรัน bogofilter ด้วย the . อย่างมีประสิทธิภาพ -s or -n ธงตามความเหมาะสม ข้อควรระวังคือ
กระตุ้นในการใช้ความสามารถนี้เนื่องจากข้อผิดพลาดในการจัดหมวดหมู่ใด ๆ ที่ bogofilter อาจทำให้ will
เก็บไว้และจะสะสมจนกว่าจะแก้ไขด้วยตนเองด้วย -ส และ -NS ตัวเลือก
ชุดค่าผสม หมายเหตุ ตัวเลือกนี้ทำให้ฐานข้อมูลถูกเปิดสำหรับการเข้าถึงการเขียน ซึ่ง
สามารถทำให้เกิดการชะลอตัวครั้งใหญ่ผ่านการโต้แย้งการล็อกและการดำเนินการ I/O แบบซิงโครนัส

พื้นที่ -H ตัวเลือกบอกให้ bogofilter ไม่แท็กโทเค็นจากส่วนหัว ตัวเลือกนี้มีไว้สำหรับ
การทดสอบ คุณไม่ควรใช้มันในการทำงานปกติ

พื้นที่ -M ตัวเลือกบอกให้ bogofilter ประมวลผลอินพุตเป็นไฟล์ที่จัดรูปแบบ mbox ถ้า -v or
-t นอกจากนี้ยังมีตัวเลือก บรรทัด spmicity จะถูกพิมพ์สำหรับแต่ละข้อความ

พื้นที่ -b (โหมดสตรีมเป็นกลุ่ม) ตัวเลือกบอกให้ bogofilter จำแนกวัตถุหลายตัวที่มี
ชื่อจะอ่านจาก stdin ถ้า -v or -t นอกจากนี้ยังมีตัวเลือก bogofilter จะพิมพ์ a
บรรทัดให้ชื่อไฟล์และข้อมูลการจัดหมวดหมู่สำหรับแต่ละไฟล์ เป็นอีกทางเลือกหนึ่ง
ไปยัง -B ซึ่งแสดงรายการวัตถุบนบรรทัดคำสั่ง

วัตถุในบริบทนี้จะเป็น maildir (ตรวจจับอัตโนมัติ) หรือหากไม่ใช่ maildir ให้ a
จดหมายฉบับเดียวเว้นแต่ -M จะได้รับ - ในกรณีนี้จะถูกประมวลผลเป็น mbox (เนื้อหา-ความยาว:
ส่วนหัวไม่ได้ถูกนำมาพิจารณาในขณะนี้)

เมื่ออ่านรูปแบบ mbox bogofilter จะใช้บรรทัดว่างหลังจดหมาย หากมีความจำเป็น,
ฟอร์เมลล์ -es จะทำให้แน่ใจว่าเป็นกรณีนี้

พื้นที่ -B วัตถุ ... (โหมดจำนวนมาก) ตัวเลือกบอกให้ bogofilter จัดประเภทวัตถุหลายตัวที่ชื่อ
บนบรรทัดคำสั่ง วัตถุอาจเป็นชื่อไฟล์ (สำหรับข้อความเดียว) กล่องจดหมาย (files
ที่มีหลายข้อความ) หรือไดเร็กทอรี (ของรูปแบบ maildir และ MH) ถ้า -v or -t ตัวเลือก
จะได้รับ bogofilter จะพิมพ์บรรทัดให้ชื่อไฟล์และการจัดประเภท
ข้อมูลสำหรับแต่ละไฟล์ นี้เป็นทางเลือกแทน -b ซึ่งแสดงรายการวัตถุบน stdin

พื้นที่ -R ตัวเลือกบอกให้ bogofilter ส่งออกเฟรมข้อมูล R ในรูปแบบข้อความบนมาตรฐาน
เอาท์พุท ดูหัวข้อเกี่ยวกับการผสานรวมกับ R ด้านล่างสำหรับรายละเอียดเพิ่มเติม

ตัวเลือกการลงทะเบียน

พื้นที่ -s ตัวเลือกบอกให้ bogofilter ลงทะเบียนข้อความที่แสดงเป็นสแปม ฐานข้อมูลคือ
สร้างขึ้นหากไม่มี

พื้นที่ -n ตัวเลือกบอก bogofilter ให้ลงทะเบียนข้อความที่นำเสนอว่าไม่ใช่สแปม

Bogofilter ตรวจไม่พบว่ามีการลงทะเบียนข้อความสองครั้งหรือไม่ หากคุณทำสิ่งนี้โดยบังเอิญ
จำนวนโทเค็นจะลดลง 1 จากสิ่งที่คุณต้องการและคะแนนสแปมที่เกี่ยวข้อง
จะถูกปิดเล็กน้อย ได้รับโทเค็นและข้อความจำนวนมากในรายการคำศัพท์นี้
ไม่สำคัญ ปัญหา สามารถ ได้รับการแก้ไขโดยใช้ -S หรือตัวเลือก -N ตัวเลือก

พื้นที่ -S ตัวเลือกบอกให้ bogofilter เลิกทำการลงทะเบียนก่อนหน้าของข้อความเดียวกันว่าเป็นสแปม
หากป้อนข้อความว่าเป็นสแปมอย่างไม่ถูกต้องโดย -s or -u และคุณต้องการลบออกและ
ป้อนว่าไม่ใช่สแปม ใช้ -ส. ถ้า -S ใช้สำหรับข้อความที่ไม่ได้ลงทะเบียนเป็นสแปม
การนับจะยังคงลดลง

พื้นที่ -N ตัวเลือกบอกให้ bogofilter ยกเลิกการลงทะเบียนก่อนหน้าของข้อความเดียวกันเป็น
ไม่ใช่สแปม หากป้อนข้อความไม่ถูกต้องว่าไม่ใช่สแปมโดย -n or -u และคุณต้องการ
ลบออกแล้วป้อนเป็นสแปม จากนั้นใช้ -NS. ถ้า -N ใช้สำหรับข้อความที่ไม่ใช่
ลงทะเบียนว่าไม่ใช่สแปม จำนวนจะยังคงลดลง

ตัวเลือกทั่วไป

พื้นที่ -c ชื่อไฟล์ ตัวเลือกบอกให้ bogofilter อ่านไฟล์ปรับแต่งที่ชื่อ

พื้นที่ -C ตัวเลือกป้องกันไม่ให้ bogofilter อ่านไฟล์การกำหนดค่า

พื้นที่ -d dir ตัวเลือกช่วยให้คุณตั้งค่าไดเร็กทอรีสำหรับฐานข้อมูล ดูสิ่งแวดล้อม
ส่วนสำหรับตัวเลือกการตั้งค่าไดเร็กทอรีอื่นๆ

พื้นที่ -k ขนาดแคช ตัวเลือกกำหนดขนาดแคชสำหรับระบบย่อย BerkeleyDB ในหน่วย 1
MiB (1,048,576 ไบต์) การปรับขนาดแคชอย่างเหมาะสมช่วยปรับปรุงประสิทธิภาพของ bogofilter NS
ขนาดที่แนะนำคือหนึ่งในสามของขนาดไฟล์ฐานข้อมูล คุณสามารถเรียกใช้ bogotune
สคริปต์ (ในไดเร็กทอรีการปรับแต่ง) เพื่อกำหนดขนาดที่แนะนำ

พื้นที่ -l อ็อพชันเขียนบรรทัดข้อมูลลงในบันทึกของระบบทุกครั้งที่รัน bogofilter
ข้อมูลที่บันทึกไว้ขึ้นอยู่กับวิธีการเรียกใช้ bogofilter

พื้นที่ -L แท็ก ตัวเลือกกำหนดค่าแท็กซึ่งสามารถรวมอยู่ในข้อมูลที่กำลังเข้าสู่ระบบ
โดย -l แต่ต้องมีรูปแบบที่กำหนดเองซึ่งมีสตริง %l สำหรับตอนนี้
ตัวเลือกนี้หมายถึง -l.

พื้นที่ -I ชื่อไฟล์ ตัวเลือกบอกให้ bogofilter อ่านข้อมูลจากไฟล์ที่ระบุ แทน
กว่าจาก สเตดิน.

พื้นที่ -O ชื่อไฟล์ ตัวเลือกบอก bogofilter ว่าจะเขียนเอาต์พุตอย่างไรในโหมดส่งผ่าน
โปรดทราบว่าสิ่งนี้ใช้ได้เฉพาะเมื่อให้ -p อย่างชัดเจนเท่านั้น

ตัวเลือกพารามิเตอร์

พื้นที่ -E ค่า[,ค่า] ตัวเลือกช่วยให้ตั้งค่า sp-esf และค่า ns-esf กับสอง
ค่าทั้ง sp-esf และ ns-esf ถูกตั้งค่าไว้ หากระบุเพียงค่าเดียว พารามิเตอร์จะถูกตั้งค่าเป็น
อธิบายไว้ในหมายเหตุด้านล่าง

พื้นที่ -m ค่า[,ค่า][,ค่า] ตัวเลือกช่วยให้สามารถตั้งค่า min-dev และตัวเลือก
ค่า robs และ robx ด้วยค่าสามค่า min-dev, robs และ robx จะถูกตั้งค่าทั้งหมด ถ้าน้อยกว่า
ค่าต่างๆ จะได้รับ พารามิเตอร์ต่างๆ ถูกกำหนดตามที่อธิบายไว้ในหมายเหตุด้านล่าง

พื้นที่ -o ค่า[,ค่า] ตัวเลือกช่วยให้การตั้งค่าแฮมตัดแฮมตัดสแปม กับสอง
มีการตั้งค่าทั้งตัวตัดสแปมและตัวตัดแฮม หากระบุเพียงค่าเดียว พารามิเตอร์
ถูกกำหนดตามที่อธิบายไว้ในหมายเหตุด้านล่าง

หมายเหตุ: ตัวเลือกทั้งหมดเหล่านี้อนุญาตให้ระบุค่าได้น้อยลง ค่าสามารถข้ามได้โดย
ใช้เพียงตัวคั่นจุลภาค ซึ่งในกรณีนี้ พารามิเตอร์ที่เกี่ยวข้องจะไม่เป็น
เปลี่ยน. หากระบุเฉพาะค่าแรก ให้ตั้งค่าเฉพาะพารามิเตอร์แรกเท่านั้น
สามารถข้ามค่าต่อท้ายได้ ซึ่งในกรณีนี้ พารามิเตอร์ที่เกี่ยวข้องจะไม่เป็น
เปลี่ยน. ภายในรายการพารามิเตอร์ ไม่อนุญาตให้เว้นวรรคหลังเครื่องหมายจุลภาค

ตัวเลือกข้อมูล

พื้นที่ -v ตัวเลือกสร้างรายงานไปยังเอาต์พุตมาตรฐานเกี่ยวกับการวิเคราะห์อินพุตของ bogofilter
แต่ละเพิ่มเติม v จะเพิ่มความละเอียดของเอาต์พุตได้สูงสุด 4 ด้วย
-vvรายงานแสดงรายการโทเค็นที่มีค่าเบี่ยงเบนสูงสุดจากค่าเฉลี่ย 0.5 สมาคม
ด้วยสแปม

ตัวเลือกเสริม (Option) -y ข้อมูล สามารถใช้เพื่อแทนที่วันที่ปัจจุบันเมื่อประทับเวลาโทเค็น ค่า
จากศูนย์ (0) จะปิดการประทับเวลา

พื้นที่ -D ตัวเลือกเปลี่ยนเส้นทางเอาต์พุตการดีบักไปที่ stdout

พื้นที่ -x ธง ตัวเลือกอนุญาตให้ตั้งค่าสถานะการดีบักสำหรับการพิมพ์ข้อมูลการดีบัก ดู
ไฟล์ส่วนหัว debug.h สำหรับรายการแฟล็กที่ใช้งานได้

กำหนดค่าตัวเลือกไฟล์

ใช้ GNU longopt -- ไวยากรณ์ ไฟล์ปรับแต่งของ ชื่อ=ค่า คำสั่งกลายเป็นบรรทัดคำสั่งของ
--ตัวเลือก=ค่า. ใช้คำสั่ง โบโกฟิลเตอร์ --ช่วยด้วย สำหรับรายการตัวเลือกและดู
bogofilter.cf.example สำหรับข้อมูลเพิ่มเติม ตัวอย่างเช่น การเปลี่ยนส่วนหัว X-Bogosity
ไปที่ "X-Spam-Header" ให้ใช้:

--spam-header-name=X-สแปม-Header

และพวกเรา


Bogofilter ใช้ไดเร็กทอรีฐานข้อมูล ซึ่งสามารถตั้งค่าได้ในไฟล์ปรับแต่ง ถ้าไม่ตั้ง
ที่นั่น bogofilter จะใช้ค่าของ BOGOFILTER_DIR. ทั้งสองสามารถแทนที่ได้โดย -d
dir ตัวเลือก. หากไม่มีตัวเลือกดังกล่าว bogofilter จะใช้ไดเร็กทอรี $HOME/.bogofilter

การกำหนดค่า


บรรทัดคำสั่ง bogofilter อนุญาตให้ตั้งค่าตัวเลือกมากมายที่กำหนดว่า bogofilter เป็นอย่างไร
ทำงาน ไฟล์ /etc/bogofilter.cf สามารถใช้เพื่อตั้งค่าพารามิเตอร์เพิ่มเติมที่ส่งผลต่อ
การดำเนินการ. ไฟล์ /etc/bogofilter.cf.example มีตัวอย่างของพารามิเตอร์ทั้งหมด สถานะ
และข้อความบันทึกสามารถกำหนดเองได้สำหรับแต่ละไซต์

กลับ VALUES


0 สำหรับสแปม; 1 สำหรับผู้ที่ไม่ใช่สแปม 2 ไม่แน่ใจ ; 3 สำหรับ I/O หรือข้อผิดพลาดอื่นๆ

ถ้าทั้งสองอย่าง -p และ -e ถูกใช้ ค่าที่ส่งคืนคือ: 0 สำหรับสแปมหรือไม่ใช่สแปม 3 สำหรับ I/O หรือ
ข้อผิดพลาดอื่นๆ

ข้อผิดพลาด 3 มักจะหมายความว่าไฟล์รายการคำ bogofilter ต้องการอ่านเมื่อเริ่มต้นคือ
หายไปหรือฮาร์ดดิสก์เต็มไปใน -p โหมด.

บูรณาการ กับ อื่น ๆ TOOLS


ใช้กับ procmail

สูตรต่อไปนี้ (ก) สแปมถังขยะทุกอย่างที่ bogofilter ให้คะแนนว่าเป็นสแปม (b) ลงทะเบียน
คำในข้อความที่จัดว่าเป็นสแปม และ (c) ลงทะเบียนคำในข้อความที่จัดเรต
ไม่ใช่สแปมเช่นนั้น ด้วยสิ่งนี้ โดยปกติแล้วจะมีความจำเป็นสำหรับผู้ใช้เท่านั้น
เข้าแทรกแซง (ด้วย -NS or -ส) เมื่อ bogofilter จัดหมวดหมู่บางอย่างผิด

# กรองเมลผ่าน bogofilter ติดแท็กเป็น Ham, Spam หรือ Unsure
#และอัพเดทรายการคำศัพท์

:0fw
| โบโกฟิลเตอร์ -u -e -p

# หาก bogofilter ล้มเหลว ให้ส่งคืนเมลไปที่คิว
# MTA จะพยายามส่งอีกครั้งในภายหลัง
# 75 คือค่าสำหรับ EX_TEMPFAIL ใน /usr/include/sysexits.h

:0e
{ EXITCODE=75 โฮสต์ }

# ส่งเมลไปที่ spam-bogofilter หากเป็นสแปม

: 0:
* ^X-Bogosity: สแปม การทดสอบ=bogofilter
สแปม-bogofilter

# ส่งเมลไปที่ unsure-bogofilter
#ถ้าไม่ใช่ทั้งแฮมและสแปม

: 0:
* ^X-Bogosity: ไม่แน่ใจ การทดสอบ=bogofilter
ไม่แน่ใจ-bogofilter

# ด้วยสูตรนี้ คุณสามารถฝึก bogofilter โดยเริ่มจากว่างเปล่า
#รายการคำศัพท์ อย่าลืมตรวจสอบโฟลเดอร์ที่ไม่แน่ใจของคุณเป็นประจำ ใช้
# ข้อความจากนั้นจัดประเภทเป็นแฮม (หรือสแปม) และใช้เพื่อ
#รถไฟโบโกฟิลเตอร์

กฎ procmail ต่อไปนี้จะใช้เมลบน stdin และบันทึกลงในไฟล์สแปมหาก bogofilter
คิดว่าเป็นสแปม:

:0HB:
* ? โบโกฟิลเตอร์
สแปม

และกฎที่คล้ายกันนี้จะลงทะเบียนโทเค็นทางไปรษณีย์ตาม
การจำแนก bogofilter:

:0HB:
* ? โบโกฟิลเตอร์ -u
สแปม

หาก bogofilter ล้มเหลว (ส่งคืน 3) ข้อความจะถือว่าไม่ใช่สแปม

อันนี้สำหรับ maildrop มันจะเลื่อนเมลโดยอัตโนมัติและลองอีกครั้งในภายหลังเมื่อ
คำสั่ง xfilter ล้มเหลว ใช้สิ่งนี้ใน your ~/.mailfilter:

xfilter "bogofilter -u -e -p"
ถ้า (/^X-Bogosity: สแปม, การทดสอบ=bogofilter/)
{
ไปที่ "spam-bogofilter"
}

บรรทัด .muttrc ต่อไปนี้จะสร้างมาโคร mutt สำหรับส่งจดหมายไปยัง bogofilter

ดัชนีมาโคร d " ยกเลิกการตั้งค่า wait_key\n\
bogofilter -n\n\
ตั้งค่า wait_key\n\
" "ลบข้อความว่าไม่ใช่สแปม"
ดัชนีมาโคร \ed " ยกเลิกการตั้งค่า wait_key\n\
bogofilter -s\n\
ตั้งค่า wait_key\n\
" "ลบข้อความที่เป็นสแปม"

บูรณาการกับตัวแทนการขนส่งทางไปรษณีย์ (MTA)

1. bogofilter ยังสามารถรวมเข้ากับ MTA เพื่อกรองจดหมายขาเข้าทั้งหมด ในขณะที่
การใช้งานเฉพาะขึ้นอยู่กับ MTA ขั้นตอนทั่วไปมีดังนี้:

2. ติดตั้ง bogofilter บนเซิร์ฟเวอร์เมล

3. ไพรม์ฐานข้อมูล bogofilter ด้วยคลังข้อมูลสแปมและไม่ใช่สแปม เนื่องจาก bogofilter will
เพื่อให้บริการชุมชนขนาดใหญ่ สิ่งสำคัญคือต้องเตรียมชุดตัวแทนไว้ด้วย
ของข้อความ

4. ตั้งค่า MTA เพื่อเรียกใช้ bogofilter ในแต่ละข้อความ ขณะนี้เป็น MTA เฉพาะ
ขั้นตอนคุณอาจต้องใช้ -p, -uและ -e ตัวเลือก

5. ตั้งค่ากลไกให้ผู้ใช้ลงทะเบียนข้อความสแปม/ไม่ใช่สแปม ตลอดจนแก้ไข
การจัดประเภทที่ไม่ถูกต้อง วิธีแก้ปัญหาทั่วไปที่สุดคือการตั้งค่าที่อยู่อีเมลแทนเป็น
ที่ผู้ใช้ตีกลับข้อความ

6. ดูข้อมูลเพิ่มเติมในไดเร็กทอรี doc และ contrib

การใช้ R เพื่อตรวจสอบการคำนวณของ bogofilter

ตัวเลือก -R บอกให้ bogofilter สร้างกรอบข้อมูล R กรอบข้อมูลประกอบด้วยหนึ่ง
แถวต่อโทเค็นที่วิเคราะห์ แต่ละแถวดังกล่าวมีโทเค็น ผลรวมของฐานข้อมูล "ดี"
และการนับ "สแปม" การนับ "ดี" หารด้วยจำนวนข้อความที่ไม่ใช่สแปมที่ใช้เพื่อ
สร้างฐานข้อมูลการฝึกอบรม จำนวน "สแปม" หารด้วยจำนวนข้อความสแปม
f(w) ของ Robinson สำหรับโทเค็น บันทึกธรรมชาติของ (1 - f(w)) และ f(w) และตัวบ่งชี้
อักขระ (+ หากค่า f(w) ของโทเค็นเกินค่าเบี่ยงเบนขั้นต่ำจาก 0.5 - ถ้า
ไม่ได้) มีแถวเพิ่มเติมที่ส่วนท้ายของตารางที่มีป้ายกำกับใน
ช่องโทเค็น ตามด้วยจำนวนคำที่ใช้จริง (คำที่มีเครื่องหมาย +)
ค่า P, Q, S, s และ x ของ Robinson และค่าเบี่ยงเบนต่ำสุด

กรอบข้อมูล R สามารถบันทึกลงในไฟล์แล้วอ่านในเซสชัน R ในภายหลัง (ดู R
โครงการ เว็บไซต์[5] สำหรับข้อมูลเกี่ยวกับแพ็คเกจคณิตศาสตร์ R) มาพร้อมกับ
การกระจาย bogofilter เป็นสคริปต์ R แบบง่าย (ไฟล์ bogo.R) ที่สามารถใช้ตรวจสอบได้
การคำนวณของ bogofilter คำแนะนำสำหรับการใช้งานรวมอยู่ในสคริปต์ในแบบฟอร์ม
ของความคิดเห็น

กรุณาเข้าสู่ระบบ ข้อความ


Bogofilter เขียนข้อความไปยังบันทึกของระบบเมื่อ -l ใช้ตัวเลือก สิ่งที่เขียน
ขึ้นอยู่กับแฟล็กอื่นที่ใช้

การจัดประเภทจะสร้าง (เราไม่แสดงวันที่และส่วนของโฮสต์ที่นี่):

bogofilter[1412]: X-Bogosity: แฮม, spamicity=0.000227
bogofilter[1415]: X-Bogosity: สแปม สแปม=0.998918

การใช้ -u เพื่อจัดประเภทข้อความและอัปเดตรายการคำศัพท์จะสร้าง (หนึ่งบรรทัดเดียว):

bogofilter[1426]: X-Bogosity: สแปม, สแปม = 0.998918,
ลงทะเบียน -s, 329 คำ, 1 ข้อความ

การลงทะเบียนคำ (-l และ -s, -n, -S,หรือ -N) จะสร้าง:

bogofilter[1440]: register-n, 255 คำ, 1 ข้อความ

ดำเนินการลงทะเบียน (โดยใช้ -s, -n, -N,หรือ -S) จะสร้างข้อความเช่น:

bogofilter[17330]: register-n, 574 คำ, 3 ข้อความ
bogofilter[6244]: register-s, 1273 คำ, 4 ข้อความ

ใช้ bogofilter-bdb ออนไลน์โดยใช้บริการ onworks.net


เซิร์ฟเวอร์และเวิร์กสเตชันฟรี

ดาวน์โหลดแอพ Windows & Linux

คำสั่ง Linux

Ad