นี่คือคำสั่ง mmseg ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
mmseg - ข้อความภาษาจีนส่วนที่ตรงกันสูงสุด
เรื่องย่อ
มม -d dict_file [ตัวเลือก-Corpus_file] ...
DESCRIPTION
มม เป็นเครื่องมือสำหรับแบ่งข้อความภาษาจีนออกเป็นคำโดยใช้อัลกอริธึมการจับคู่สูงสุด
มม กลุ่ม Corpus_fileหรืออินพุตมาตรฐานหากไม่มีการระบุชื่อไฟล์ และเขียน
แบ่งผลลัพธ์เป็นเอาต์พุตมาตรฐาน
OPTIONS
-d dict_file
ใช้ dict_file เป็นศัพท์เฉพาะ พจนานุกรมเริ่มต้นสามารถพบได้ที่
/usr/share/sunpinyin-slm/dict.utf8.
-f,--รูปแบบ (ข้อความ|ถัง)
รูปแบบเอาต์พุต อาจเป็น 'ข้อความ' หรือ 'bin' 'bin' เริ่มต้น โดยปกติในโหมดข้อความ word
ข้อความจะถูกส่งออก ในขณะที่อยู่ในโหมดไบนารี จำนวนเต็มสั้นไบนารีของรหัสคำคือ
เขียนถึง stdout
-s, --สตอค STOK_ID
รหัสโทเค็นประโยค ค่าเริ่มต้น 10 มันจะถูกเขียนไปยังเอาต์พุตในโหมดไบนารีหลังจาก
ทุกประโยค
-i, --show-id
แสดงข้อมูลรหัส ภายใต้โหมดรูปแบบเอาต์พุตข้อความ ให้แนบ id หลังคำที่รู้จัก ถ้าต่ำกว่า
โหมดไบนารี รหัสการพิมพ์ในข้อความ
-a, --ambigious-id AMBI-ID
ความหมายคลุมเครือ เอบีซี => A BC or AB C. ถ้าระบุ (AMBI-ID != 0), ลำดับ เอบีซี
จะไม่ถูกแบ่งในโหมดไบนารี the AMBI-ID ถูกเขียนออกมา; ในโหมดข้อความ
" ABC " จะถูกส่งออก ค่าเริ่มต้นคือ 0
หมายเหตุ
ภายใต้ ไบนารี โหมด id ที่ต่อเนื่องกันของ 0 จะถูกรวมเป็น 0 เดียว ภายใต้ ข้อความ โหมดไม่มีช่องว่าง
ถูกแทรกระหว่างคำที่ไม่รู้จัก
ใช้ mmseg ออนไลน์โดยใช้บริการ onworks.net