นี่คือแถบคำสั่งที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
swath - ยูทิลิตี้การแบ่งส่วนคำภาษาไทยทั่วไป
เรื่องย่อ
แนว [ตัวเลือก] แฟ้ม > ออกจากไฟล์
DESCRIPTION
อักษรไทยไม่มีตัวคั่นคำ แอปพลิเคชันต้องรู้จักขอบเขตของคำก่อน
พวกเขาสามารถทำสิ่งที่มีประโยชน์ด้วยข้อความภาษาไทยเช่นการห่อบรรทัด
Swath มีตัวกรองการวิเคราะห์คำเพื่อแทรกตัวคั่นคำลงในสตรีมข้อความที่กำหนด
อ่านข้อความจากการป้อนข้อมูลมาตรฐาน วิเคราะห์ขอบเขตของคำโดยปรึกษาคนไทย
รายการคำและส่งออกไปยังเอาต์พุตมาตรฐานข้อความเดียวกันกับตัวคั่นคำที่กำหนดไว้ล่วงหน้า
แทรก
ปัจจุบันสามารถอ่านข้อความธรรมดา, HTML, RTF, LaTeX และ Lambda (เวอร์ชัน Unicode ของ LaTeX
ด้วยเคอร์เนลตัวเรียงพิมพ์ Omega) และแทรกตัวคั่นคำทั่วไปสำหรับแต่ละรูปแบบ
(ไปป์ `|' สำหรับข้อความธรรมดา) แต่ผู้ใช้สามารถแทนที่สิ่งนี้ได้ด้วยตัวคั่นที่ต้องการ
OPTIONS
-b [ตัวคั่น]
กำหนดสตริงที่จะใช้เป็นรหัสตัวคั่นคำในข้อความที่ส่งออก
-d [dict เส้นทาง]
ระบุตำแหน่งพจนานุกรมสำรอง dict เส้นทาง ต้องเป็นไดเร็กทอรีอย่างใดอย่างหนึ่ง
มีไฟล์พจนานุกรม swath `swathdic.tri' หรือพาธไปยังพจนานุกรม
ไฟล์นั้นเอง ไฟล์พจนานุกรมต้องเป็นไฟล์ Trie ที่จัดเตรียมโดยใช้
ไตรเครื่องมือ-0.2(1) ยูทิลิตี้จากแพ็คเกจ libdatrie
หากมีตัวเลือกนี้ แนว จะแทนที่การค้นหาพจนานุกรมปกติและจะออก
เมื่อไม่พบพจนานุกรมที่ระบุ มิฉะนั้น ถ้า สวาทดิกต์ สภาพแวดล้อมคือ
ตั้งค่ามันจะพยายามเปิดพจนานุกรมจากตำแหน่งที่ระบุโดยค่าของมัน
มิฉะนั้น มันจะลองไดเร็กทอรีการทำงานปัจจุบัน และสุดท้ายคือ ปกติ
ตำแหน่งที่ติดตั้ง
-f [รูป]
ระบุรูปแบบของอินพุต รูปแบบที่เป็นไปได้คือ: html, rtf, latex, lambda
-m [โครงการ]
เลือกรูปแบบการจับคู่คำเมื่อวิเคราะห์ขอบเขตของคำ แผนการที่เป็นไปได้คือ
`long' (สำหรับการจับคู่ที่ยาวที่สุดหรือโลภ) และ `max' (สำหรับการจับคู่สูงสุด มีค่าน้อยที่สุด
คำที่ต้องการ) การจับคู่สูงสุดเป็นค่าเริ่มต้น
-u อินพุต-enc,เอาท์พุท-enc
ระบุการเข้ารหัสของอินพุตและเอาต์พุต อินพุต-enc และ เอาท์พุท-enc สามารถเป็นหนึ่งใน 'คุณ'
(สำหรับการเข้ารหัส UTF-8) และ 't' (สำหรับการเข้ารหัส TIS-620) Swath จะแปลง
การเข้ารหัสอักขระตามความจำเป็น หากไม่ระบุ ให้เข้ารหัส TIS-620 ทั้งอินพุตและ
ถือว่าเอาท์พุต
-ใน, --รายละเอียด
เปิดโหมด verbose
-ช่วย, --ช่วยด้วย
แสดงความช่วยเหลือ
และพวกเรา ตัวแปร
สวาทดิกต์
หากระบุไว้ แนว จะค้นหาพจนานุกรมในตำแหน่งนี้ก่อนเวลาปกติ
สถานที่ (ไดเร็กทอรีการทำงานปัจจุบันและไดเร็กทอรีที่ติดตั้งตามปกติ ตามลำดับ)
ค่านี้ถูกแทนที่โดย -d ตัวเลือก
ตัวอย่าง
สำหรับ LaTeX (ใช้กับแพ็คเกจ Babel-thai):
$ แนว -f น้ำยาง < thaifile.tex > thaifile.ttex
$ น้ำยาง thaifile.ttex
สำหรับ HTML (เพื่อจัดเตรียมหน้าเว็บให้กับเว็บเบราว์เซอร์ที่ไม่สามารถตัดเส้นภาษาไทยได้อย่างถูกต้อง แต่
สนับสนุนแท็ก):
$ แนว -f html < myweb.html > myweb-wbr.html
ในการประมวลผลไฟล์ LaTeX ที่เข้ารหัส Thai UTF-8 ล่วงหน้าสำหรับ babel-thai ด้วย tis620 inputenc:
$ แนว -f latex -uu,t < thaifile.tex > thaifile.ttex
$ น้ำยาง thaifile.ttex
ซึ่งเทียบเท่ากับการกรองด้วย iconv(1):
$ iconv -f UTF-8 -t มอก.-620 thaifile.tex | แนว -f น้ำยาง > thaifile.ttex
$ น้ำยาง thaifile.ttex
ในการใช้รูปแบบการจับคู่ที่ยาวที่สุดกับเอกสาร LaTeX:
$ แนว -f latex -m ยาว < thaifile.tex > thaifile.ttex
$ น้ำยาง thaifile.ttex
ในการใช้พจนานุกรมทางเลือกจาก libthai:
$ แนว -f latex -d /usr/share/libthai/thbrk.tri < thaifile.tex > thaifile.ttex
ใช้แถบออนไลน์โดยใช้บริการ onworks.net