นี่คือคำสั่ง ids2ngram ที่สามารถเรียกใช้ในผู้ให้บริการโฮสติ้งฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
ids2ngram - สร้างไฟล์ข้อมูล n-gram จากไฟล์ ids
เรื่องย่อ
id2ngram [ตัวเลือก] ... ids_file...
DESCRIPTION
รหัส2ngram สร้างไฟล์ idngram ซึ่งเป็นอาร์เรย์ [id1,..,idN,freq] ที่เรียงลำดับจากไบนารี
ไฟล์สตรีมไอดี ที่นี่ไฟล์สตรีม id ถูกสร้างขึ้นโดย .เสมอ มม or สล์มเซก.
โดยพื้นฐานแล้วจะพบสิ่งอันดับ n-words ทั้งหมด (เช่น tuple ของ (id1,..,idN)) และ
เรียงลำดับ tuples เหล่านี้ตาม lexicographic order ของ id ประกอบเป็น tuples แล้วเขียน
ไปยังไฟล์เอาต์พุตที่ระบุ
INPUT
ไฟล์อินพุตถูกนำเสนอเป็นสตรีม id ไบนารี ซึ่งมีลักษณะดังนี้:
[id0,...,idX]
OPTIONS
ตัวเลือกต่อไปนี้ทั้งหมดเป็นข้อบังคับ
-n,--เอ็นแม็กซ์ N
สร้าง N-แกรมผลลัพธ์ รหัส2ngram รองรับเฉพาะ uni-gram, bi-gram และ trigram
ดังนั้นตัวเลขใดๆ ที่ไม่อยู่ในช่วง 1..3 จึงไม่ถูกต้อง
-s,--แลกเปลี่ยน สลับไฟล์
ระบุไฟล์ระดับกลางชั่วคราว
-o, --ออก ไฟล์เอาต์พุต
ระบุไฟล์ idngram ของผลลัพธ์ เช่น อาร์เรย์ของ [id1, ..., idN, freq]
-p, --วรรค N
ระบุรายการ n-gram สูงสุดต่อย่อหน้า รหัส2ngram เขียนไปยังไฟล์ชั่วคราว
ตามวรรคหนึ่ง ทุกครั้งที่เขียนย่อหน้า จะทำให้
หน่วยความจำที่เกี่ยวข้องจัดสรรไว้สำหรับมัน เมื่อระบบคอมพิวเตอร์ของคุณอนุญาต N
จะแนะนำ สิ่งนี้สามารถเร่งความเร็วในการประมวลผลได้เนื่องจาก I/O น้อยลง
ตัวอย่าง
ตัวอย่างต่อไปนี้จะใช้ไฟล์ idstream อินพุตสามไฟล์ idsfile[1,2,3] เพื่อสร้าง
ไฟล์ idngram all.id3gram แต่ละพารา (ขนาดแผนที่ภายในหรือขนาดแฮช) จะเป็น 1024000
ใช้ไฟล์ swap สำหรับผลลัพธ์ชั่วคราว ในที่สุดผลลัพธ์ temp para ทั้งหมดจะถูกรวมเข้ากับ got
ผลสุดท้าย
รหัส2ngram -n 3 -s /tmp/สวอป -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
ใช้ ids2ngram ออนไลน์โดยใช้บริการ onworks.net