هذا هو الأمر ids2ngram الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
ids2ngram - إنشاء ملف بيانات n-gram من ملف ids
موجز
ids2ngram [خيار] ... ids_file
الوصف
ids2ngram ينشئ ملف idngram، وهو عبارة عن مصفوفة مرتبة [id1,..,idN,freq]، من ثنائي
معرف دفق الملفات. هنا ، يتم دائمًا إنشاء ملفات دفق المعرف بواسطة mmseg or slmseg.
في الأساس، فإنه يجد كل تكرار لصفوف الكلمات n (أي صف (id1,..,idN))، و
فرز هذه الصف حسب الترتيب المعجمي للمعرفات التي تشكل الصف، ثم الكتابة
لهم إلى ملف الإخراج المحدد.
INPUT
يتم تقديم ملف الإدخال كتدفق معرف ثنائي ، والذي يبدو مثل:
[id0، ...، idX]
OPTIONS
جميع الخيارات التالية إلزامية.
-n,- N ماكس N
يولد Nنتيجة غرام. ids2ngram يدعم فقط أحادي جرام ، وبي جرام ، وتريجرام ،
لذا فإن أي رقم ليس في النطاق 1..3 غير صالح.
-s,--مبادلة، مقايضة مبادلة الملف
حدد الملف الوسيط المؤقت.
-o, --خارج ملف إلاخراج
حدد ملف idngram الناتج، على سبيل المثال مصفوفة [id1, ..., idN, freq]
-p, - فقرة N
حدد الحد الأقصى لعناصر n-gram لكل فقرة. ids2ngram يكتب إلى الملف المؤقت
على أساس كل فقرة. في كل مرة يكتب فيها فقرة ، فإنه يحرر ملف
الذاكرة المقابلة المخصصة لذلك. عندما يسمح نظام الكمبيوتر الخاص بك، أعلى N
ويقترح. يمكن أن يؤدي ذلك إلى تسريع سرعة المعالجة بسبب قلة الإدخال / الإخراج.
مثال
سيستخدم المثال التالي ثلاثة ملفات idstream idsfile[1,2,3] لإنشاء الملف
ملف idngram all.id3gram. كل فقرة (حجم الخريطة الداخلية أو حجم التجزئة) سيكون 1024000 ،
باستخدام ملف المبادلة لنتيجة مؤقتة. سيتم في نهاية المطاف دمج جميع نتائج الفقرة المؤقتة للحصول عليها
النتيجة النهائية.
ids2ngram -n 3 -s / tmp / مبادلة -o id3gram -p 1024000 idsfile1 idsfile2 idsfile3
استخدم ids2ngram عبر الإنترنت باستخدام خدمات onworks.net