এটি হল ids2ngram কমান্ড যা আমাদের একাধিক বিনামূল্যের অনলাইন ওয়ার্কস্টেশন যেমন উবুন্টু অনলাইন, ফেডোরা অনলাইন, উইন্ডোজ অনলাইন এমুলেটর বা MAC OS অনলাইন এমুলেটর ব্যবহার করে OnWorks ফ্রি হোস্টিং প্রদানকারীতে চালানো যেতে পারে।
কার্যক্রম:
NAME এর
ids2ngram - আইডি ফাইল থেকে এন-গ্রাম ডেটা ফাইল তৈরি করুন
সাইনোপিসিস
ids2ngram [পছন্দ] ... ids_file...
বর্ণনাঃ
ids2ngram idngram ফাইল তৈরি করে, যা বাইনারি থেকে একটি সাজানো [id1,..,idN,freq] অ্যারে।
আইডি স্ট্রিম ফাইল। এখানে, আইডি স্ট্রিম ফাইলগুলি সর্বদা তৈরি হয় mmseg or slmseg.
মূলত, এটি n-শব্দের টিপল (যেমন (id1,..,idN) এর টিপল) এবং
এই টিপলগুলিকে id এর অভিধানিক ক্রম অনুসারে সাজান tuples তৈরি করে, তারপর লিখুন
নির্দিষ্ট আউটপুট ফাইল তাদের.
ইনপুট
ইনপুট ফাইলটি একটি বাইনারি আইডি স্ট্রিম হিসাবে উপস্থাপিত হয়, যা দেখতে এইরকম:
[id0,...,idX]
বিকল্প
নিম্নলিখিত সব বিকল্প বাধ্যতামূলক.
-n,--NMax N
উত্পন্ন N-গ্রাম ফলাফল। ids2ngram শুধুমাত্র uni-gram, bi-gram, এবং trigram সমর্থন করে,
তাই 1..3 এর পরিসরে না থাকা যেকোনো সংখ্যা বৈধ নয়।
-s,-- অদলবদল সোয়াপ-ফাইল
অস্থায়ী মধ্যবর্তী ফাইলটি উল্লেখ করুন।
-o, --আউট আউটপুট ফাইল
ফলাফল idngram ফাইলটি নির্দিষ্ট করুন, যেমন [id1, ..., idN, freq] এর অ্যারে
-p, --পাড়া N
অনুচ্ছেদ প্রতি সর্বোচ্চ n-গ্রাম আইটেম নির্দিষ্ট করুন. ids2ngram অস্থায়ী ফাইলে লেখে
প্রতি অনুচ্ছেদের ভিত্তিতে। প্রতিবার এটি একটি অনুচ্ছেদ আউট লিখে, এটি মুক্ত করে
এর জন্য বরাদ্দকৃত মেমরি। যখন আপনার কম্পিউটার সিস্টেম অনুমতি দেয়, একটি উচ্চতর N
প্রস্তাবিত হয়। কম I/O এর কারণে এটি প্রক্রিয়াকরণের গতি বাড়িয়ে তুলতে পারে।
EXAMPLE টি
নিম্নলিখিত উদাহরণটি তৈরি করতে তিনটি ইনপুট idstream ফাইল idsfile[1,2,3] ব্যবহার করবে
idngram ফাইল all.id3gram. প্রতিটি প্যারা (অভ্যন্তরীণ মানচিত্রের আকার বা হ্যাশ আকার) হবে 1024000,
অস্থায়ী ফলাফলের জন্য সোয়াপ ফাইল ব্যবহার করে। সমস্ত টেম্প প্যারা ফলাফল অবশেষে পেয়ে একত্রিত করা হবে
চূড়ান্ত ফলাফল।
ids2ngram -n 3 -s /tmp/swap -o all.id3gram -p 1024000 idsfile1 idsfile2 idsfile3
onworks.net পরিষেবা ব্যবহার করে অনলাইনে ids2ngram ব্যবহার করুন