यह कमांड ids2ngram है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
ids2ngram - आईडी फ़ाइल से एन-ग्राम डेटा फ़ाइल उत्पन्न करें
SYNOPSIS
आईडी2एनग्राम [विकल्प] ... ids_file...
वर्णन
ids2ngram आईडीएनग्राम फ़ाइल उत्पन्न करता है, जो बाइनरी से एक क्रमबद्ध [id1,..,idN,freq] सरणी है
आईडी स्ट्रीम फ़ाइलें। यहां, आईडी स्ट्रीम फ़ाइलें हमेशा उत्पन्न होती हैं mmseg or slmseg.
मूल रूप से, यह n-शब्द टुपल्स (यानी (id1,..,idN) का टुपल) की सभी घटनाओं का पता लगाता है, और
इन टुपल्स को आईडी के शब्दकोषीय क्रम के आधार पर क्रमित करके टुपल्स बनाएं, फिर लिखें
उन्हें निर्दिष्ट आउटपुट फ़ाइल में।
इनपुट
इनपुट फ़ाइल को बाइनरी आईडी स्ट्रीम के रूप में प्रस्तुत किया जाता है, जो इस प्रकार दिखती है:
[id0,...,idX]
विकल्प
निम्नलिखित सभी विकल्प अनिवार्य हैं।
-n,--एनमैक्स N
उत्पन्न करता है N-ग्राम परिणाम. ids2ngram केवल यूनी-ग्राम, बाई-ग्राम और ट्रिग्राम का समर्थन करता है,
इसलिए कोई भी संख्या जो 1..3 की सीमा में नहीं है वह मान्य नहीं है।
-s,--स्वैप फ़ाइल की अदला - बदली करें
अस्थायी मध्यवर्ती फ़ाइल निर्दिष्ट करें.
-o, --बाहर निर्गम संचिका
परिणाम आईडीएनग्राम फ़ाइल निर्दिष्ट करें, उदाहरण के लिए [id1, ..., idN, freq] की सरणी
-p, --पैरा N
प्रति अनुच्छेद अधिकतम एन-ग्राम आइटम निर्दिष्ट करें। ids2ngram अस्थायी फ़ाइल में लिखता है
प्रति-पैराग्राफ के आधार पर। हर बार जब यह एक पैराग्राफ लिखता है, तो यह मुक्त हो जाता है
इसके लिए संबंधित मेमोरी आवंटित की गई है। जब आपका कंप्यूटर सिस्टम अनुमति देता है, तो उच्चतर N
सुझाव दिया गया है. यह कम I/O के कारण प्रोसेसिंग गति को तेज़ कर सकता है।
उदाहरण
निम्नलिखित उदाहरण उत्पन्न करने के लिए तीन इनपुट आईडीस्ट्रीम फ़ाइल idsfile[1,2,3] का उपयोग करेगा
idngram फ़ाइल all.id3gram. प्रत्येक पैरा (आंतरिक मानचित्र आकार या हैश आकार) 1024000 होगा,
अस्थायी परिणाम के लिए स्वैप फ़ाइल का उपयोग करना। अंततः सभी अस्थायी पैरा परिणाम को मिला दिया जाएगा
अंतिम परिणाम.
ids2ngram -n 3 -s /tmp/स्वैप -o all.id3gram -p 1024000 आईडीफ़ाइल1 आईडीफ़ाइल2 आईडीफ़ाइल3
onworks.net सेवाओं का उपयोग करके ids2ngram का ऑनलाइन उपयोग करें