यह CC-Net नाम का एक Linux ऐप है जिसका नवीनतम संस्करण cc_net1.0.0sourcecode.tar.gz के रूप में डाउनलोड किया जा सकता है। इसे वर्कस्टेशन के लिए मुफ़्त होस्टिंग प्रदाता OnWorks पर ऑनलाइन चलाया जा सकता है।
CC-Net नामक इस ऐप को OnWorks के साथ मुफ्त में डाउनलोड करें और ऑनलाइन चलाएँ।
इस ऐप को चलाने के लिए इन निर्देशों का पालन करें:
- 1. इस एप्लिकेशन को अपने पीसी में डाउनलोड करें।
- 2. हमारे फ़ाइल प्रबंधक में https://www.onworks.net/myfiles.php?username=XXXXX उस उपयोगकर्ता नाम के साथ दर्ज करें जो आप चाहते हैं।
- 3. इस एप्लिकेशन को ऐसे फाइल मैनेजर में अपलोड करें।
- 4. इस वेबसाइट से ऑनवर्क्स लिनक्स ऑनलाइन या विंडोज ऑनलाइन एमुलेटर या मैकोज़ ऑनलाइन एमुलेटर शुरू करें।
- 5. ऑनवर्क्स लिनक्स ओएस से आपने अभी शुरुआत की है, हमारे फाइल मैनेजर को https://www.onworks.net/myfiles.php?username=XXXXX उस यूजरनेम के साथ जाएं जो आप चाहते हैं।
- 6. एप्लिकेशन डाउनलोड करें, इसे इंस्टॉल करें और इसे चलाएं।
स्क्रीनशॉट:
सीसी-नेट
विवरण:
cc_net बड़े पैमाने पर टेक्स्ट कॉर्पोरा बनाने के लिए कॉमन क्रॉल को डाउनलोड, सेगमेंट, क्लीन और फ़िल्टर करने के लिए टूल प्रदान करता है, जिसमें मोनोलिंगुअल डेटासेट और संबंधित पेपर में प्रस्तुत बहुभाषी CC-100 संग्रह शामिल हैं। इसमें स्नैपशॉट प्राप्त करने, टेक्स्ट निकालने, डी-डुप्लिकेट करने, भाषा की पहचान करने और ह्यूरिस्टिक्स और भाषा मॉडल के आधार पर गुणवत्ता फ़िल्टरिंग लागू करने के लिए पाइपलाइन शामिल हैं। आउटपुट भाषा मॉडल को प्रीट्रेनिंग और मानकीकृत कॉर्पोरा बनाने के लिए हैं जिन्हें नए क्रॉल के साथ पुन: प्रस्तुत या अपडेट किया जा सकता है। रिपॉजिटरी HTTP विफलताओं, स्नैपशॉट अंतरों और सांख्यिकी JSONs जैसी व्यावहारिक चिंताओं को प्रलेखित करती है, जो कई भाषाओं में सामुदायिक उपयोग को दर्शाती है। शक्तिशाली होने के बावजूद, रिपो को संग्रहीत किया गया है और यह केवल पढ़ने के लिए है, इसलिए उपयोगकर्ताओं को इसे वैसे ही चलाने या रखरखाव के लिए फोर्क करने की उम्मीद करनी चाहिए। संग्रहीत स्थिति में भी, समस्याएँ और रिलीज़ पृष्ठ कार्यान्वयन विवरण और डेटासेट वंशावली के लिए उपयोगी संदर्भ बने रहते हैं।
विशेषताएं
- एंड-टू-एंड कॉमन क्रॉल डाउनलोड और निष्कर्षण
- भाषा की पहचान और एकभाषी विभाजन
- गुणवत्ता फ़िल्टरिंग और डी-डुप्लीकेशन पाइपलाइन
- CC-100 जैसे बहुभाषी डेटासेट बनाने के लिए समर्थन
- पुनरुत्पादनीय सांख्यिकी और कॉर्पस मेटाडेटा आउटपुट
- स्नैपशॉट-दर-स्नैपशॉट प्रसंस्करण के लिए स्क्रिप्ट और कॉन्फ़िगरेशन
प्रोग्रामिंग भाषा
अजगर
श्रेणियाँ
यह एक ऐसा एप्लिकेशन है जिसे https://sourceforge.net/projects/cc-net.mirror/ से भी प्राप्त किया जा सकता है। इसे हमारे किसी भी निःशुल्क ऑपरेटिव सिस्टम से सबसे आसान तरीके से ऑनलाइन चलाने के लिए OnWorks में होस्ट किया गया है।