هذا هو تطبيق لينكس CC-Net، ويمكن تنزيل أحدث إصدار منه بـ cc_net1.0.0sourcecode.tar.gz. ويمكن تشغيله عبر الإنترنت من خلال موفر الاستضافة المجاني OnWorks لمحطات العمل.
قم بتنزيل وتشغيل هذا التطبيق المسمى CC-Net مع OnWorks عبر الإنترنت مجانًا.
اتبع هذه التعليمات لتشغيل هذا التطبيق:
- 1. قم بتنزيل هذا التطبيق على جهاز الكمبيوتر الخاص بك.
- 2. أدخل في مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX باسم المستخدم الذي تريده.
- 3. تحميل هذا التطبيق في هذا الملف.
- 4. ابدأ تشغيل OnWorks Linux عبر الإنترنت أو محاكي Windows عبر الإنترنت أو محاكي MACOS عبر الإنترنت من هذا الموقع.
- 5. من نظام تشغيل OnWorks Linux الذي بدأته للتو ، انتقل إلى مدير الملفات الخاص بنا https://www.onworks.net/myfiles.php؟username=XXXXX مع اسم المستخدم الذي تريده.
- 6. قم بتنزيل التطبيق وتثبيته وتشغيله.
لقطات الشاشة:
شبكة الاتصالات المحلية
الوصف:
يوفر cc_net أدواتٍ لتنزيل وتجزئة وتنظيف وتصفية بيانات Common Crawl لبناء مجموعات بيانات نصية واسعة النطاق، بما في ذلك مجموعات البيانات أحادية اللغة ومجموعة CC-100 متعددة اللغات المُقدمة في الورقة البحثية ذات الصلة. يتضمن البرنامج خطوط أنابيب لجلب اللقطات، واستخراج النصوص، وإزالة التكرارات، وتحديد اللغة، وتطبيق تصفية عالية الجودة استنادًا إلى الاستدلالات ونماذج اللغة. تهدف المخرجات إلى تدريب نماذج اللغة مسبقًا وإنشاء مجموعات بيانات موحدة يمكن إعادة إنتاجها أو تحديثها مع عمليات الزحف الجديدة. يوثق المستودع المشكلات العملية، مثل أعطال HTTP، واختلافات اللقطات، وإحصائيات JSON، مما يعكس استخدام المجتمع للعديد من اللغات. على الرغم من قوة المستودع، إلا أنه مُؤرشف وهو للقراءة فقط، لذا يُتوقع من المستخدمين تشغيله كما هو أو التفرع للصيانة. حتى في حالة الأرشفة، تظل صفحات الإصدارات والقضايا مراجع مفيدة لتفاصيل التنفيذ وسلالة مجموعات البيانات.
شرح المميزات:
- تنزيل واستخراج الزحف المشترك الشامل
- تحديد اللغة وتقسيمها إلى لغة واحدة
- خطوط أنابيب تصفية الجودة وإزالة التكرار
- دعم بناء مجموعات البيانات متعددة اللغات مثل CC-100
- إحصائيات قابلة للتكرار ومخرجات بيانات التعريف
- البرامج النصية والتكوينات لمعالجة لقطة تلو الأخرى
لغة البرمجة
Python
التصنيفات
هذا تطبيق يُمكن تنزيله أيضًا من https://sourceforge.net/projects/cc-net.mirror/. وقد استُضيف في OnWorks لتشغيله عبر الإنترنت بسهولة من أحد أنظمتنا التشغيلية المجانية.