این برنامه لینوکسی CC-Net نام دارد که آخرین نسخه آن را میتوانید با نام cc_net1.0.0sourcecode.tar.gz دانلود کنید. میتوانید آن را به صورت آنلاین در ارائه دهنده خدمات میزبانی وب رایگان OnWorks برای ایستگاههای کاری اجرا کنید.
این برنامه با نام CC-Net with OnWorks را به صورت رایگان دانلود و اجرا کنید.
برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:
- 1. این برنامه را در رایانه شخصی خود دانلود کنید.
- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.
- 3. این برنامه را در چنین فایل منیجر آپلود کنید.
- 4. OnWorks Linux آنلاین یا شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MACOS را از این وب سایت راه اندازی کنید.
- 5. از سیستم عامل لینوکس OnWorks که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.
- 6. اپلیکیشن را دانلود کرده، نصب و اجرا کنید.
اسکرین شات ها:
سیسی-نت
DESCRIPTION:
cc_net ابزارهایی برای دانلود، قطعهبندی، تمیز کردن و فیلتر کردن Common Crawl برای ساخت پیکرههای متنی در مقیاس بزرگ، از جمله مجموعه دادههای تکزبانه و مجموعه چندزبانه CC-100 که در مقاله مرتبط معرفی شده است، ارائه میدهد. این شامل خطوط لولهای برای دریافت تصاویر لحظهای، استخراج متن، حذف دادههای تکراری، شناسایی زبان و اعمال فیلترینگ با کیفیت بر اساس مدلهای اکتشافی و زبانی است. خروجیها برای پیشآموزش مدلهای زبانی و ایجاد پیکرههای استاندارد که میتوانند با خزشهای جدید تکثیر یا بهروزرسانی شوند، در نظر گرفته شدهاند. این مخزن، نگرانیهای عملی مانند خرابیهای HTTP، تفاوتهای تصاویر لحظهای و JSONهای آماری را مستند میکند که نشاندهنده استفاده جامعه در بسیاری از زبانها است. اگرچه این مخزن قدرتمند است، اما بایگانی شده و فقط خواندنی است، بنابراین کاربران باید انتظار داشته باشند که آن را به همان صورت که هست اجرا کنند یا برای نگهداری انشعاب بگیرند. حتی در حالت بایگانی، صفحات مسائل و انتشارها همچنان منابع مفیدی برای جزئیات پیادهسازی و تبار مجموعه دادهها هستند.
امکانات
- دانلود و استخراج Common Crawl از ابتدا تا انتها
- شناسایی زبان و تقسیمبندی تکزبانه
- خطوط لوله فیلترینگ با کیفیت و حذف موارد تکراری
- پشتیبانی از ساخت مجموعه دادههای چندزبانه مانند CC-100
- خروجیهای آمار و فرادادههای قابل تکرار
- اسکریپتها و پیکربندیها برای پردازش تک تک اسنپشاتها
زبان برنامه نویسی
پــایتــون
دسته بندی ها
این برنامهای است که میتوان آن را از https://sourceforge.net/projects/cc-net.mirror/ نیز دریافت کرد. این برنامه در OnWorks میزبانی شده است تا بتوان آن را به سادهترین روش از یکی از سیستمهای عامل رایگان ما به صورت آنلاین اجرا کرد.