دانلود CC-Net برای لینوکس

این برنامه لینوکسی CC-Net نام دارد که آخرین نسخه آن را می‌توانید با نام cc_net1.0.0sourcecode.tar.gz دانلود کنید. می‌توانید آن را به صورت آنلاین در ارائه دهنده خدمات میزبانی وب رایگان OnWorks برای ایستگاه‌های کاری اجرا کنید.

 
 

این برنامه با نام CC-Net with OnWorks را به صورت رایگان دانلود و اجرا کنید.

برای اجرای این برنامه این دستورالعمل ها را دنبال کنید:

- 1. این برنامه را در رایانه شخصی خود دانلود کنید.

- 2. در فایل منیجر ما https://www.onworks.net/myfiles.php?username=XXXXX نام کاربری مورد نظر خود را وارد کنید.

- 3. این برنامه را در چنین فایل منیجر آپلود کنید.

- 4. OnWorks Linux آنلاین یا شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MACOS را از این وب سایت راه اندازی کنید.

- 5. از سیستم عامل لینوکس OnWorks که به تازگی راه اندازی کرده اید، به مدیر فایل ما https://www.onworks.net/myfiles.php?username=XXXXX با نام کاربری که می خواهید بروید.

- 6. اپلیکیشن را دانلود کرده، نصب و اجرا کنید.

اسکرین شات ها:


سی‌سی-نت


DESCRIPTION:

cc_net ابزارهایی برای دانلود، قطعه‌بندی، تمیز کردن و فیلتر کردن Common Crawl برای ساخت پیکره‌های متنی در مقیاس بزرگ، از جمله مجموعه داده‌های تک‌زبانه و مجموعه چندزبانه CC-100 که در مقاله مرتبط معرفی شده است، ارائه می‌دهد. این شامل خطوط لوله‌ای برای دریافت تصاویر لحظه‌ای، استخراج متن، حذف داده‌های تکراری، شناسایی زبان و اعمال فیلترینگ با کیفیت بر اساس مدل‌های اکتشافی و زبانی است. خروجی‌ها برای پیش‌آموزش مدل‌های زبانی و ایجاد پیکره‌های استاندارد که می‌توانند با خزش‌های جدید تکثیر یا به‌روزرسانی شوند، در نظر گرفته شده‌اند. این مخزن، نگرانی‌های عملی مانند خرابی‌های HTTP، تفاوت‌های تصاویر لحظه‌ای و JSONهای آماری را مستند می‌کند که نشان‌دهنده استفاده جامعه در بسیاری از زبان‌ها است. اگرچه این مخزن قدرتمند است، اما بایگانی شده و فقط خواندنی است، بنابراین کاربران باید انتظار داشته باشند که آن را به همان صورت که هست اجرا کنند یا برای نگهداری انشعاب بگیرند. حتی در حالت بایگانی، صفحات مسائل و انتشارها همچنان منابع مفیدی برای جزئیات پیاده‌سازی و تبار مجموعه داده‌ها هستند.



امکانات

  • دانلود و استخراج Common Crawl از ابتدا تا انتها
  • شناسایی زبان و تقسیم‌بندی تک‌زبانه
  • خطوط لوله فیلترینگ با کیفیت و حذف موارد تکراری
  • پشتیبانی از ساخت مجموعه داده‌های چندزبانه مانند CC-100
  • خروجی‌های آمار و فراداده‌های قابل تکرار
  • اسکریپت‌ها و پیکربندی‌ها برای پردازش تک تک اسنپ‌شات‌ها


زبان برنامه نویسی

پــایتــون


دسته بندی ها

پردازش زبان طبیعی (NLP)

این برنامه‌ای است که می‌توان آن را از https://sourceforge.net/projects/cc-net.mirror/ نیز دریافت کرد. این برنامه در OnWorks میزبانی شده است تا بتوان آن را به ساده‌ترین روش از یکی از سیستم‌های عامل رایگان ما به صورت آنلاین اجرا کرد.



جدیدترین برنامه های آنلاین لینوکس و ویندوز


دسته بندی برای دانلود نرم افزار و برنامه برای ویندوز و لینوکس