Ini adalah aplikasi Linux bernama CC-Net yang rilis terbarunya dapat diunduh sebagai cc_net1.0.0sourcecode.tar.gz. Aplikasi ini dapat dijalankan secara daring di penyedia hosting gratis OnWorks untuk workstation.
Unduh dan jalankan aplikasi ini secara online bernama CC-Net dengan OnWorks secara gratis.
Ikuti petunjuk ini untuk menjalankan aplikasi ini:
- 1. Download aplikasi ini di PC Anda.
- 2. Masuk ke file manager kami https://www.onworks.net/myfiles.php?username=XXXXX dengan username yang anda inginkan.
- 3. Upload aplikasi ini di filemanager tersebut.
- 4. Jalankan emulator online OnWorks Linux atau Windows online atau emulator online MACOS dari situs web ini.
- 5. Dari OS Linux OnWorks yang baru saja Anda mulai, buka file manager kami https://www.onworks.net/myfiles.php?username=XXXXX dengan nama pengguna yang Anda inginkan.
- 6. Download aplikasinya, install dan jalankan.
SCREENSHOT:
CC-Net
DESKRIPSI:
cc_net menyediakan alat untuk mengunduh, melakukan segmentasi, membersihkan, dan memfilter Common Crawl untuk membangun korpus teks berskala besar, termasuk kumpulan data monolingual dan koleksi CC-100 multilingual yang diperkenalkan dalam makalah terkait. Ini mencakup alur kerja untuk mengambil snapshot, mengekstrak teks, mendeduplikasi, mengidentifikasi bahasa, dan menerapkan pemfilteran kualitas berdasarkan heuristik dan model bahasa. Keluarannya ditujukan untuk pra-pelatihan model bahasa dan untuk membuat korpus standar yang dapat direproduksi atau diperbarui dengan perayapan baru. Repositori ini mendokumentasikan masalah praktis seperti kegagalan HTTP, perbedaan snapshot, dan JSON statistik, yang mencerminkan penggunaan komunitas di berbagai bahasa. Meskipun canggih, repositori ini telah diarsipkan dan bersifat hanya-baca, sehingga pengguna dapat menjalankannya sebagaimana adanya atau melakukan fork untuk pemeliharaan. Bahkan dalam keadaan diarsipkan, halaman masalah dan rilis tetap menjadi referensi yang berguna untuk detail implementasi dan silsilah kumpulan data.
Fitur
- Unduhan dan ekstraksi Common Crawl ujung ke ujung
- Identifikasi bahasa dan segmentasi monolingual
- Pipa penyaringan dan deduplikasi berkualitas
- Dukungan untuk membangun kumpulan data multibahasa seperti CC-100
- Statistik yang dapat direproduksi dan keluaran metadata korpus
- Skrip dan konfigurasi untuk pemrosesan snapshot demi snapshot
Bahasa Pemrograman
Ular sanca
KATEGORI
Ini adalah aplikasi yang juga dapat diunduh dari https://sourceforge.net/projects/cc-net.mirror/. Aplikasi ini dihosting di OnWorks agar dapat dijalankan daring dengan cara termudah dari salah satu Sistem Operasi gratis kami.