Muat turun CC-Net untuk Linux

Ini ialah apl Linux bernama CC-Net yang keluaran terbarunya boleh dimuat turun sebagai cc_net1.0.0sourcecode.tar.gz. Ia boleh dijalankan dalam talian dalam penyedia pengehosan percuma OnWorks untuk stesen kerja.

 
 

Muat turun dan jalankan dalam talian apl bernama CC-Net ini dengan OnWorks secara percuma.

Ikut arahan ini untuk menjalankan apl ini:

- 1. Memuat turun aplikasi ini dalam PC anda.

- 2. Masukkan dalam pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXXX dengan nama pengguna yang anda mahukan.

- 3. Muat naik aplikasi ini dalam pengurus filem tersebut.

- 4. Mulakan OnWorks Linux dalam talian atau emulator dalam talian Windows atau emulator dalam talian MACOS dari tapak web ini.

- 5. Daripada OS Linux OnWorks yang baru anda mulakan, pergi ke pengurus fail kami https://www.onworks.net/myfiles.php?username=XXXX dengan nama pengguna yang anda mahukan.

- 6. Muat turun aplikasi, pasang dan jalankan.

SKRIN:


CC-Net


HURAIAN:

cc_net menyediakan alatan untuk memuat turun, membahagikan, membersihkan dan menapis Common Crawl untuk membina korpora teks berskala besar, termasuk set data eka bahasa dan koleksi CC-100 berbilang bahasa yang diperkenalkan dalam kertas yang berkaitan. Ia termasuk saluran paip untuk mengambil syot kilat, mengekstrak teks, menyahduplikasi, mengenal pasti bahasa dan menggunakan penapisan kualiti berdasarkan heuristik dan model bahasa. Output bertujuan untuk model bahasa pralatihan dan untuk mencipta korpora piawai yang boleh diterbitkan semula atau dikemas kini dengan rangkak baharu. Repositori mendokumenkan kebimbangan praktikal seperti kegagalan HTTP, perbezaan syot kilat dan JSON statistik, yang mencerminkan penggunaan komuniti merentas banyak bahasa. Walaupun berkuasa, repo telah diarkibkan dan adalah baca sahaja, jadi pengguna harus mengharapkan untuk menjalankannya seperti sedia ada atau garpu untuk penyelenggaraan. Walaupun dalam keadaan arkib, halaman isu dan keluaran kekal sebagai rujukan berguna untuk butiran pelaksanaan dan garis keturunan set data.



Ciri-ciri

  • Muat turun dan pengekstrakan Common Crawl hujung ke hujung
  • Pengenalan bahasa dan segmentasi ekabahasa
  • Saluran paip penapisan dan penyahduaan berkualiti
  • Sokongan untuk membina set data berbilang bahasa seperti CC-100
  • Statistik boleh diterbitkan semula dan output metadata korpus
  • Skrip dan konfigurasi untuk pemprosesan syot kilat demi syot kilat


Bahasa Pengaturcaraan

Python


Kategori

Pemprosesan Bahasa Asli (NLP)

Ini adalah aplikasi yang juga boleh diambil dari https://sourceforge.net/projects/cc-net.mirror/. Ia telah dihoskan dalam OnWorks untuk dijalankan dalam talian dengan cara yang paling mudah daripada salah satu Sistem Operasi percuma kami.



Program dalam talian Linux & Windows terkini


Kategori untuk memuat turun Perisian & Program untuk Windows & Linux