GoGPT Best VPN GoSearch

Icône de favori OnWorks

Téléchargement de CC-Net pour Linux

Free download CC-Net Linux app to run online in Ubuntu online, Fedora online or Debian online

Il s'agit de l'application Linux CC-Net, dont la dernière version est téléchargeable sous le nom cc_net1.0.0sourcecode.tar.gz. Elle peut être exécutée en ligne sur l'hébergeur gratuit OnWorks pour postes de travail.

Téléchargez et exécutez en ligne cette application nommée CC-Net avec OnWorks gratuitement.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

CAPTURES D'ÉCRAN

Ad


CC-Net


DESCRIPTION

cc_net fournit des outils pour télécharger, segmenter, nettoyer et filtrer Common Crawl afin de constituer des corpus textuels à grande échelle, incluant des jeux de données monolingues et la collection multilingue CC-100 présentée dans l'article associé. Il inclut des pipelines pour récupérer des instantanés, extraire du texte, dédupliquer, identifier la langue et appliquer un filtrage de qualité basé sur des heuristiques et des modèles de langage. Les résultats sont destinés au pré-entraînement des modèles de langage et à la création de corpus standardisés, reproductibles ou mis à jour avec de nouveaux crawls. Le référentiel documente les problèmes pratiques tels que les échecs HTTP, les différences d'instantanés et les statistiques JSON, reflétant l'utilisation de la communauté dans de nombreux langages. Malgré sa puissance, le référentiel a été archivé et est en lecture seule ; les utilisateurs peuvent donc l'exécuter tel quel ou le dupliquer pour maintenance. Même archivé, les pages de problèmes et de versions restent des références utiles pour les détails d'implémentation et la lignée des jeux de données.



Comment ça marche

  • Téléchargement et extraction Common Crawl de bout en bout
  • Identification de la langue et segmentation monolingue
  • Pipelines de filtrage et de déduplication de qualité
  • Prise en charge de la création d'ensembles de données multilingues tels que CC-100
  • Statistiques reproductibles et sorties de métadonnées de corpus
  • Scripts et configurations pour le traitement instantané par instantané


Langage de programmation

Python


Catégories

Traitement du langage naturel (PNL)

Cette application peut également être téléchargée depuis https://sourceforge.net/projects/cc-net.mirror/. Elle est hébergée sur OnWorks afin de pouvoir être exécutée en ligne plus facilement depuis l'un de nos systèmes d'exploitation gratuits.


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.