Amazon Best VPN GoSearch

Icône de favori OnWorks

Téléchargement de NeMo Curator pour Linux

Téléchargez gratuitement l'application Linux NeMo Curator pour l'exécuter en ligne dans Ubuntu en ligne, Fedora en ligne ou Debian en ligne

Il s'agit de l'application Linux NeMo Curator, dont la dernière version est téléchargeable sous le nom NVIDIANeMoCurator0.9.0sourcecode.zip. Elle peut être exécutée en ligne sur l'hébergeur gratuit OnWorks pour postes de travail.

Téléchargez et exécutez en ligne cette application nommée NeMo Curator avec OnWorks gratuitement.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

CAPTURES D'ÉCRAN

Ad


Conservateur NeMo


DESCRIPTION

NeMo Curator est une bibliothèque Python spécialement conçue pour la préparation et la curation rapides et évolutives d'ensembles de données pour les cas d'utilisation de grands modèles de langage (LLM) tels que le pré-entraînement des modèles de base, le pré-entraînement adaptatif au domaine (DAPT), le réglage fin supervisé (SFT) et le réglage fin optimisé par paramètres (PEFT). Elle accélère considérablement la curation des données en exploitant les GPU avec Dask et RAPIDS, ce qui permet un gain de temps considérable. La bibliothèque offre une interface personnalisable et modulaire, simplifiant l'extension du pipeline et accélérant la convergence des modèles grâce à la préparation de jetons de haute qualité. Au cœur de NeMo Curator se trouve le DocumentDataset, qui constitue la classe principale de l'ensemble de données. Il s'agit d'un wrapper simple autour d'un DataFrame Dask. La bibliothèque Python offre des méthodes faciles à utiliser pour étendre les fonctionnalités de votre pipeline de curation tout en éliminant les problèmes d'évolutivité.



Caractéristiques

  • Téléchargement de données et extraction de texte
  • Identification et séparation des langues avec fastText et pycld2
  • Reformatage et nettoyage de texte pour corriger les erreurs de décodage Unicode via ftfy
  • Déduplication au niveau du document
  • Filtrage basé sur une heuristique multilingue
  • Classification des données distribuées


Langage de programmation

Python


Catégories

Grands modèles de langage (LLM)

Cette application peut également être téléchargée depuis https://sourceforge.net/projects/nemo-curator.mirror/. Elle est hébergée sur OnWorks afin de pouvoir être exécutée en ligne plus facilement depuis l'un de nos systèmes d'exploitation gratuits.


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.