Il s'agit de l'application Linux NeMo Curator, dont la dernière version est téléchargeable sous le nom NVIDIANeMoCurator0.9.0sourcecode.zip. Elle peut être exécutée en ligne sur l'hébergeur gratuit OnWorks pour postes de travail.
Téléchargez et exécutez en ligne cette application nommée NeMo Curator avec OnWorks gratuitement.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.
- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application, installez-la et exécutez-la.
CAPTURES D'ÉCRAN
Ad
Conservateur NeMo
DESCRIPTION
NeMo Curator est une bibliothèque Python spécialement conçue pour la préparation et la curation rapides et évolutives d'ensembles de données pour les cas d'utilisation de grands modèles de langage (LLM) tels que le pré-entraînement des modèles de base, le pré-entraînement adaptatif au domaine (DAPT), le réglage fin supervisé (SFT) et le réglage fin optimisé par paramètres (PEFT). Elle accélère considérablement la curation des données en exploitant les GPU avec Dask et RAPIDS, ce qui permet un gain de temps considérable. La bibliothèque offre une interface personnalisable et modulaire, simplifiant l'extension du pipeline et accélérant la convergence des modèles grâce à la préparation de jetons de haute qualité. Au cœur de NeMo Curator se trouve le DocumentDataset, qui constitue la classe principale de l'ensemble de données. Il s'agit d'un wrapper simple autour d'un DataFrame Dask. La bibliothèque Python offre des méthodes faciles à utiliser pour étendre les fonctionnalités de votre pipeline de curation tout en éliminant les problèmes d'évolutivité.
Caractéristiques
- Téléchargement de données et extraction de texte
- Identification et séparation des langues avec fastText et pycld2
- Reformatage et nettoyage de texte pour corriger les erreurs de décodage Unicode via ftfy
- Déduplication au niveau du document
- Filtrage basé sur une heuristique multilingue
- Classification des données distribuées
Langage de programmation
Python
Catégories
Cette application peut également être téléchargée depuis https://sourceforge.net/projects/nemo-curator.mirror/. Elle est hébergée sur OnWorks afin de pouvoir être exécutée en ligne plus facilement depuis l'un de nos systèmes d'exploitation gratuits.