Si tratta dell'app Linux NeMo Curator, la cui ultima versione può essere scaricata come NVIDIANeMoCurator0.9.0sourcecode.zip. Può essere eseguita online sul provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online gratuitamente questa app chiamata NeMo Curator con OnWorks.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI
Ad
Curatore NeMo
DESCRIZIONE
NeMo Curator è una libreria Python specificamente progettata per la preparazione e la curation di dataset rapide e scalabili per casi d'uso di modelli linguistici di grandi dimensioni (LLM), come il pre-addestramento di modelli di base, il pre-addestramento adattivo al dominio (DAPT), il fine-tuning supervisionato (SFT) e il fine-tuning efficiente in base ai parametri (PEFT). Accelera notevolmente la curation dei dati sfruttando le GPU con Dask e RAPIDS, con un conseguente notevole risparmio di tempo. La libreria offre un'interfaccia personalizzabile e modulare, semplificando l'espansione della pipeline e accelerando la convergenza dei modelli attraverso la preparazione di token di alta qualità. Il cuore di NeMo Curator è il DocumentDataset, che funge da classe principale del dataset. Funge da semplice wrapper per un Dask DataFrame. La libreria Python offre metodi semplici da usare per espandere le funzionalità della pipeline di curation, eliminando al contempo i problemi di scalabilità.
Caratteristiche
- Download dei dati ed estrazione del testo
- Identificazione e separazione della lingua con fastText e pycld2
- Riformattazione e pulizia del testo per correggere gli errori di decodifica Unicode tramite ftfy
- Deduplicazione a livello di documento
- Filtraggio basato su euristiche multilingue
- Classificazione dei dati distribuiti
Linguaggio di programmazione
Python
Categorie
Questa applicazione può essere scaricata anche da https://sourceforge.net/projects/nemo-curator.mirror/. È ospitata su OnWorks per poter essere eseguita online nel modo più semplice da uno dei nostri sistemi operativi gratuiti.