Si tratta dell'app Linux denominata Tokenizers, la cui ultima versione può essere scaricata come v0.22.1sourcecode.tar.gz. Può essere eseguita online sul provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online questa app chiamata Tokenizers con OnWorks gratuitamente.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI
Ad
tokenizers
DESCRIZIONE
Veloce Tokenizer all'avanguardia, ottimizzati sia per la ricerca che per la produzione. Tokenizers fornisce un'implementazione dei tokenizer più utilizzati oggi, con particolare attenzione alle prestazioni e alla versatilità. Questi tokenizer sono utilizzati anche in Transformers. Allena nuovi vocabolari e tokenizza, utilizzando i tokenizzatori più usati di oggi. Estremamente veloce (sia formazione che tokenizzazione), grazie all'implementazione di Rust. Richiede meno di 20 secondi per tokenizzare un GB di testo sulla CPU di un server. Facile da usare, ma anche estremamente versatile. Progettato sia per la ricerca che per la produzione. Tracciamento dell'allineamento completo. Anche con la normalizzazione distruttiva, è sempre possibile ottenere la parte della frase originale che corrisponde a qualsiasi token. Fa tutta la pre-elaborazione: troncamento, riempimento, aggiungi i token speciali di cui il tuo modello ha bisogno.
Caratteristiche
- Allena nuovi vocabolari e tokenizza, utilizzando i tokenizzatori più usati di oggi
- Estremamente veloce (sia formazione che tokenizzazione), grazie all'implementazione di Rust. Richiede meno di 20 secondi per tokenizzare un GB di testo sulla CPU di un server
- Facile da usare, ma anche estremamente versatile
- Progettato sia per la ricerca che per la produzione
- Tracciamento dell'allineamento completo
- Truncation, Padding, aggiungi i token speciali di cui il tuo modello ha bisogno
Linguaggio di programmazione
Ruggine
Categorie
Questa è un'applicazione che può anche essere recuperata da https://sourceforge.net/projects/tokenizers.mirror/. È stato ospitato in OnWorks per poter essere eseguito online nel modo più semplice da uno dei nostri Sistemi Operativi gratuiti.