Questa è l'app Linux denominata VLLM la cui ultima versione può essere scaricata come v0.2.1.post1sourcecode.zip. Può essere eseguito online nel provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online gratuitamente questa app denominata VLLM con OnWorks.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI
Ad
VLLM
DESCRIZIONE
vLLM è una libreria veloce e facile da usare per l'inferenza e il servizio LLM. Servizio ad alto rendimento con vari algoritmi di decodifica, tra cui campionamento parallelo, ricerca di raggi e altro ancora.
Caratteristiche
- Throughput di servizio all'avanguardia
- Gestione efficiente della memoria delle chiavi e dei valori dell'attenzione con PagedAttention
- Batch continuo delle richieste in arrivo
- Kernel CUDA ottimizzati
- Integrazione perfetta con i modelli HuggingFace più diffusi
- Supporto del parallelismo tensore per l'inferenza distribuita
Linguaggio di programmazione
Python
Categorie
Questa è un'applicazione che può essere recuperata anche da https://sourceforge.net/projects/vllm.mirror/. È stato ospitato su OnWorks per poter essere eseguito online in modo più semplice da uno dei nostri sistemi operativi gratuiti.