This is the Linux app named Multimodal whose latest release can be downloaded as multimodalv2025.10.06.00sourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
Scarica ed esegui online gratuitamente questa app chiamata Multimodal with OnWorks.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI:
multimodale
DESCRIZIONE:
Questo progetto, noto anche come TorchMultimodal, è una libreria PyTorch per la creazione, l'addestramento e la sperimentazione di modelli multimodali e multi-task su larga scala. La libreria fornisce elementi costitutivi modulari come encoder, moduli di fusione, funzioni di perdita e trasformazioni che supportano la combinazione di modalità (visione, testo, audio, ecc.) in architetture unificate. Include una raccolta di classi di modelli pronte all'uso, come ALBEF, CLIP, BLIP-2, COCA, FLAVA, MDETR e Omnivore, che fungono da implementazioni di riferimento che è possibile adottare o adattare. Il design enfatizza la componibilità: è possibile combinare e abbinare componenti di encoder, fusione e decodifica anziché partire da modelli monolitici. Il repository include anche script di esempio e set di dati per attività multimodali comuni (ad esempio, recupero, risposta visiva alle domande, messa a terra), in modo da poter testare e confrontare i modelli end-to-end. L'installazione supporta sia CPU che CUDA e la base di codice è sottoposta a versioning, testata e mantenuta.
Caratteristiche
- Codificatori modulari, strati di fusione e moduli di perdita per architetture multimodali
- Implementazioni del modello di riferimento (ALBEF, CLIP, BLIP-2, FLAVA, MDETR, ecc.)
- Pipeline di esempio per attività come VQA, recupero, messa a terra e apprendimento multi-task
- Strategie di fusione flessibili: precoce, tardiva, attenzione incrociata, ecc.
- Trasforma le utilità per la preelaborazione e l'allineamento delle modalità
- Supporto per configurazioni CPU e GPU, con una base di codice testata e sottoposta a verifica delle versioni
Linguaggio di programmazione
Python
Categorie
Questa applicazione può essere scaricata anche da https://sourceforge.net/projects/multimodal.mirror/. È ospitata su OnWorks per poter essere eseguita online nel modo più semplice da uno dei nostri sistemi operativi gratuiti.