Questa è l'app Linux denominata Perception Models, la cui ultima versione può essere scaricata come perception_modelssourcecode.tar.gz. Può essere eseguita online sul provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online gratuitamente questa app chiamata Perception Models with OnWorks.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI:
Modelli di percezione
DESCRIZIONE:
Perception Models è un framework all'avanguardia sviluppato da Facebook Research per attività avanzate di percezione di immagini e video. Introduce due componenti principali: il Perception Encoder (PE) per l'estrazione di caratteristiche visive e il Perception Language Model (PLM) per la decodifica e il ragionamento multimodale. Il modulo PE è una famiglia di encoder visivi progettati per eccellere nella comprensione di immagini e video, superando modelli come SigLIP2, InternVideo2 e DINOv2 in diversi benchmark. Nel frattempo, il PLM si integra con il PE per potenziare la modellazione del linguaggio visivo, ottenendo risultati competitivi con i principali sistemi multimodali come QwenVL2.5 e InternVL3, il tutto essendo completamente riproducibile con dati aperti. Il progetto supporta un'ampia gamma di applicazioni di ricerca, dal riconoscimento visivo e dalla previsione densa alla comprensione multimodale a grana fine. Inoltre, include diversi set di dati aperti su larga scala per la percezione di immagini e video.
Caratteristiche
- Combina Perception Encoder (PE) per la codifica della vista e Perception Language Model (PLM) per la decodifica multimodale
- Prestazioni all'avanguardia nei benchmark di immagini, video e linguaggio visivo
- Modelli aperti e riproducibili che utilizzano set di dati liberamente disponibili per la trasparenza
- Molteplici varianti di PE specializzate per compiti fondamentali, linguistici e spaziali
- PLM disponibile in dimensioni di parametri 1B, 3B e 8B per esigenze di ricerca flessibili
- Integrato con strumenti popolari come Hugging Face Transformers, timm e lmms-eval
Linguaggio di programmazione
Python
Categorie
Questa applicazione può essere scaricata anche da https://sourceforge.net/projects/perception-models.mirror/. È ospitata su OnWorks per poter essere eseguita online nel modo più semplice da uno dei nostri sistemi operativi gratuiti.