To aplikacja dla systemu Linux o nazwie Multimodal, której najnowszą wersję można pobrać jako multimodalv2025.10.06.00sourcecode.tar.gz. Można ją uruchomić online w darmowym hostingu OnWorks dla stacji roboczych.
Pobierz i uruchom bezpłatnie aplikację Multimodal with OnWorks.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
ZRZUTY EKRANU
Ad
Multimodalny
OPIS
Ten projekt, znany również jako TorchMultimodal, to biblioteka PyTorch do budowania, trenowania i eksperymentowania z modelami multimodalnymi i wielozadaniowymi na dużą skalę. Biblioteka udostępnia modułowe bloki konstrukcyjne, takie jak kodery, moduły fuzji, funkcje strat i transformacje, które obsługują łączenie modalności (wizualnej, tekstowej, audio itp.) w ujednoliconych architekturach. Zawiera zbiór gotowych klas modeli — takich jak ALBEF, CLIP, BLIP-2, COCA, FLAVA, MDETR i Omnivore — które służą jako implementacje referencyjne, które można zaadaptować lub dostosować. Projekt kładzie nacisk na kompozycyjność: można mieszać i dopasowywać komponenty kodera, fuzji i dekodera, zamiast zaczynać od modeli monolitycznych. Repozytorium zawiera również przykładowe skrypty i zestawy danych dla typowych zadań multimodalnych (np. wyszukiwanie, wizualne odpowiadanie na pytania, uziemianie), co pozwala na testowanie i porównywanie modeli od początku do końca. Instalacja obsługuje zarówno procesor, jak i CUDA, a baza kodu jest wersjonowana, testowana i utrzymywana.
Funkcjonalności
- Modułowe enkodery, warstwy fuzyjne i moduły strat dla architektur multimodalnych
- Implementacje modeli referencyjnych (ALBEF, CLIP, BLIP-2, FLAVA, MDETR itp.)
- Przykładowe potoki dla zadań takich jak VQA, wyszukiwanie, uziemianie i uczenie się wielozadaniowe
- Elastyczne strategie fuzji: wczesna, późna, krzyżowa uwaga itp.
- Narzędzia transformacyjne do wstępnego przetwarzania i wyrównywania modalności
- Obsługa konfiguracji CPU i GPU z wersjonowaną, przetestowaną bazą kodu
Język programowania
Python
Kategorie
Tę aplikację można również pobrać ze strony https://sourceforge.net/projects/multimodal.mirror/. Została ona umieszczona w OnWorks, aby można ją było najłatwiej uruchomić online z poziomu jednego z naszych darmowych systemów operacyjnych.