これはMultimodalというLinuxアプリで、最新リリースはmultimodalv2025.10.06.00sourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
Multimodal with OnWorks というアプリを無料でダウンロードしてオンラインで実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
スクリーンショット:
マルチモーダル
説明:
TorchMultimodal とも呼ばれるこのプロジェクトは、大規模なマルチモーダル、マルチタスクモデルの構築、トレーニング、実験を行うための PyTorch ライブラリです。このライブラリは、エンコーダー、フュージョンモジュール、損失関数、変換などのモジュール式の構成要素を提供し、統合アーキテクチャにおけるモダリティ(視覚、テキスト、音声など)の組み合わせをサポートします。ALBEF、CLIP、BLIP-2、COCA、FLAVA、MDETR、Omnivore など、導入または適応可能なリファレンス実装として利用可能なモデルクラスが多数用意されています。設計では構成可能性を重視しており、モノリシックモデルから始めるのではなく、エンコーダー、フュージョン、デコーダーの各コンポーネントを組み合わせることができます。リポジトリには、一般的なマルチモーダルタスク(検索、視覚的な質問回答、グラウンディングなど)のサンプルスクリプトとデータセットも含まれており、モデルをエンドツーエンドでテストおよび比較できます。インストールは CPU と CUDA の両方をサポートし、コードベースはバージョン管理、テスト、メンテナンスされています。
オプション
- マルチモーダルアーキテクチャのためのモジュラーエンコーダ、フュージョンレイヤー、ロスモジュール
- 参照モデルの実装(ALBEF、CLIP、BLIP-2、FLAVA、MDETR など)
- VQA、検索、グラウンディング、マルチタスク学習などのタスクのサンプルパイプライン
- 柔軟な融合戦略: 早期、後期、クロスアテンションなど。
- モダリティの前処理とアライメントのための変換ユーティリティ
- バージョン管理されテスト済みのコードベースによるCPUおよびGPUセットアップのサポート
プログラミング言語
Python
カテゴリー
このアプリケーションは、https://sourceforge.net/projects/multimodal.mirror/ からも入手できます。OnWorks でホストされているため、無料のオペレーティングシステムから最も簡単にオンラインで実行できます。