これはPerception ModelsというLinuxアプリケーションで、最新リリースはperception_modelssourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
Perception Models with OnWorks というアプリを無料でダウンロードしてオンラインで実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
スクリーンショット:
知覚モデル
説明:
Perception Modelsは、Facebook Researchが高度な画像および動画認識タスク向けに開発した最先端のフレームワークです。視覚特徴抽出のためのPerception Encoder(PE)と、マルチモーダルデコードおよび推論のためのPerception Language Model(PLM)という2つの主要コンポーネントを導入しています。PEモジュールは、画像と動画の理解において優れた性能を発揮するように設計されたビジョンエンコーダファミリーであり、複数のベンチマークにおいてSigLIP2、InternVideo2、DINOv2などのモデルを凌駕しています。一方、PLMはPEと統合することでビジョン言語モデリングを強化し、QwenVL2.5やInternVL3などの主要なマルチモーダルシステムに匹敵する結果を達成しながら、オープンデータで完全に再現可能です。このプロジェクトは、視覚認識や高密度予測からきめ細かなマルチモーダル理解まで、幅広い研究アプリケーションをサポートしています。さらに、画像と動画の認識のための大規模なオープンデータセットも複数含まれています。
オプション
- 視覚エンコーディング用の知覚エンコーダ(PE)とマルチモーダルデコーディング用の知覚言語モデル(PLM)を組み合わせたもの
- 画像、ビデオ、ビジョン言語のベンチマークにおける最先端のパフォーマンス
- 透明性を確保するために、無料で利用できるデータセットを使用したオープンで再現可能なモデル
- コア、言語整合、空間タスクに特化した複数の PE バリアント
- 柔軟な研究ニーズに対応するために、1B、3B、8Bのパラメータサイズで利用可能なPLM
- Hugging Face Transformers、timm、lmms-evalなどの人気ツールと統合されています
プログラミング言語
Python
カテゴリー
このアプリケーションは、https://sourceforge.net/projects/perception-models.mirror/ からも入手できます。OnWorks でホストされているため、無料のオペレーティングシステムから最も簡単にオンラインで実行できます。