これは「Tokenizers」というLinuxアプリで、最新リリースはv0.22.1sourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
Tokenizers with OnWorks という名前のこのアプリをオンラインで無料でダウンロードして実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
スクリーンショットは
Ad
トークナイザー
DESCRIPTION
研究と生産の両方に最適化された、高速な最先端のトークナイザー。 Tokenizers は、パフォーマンスと汎用性に重点を置いて、今日最も使用されているトークナイザーの実装を提供します。 これらのトークナイザーはトランスフォーマーでも使用されます。 今日最も使用されているトークナイザーを使用して、新しい語彙をトレーニングし、トークン化します。 Rust 実装のおかげで、非常に高速です (トレーニングとトークン化の両方)。 サーバーの CPU で GB のテキストをトークン化するのに 20 秒もかかりません。 使いやすいだけでなく、非常に汎用性があります。 研究と生産の両方のために設計されています。 完全なアライメント追跡。 破壊的正規化を使用しても、任意のトークンに対応する元の文の一部を取得することは常に可能です。 すべての前処理を行います: 切り捨て、パディング、モデルに必要な特別なトークンの追加。
オプション
- 今日最も使用されているトークナイザーを使用して、新しい語彙をトレーニングし、トークン化します
- Rust 実装のおかげで、非常に高速です (トレーニングとトークン化の両方)。 サーバーの CPU で GB のテキストをトークン化するのに 20 秒もかかりません
- 使いやすいだけでなく、非常に用途が広い
- 研究と生産の両方のために設計されています
- 完全なアライメント追跡
- 切り捨て、パディング、モデルに必要な特別なトークンの追加
プログラミング言語
さび
カテゴリー
これは https://sourceforge.net/projects/tokenizers.mirror/ からも取得できるアプリケーションです。 これは、OnWorks でホストされており、無料のオペレーティング システムの XNUMX つからオンラインで簡単に実行できます。