これはSynthetic Data KitというWindowsアプリで、最新リリースはsynthetic-data-kitsourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
OnWorks で Synthetic Data Kit というアプリを無料でダウンロードしてオンラインで実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOSOnWorksオンラインエミュレーターを起動しますが、Windowsオンラインエミュレーターの方が優れています。
-5。起動したばかりのOnWorksWindows OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードしてインストールします。
-7.LinuxディストリビューションソフトウェアリポジトリからWineをダウンロードします。 インストールしたら、アプリをダブルクリックして、Wineで実行できます。 また、人気のあるWindowsプログラムやゲームのインストールに役立つWine上の豪華なインターフェイスであるPlayOnLinuxを試すこともできます。
WineはLinux上でWindowsソフトウェアを実行する方法ですが、Windowsは必要ありません。 Wineは、任意のLinuxデスクトップでWindowsプログラムを直接実行できるオープンソースのWindows互換性レイヤーです。 基本的に、Wineは、実際にWindowsを必要とせずに、これらすべてのWindowsアプリケーションを実行できるように、十分な数のWindowsを最初から再実装しようとしています。
スクリーンショット:
合成データキット
説明:
Synthetic Data Kit は、Llama モデルを微調整するための高品質な合成データセットを生成するための CLI 中心のツールキットです。最新の命令チューニング形式に準拠した推論トレースと QA ペアの生成に重点を置いています。異種ソース(ドキュメント、トランスクリプト)の取り込み、モデルによるラベル付きサンプルの作成、最小限のグルーコードによる微調整スキーマへのエクスポートをカバーする、独自のモジュール式ワークフローを提供します。このキットの設計目標は、データセット作成をアドホックノートブックではなく繰り返し可能なパイプラインにすることで、「データ準備」のボトルネックを短縮することです。根拠/思考連鎖のバリエーションの生成、設定可能なサンプリング、ガードレールをサポートし、出力が形式の制約と品質チェックを満たすようにします。例とガイドでは、ツールの使用や段階的な推論などのタスク固有の動作をターゲットにし、トレーニング対応ファイルに直接保存する方法を示します。
オプション
- 取り込みからエクスポートまでの4段階のCLIパイプライン
- QAペアと推論トレースの生成
- 設定可能なプロンプト、サンプリング、フィルター
- 微調整のためのトレーニング準備済み出力形式
- 品質チェックとスキーマ検証
- タスク特有の推論を対象とした例
プログラミング言語
Python
カテゴリー
このアプリケーションは、https://sourceforge.net/projects/synthetic-data-kit.mirror/ からも入手できます。OnWorks でホストされているため、無料のオペレーティングシステムから最も簡単にオンラインで実行できます。