これは「Following Instructions with Feedback」というLinuxアプリで、最新リリースはfollowing-instructions-human-feedbacksourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
OnWorks の Following Instructions with Feedback というアプリを無料でダウンロードしてオンラインで実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
スクリーンショットは
Ad
フィードバック付きの指示に従う
DESCRIPTION
following-instructions-human-feedback リポジトリには、人間のフィードバックを通じてユーザーの指示により適切に従う言語モデル(InstructGPT モデル)のトレーニングにおける OpenAI の取り組みの基盤となるコードと補足資料が含まれています。リポジトリには、プロセスで使用されるモデルカード、サンプルの自動評価出力、およびラベル付けガイドラインがホストされています。これは、「人間のフィードバックによる指示に従う言語モデルのトレーニング」論文に明示的に結び付けられており、OpenAI がアノテーションガイドラインを収集し、嗜好比較を実行し、モデルの動作を評価する方法のリファレンスとして機能します。リポジトリは、RLHF パイプライン全体の完全な実装ではなく、公開された研究をサポートするアーカイブハブであり、評価と人間によるラベル付けの標準に関する透明性を提供します。automatic-eval-samples(ベンチマークタスクでのモデル出力のサンプル)などのディレクトリや、InstructGPT モデルの意図された動作、制限、およびバイアスを説明する model-card.md が含まれています。
オプション
- InstructGPT実験からの評価サンプル出力のアーカイブ
- モデルの使用方法、制限、および安全上の考慮事項を説明する model-card.md
- 人間の評価者向けのラベル付けガイドライン/注釈指示
- ベースラインと微調整後の出力を示す構造化された「自動評価サンプル」フォルダ
- OpenAIがモデルの優先順位とアライメントをどのように測定したかについての透明性
- オリジナルの研究論文と資料へのリンクと参照
カテゴリー
このアプリケーションは、https://sourceforge.net/projects/following-inst-feedback.mirror/ からも入手できます。OnWorks でホストされているため、無料のオペレーティングシステムから最も簡単にオンラインで実行できます。
