これは「Question Answering Corpus」というLinuxアプリケーションで、最新リリースはrc-datasourcecode.tar.gzとしてダウンロードできます。ワークステーション向けの無料ホスティングプロバイダーであるOnWorksでオンラインで実行できます。
Question Answering Corpus with OnWorks というアプリを無料でダウンロードしてオンラインで実行します。
このアプリを実行するには、次の手順に従ってください。
-1。このアプリケーションをPCにダウンロードしました。
--2。ファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXに必要なユーザー名を入力します。
-3。このアプリケーションをそのようなファイルマネージャにアップロードします。
-4。このWebサイトからOnWorksLinuxオンラインまたはWindowsオンラインエミュレーターまたはMACOSオンラインエミュレーターを起動します。
-5。起動したばかりのOnWorksLinux OSから、必要なユーザー名でファイルマネージャーhttps://www.onworks.net/myfiles.php?username=XXXXXにアクセスします。
-6。アプリケーションをダウンロードし、インストールして実行します。
スクリーンショット:
質問応答コーパス
説明:
RC-Dataは、Google DeepMindがCNNとDaily Mailのニュース記事から大規模な読解問題と回答のペアを生成するために作成したデータセット生成フレームワークです。2015年の論文「Teaching Machines to Read and Comprehend」(Hermann et al.、NIPS 2015)で紹介されたこのデータセットは、機械読解モデルのトレーニングと評価を目的に設計された最初の大規模コーパスの1つでした。リポジトリには、Wayback MachineからアーカイブされたCNNとDaily Mailの記事をダウンロードし、テキスト内のエンティティをプレースホルダーに置き換えた穴埋め形式の質問を自動的に生成するためのスクリプトが用意されています。各データインスタンスは、ニュース記事(コンテキスト)、生成された質問、およびそれに対応する回答で構成されており、教師あり機械学習のセットアップに適しています。出力は標準化された質問と回答の形式に従い、モデルが名前付き参照を解決できるようにエンティティマッピングが使用されています。
オプション
- ニュース記事から大規模な質問と回答のデータセットを生成する
- Wayback Machine経由でCNNとDaily Mailのコーパスからのデータが含まれています
- 質問、コンテキスト、回答を標準化されたテキスト形式で生成します
- モデルトレーニングのためのマッピングを通じてエンティティの匿名化をサポート
- Python スクリプトを使用した再現可能な生成パイプラインを提供します
- 機械理解およびNLPベンチマークタスクと互換性がある
プログラミング言語
Python
カテゴリー
このアプリケーションは、https://sourceforge.net/projects/question-answer-corpus.mirror/ からも入手できます。OnWorks でホストされているため、無料のオペレーティングシステムから最も簡単にオンラインで実行できます。