Dies ist die Linux-App mit dem Namen Question Answering Corpus, deren neueste Version als rc-datasourcecode.tar.gz heruntergeladen werden kann. Sie kann online beim kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.
Laden Sie diese App namens Question Answering Corpus mit OnWorks kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.
- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.
SCREENSHOTS:
Fragen-Antwort-Korpus
BESCHREIBUNG:
RC-Data ist ein von Google DeepMind entwickeltes Framework zur Datensatzgenerierung, um umfangreiche Frage-Antwort-Paare zum Leseverständnis aus Nachrichtenartikeln von CNN und Daily Mail zu erstellen. Der Datensatz, der 2015 in der Arbeit „Teaching Machines to Read and Comprehend“ (Hermann et al., NIPS 2015) vorgestellt wurde, gehörte zu den ersten großen Korpora, die zum Trainieren und Bewerten von Modellen für maschinelles Lese- und Verständnistraining entwickelt wurden. Das Repository bietet Skripte zum Herunterladen archivierter CNN- und Daily Mail-Artikel aus der Wayback Machine und zum automatischen Generieren von Cloze-Fragen, bei denen Entitäten im Text durch Platzhalter ersetzt werden. Jede Dateninstanz besteht aus einem Nachrichtenartikel (Kontext), einer generierten Frage und der dazugehörigen Antwort und eignet sich daher für überwachte Machine-Learning-Setups. Die Ausgabe folgt einem standardisierten Frage-Antwort-Format mit Entitätszuordnungen, die Modellen beim Auflösen benannter Referenzen helfen.
Eigenschaften
- Generiert umfangreiche Frage-Antwort-Datensätze aus Nachrichtenartikeln
- Enthält Daten aus den Korpora von CNN und Daily Mail über die Wayback Machine
- Produziert Fragen, Kontexte und Antworten in einem standardisierten Textformat
- Unterstützt die Entitätsanonymisierung durch Mapping für das Modelltraining
- Bietet eine reproduzierbare Generierungspipeline mit Python-Skripten
- Kompatibel mit Maschinenverständnis- und NLP-Benchmarking-Aufgaben
Programmiersprache
Python
Kategorien
Diese Anwendung kann auch von https://sourceforge.net/projects/question-answer-corpus.mirror/ heruntergeladen werden. Sie wurde in OnWorks gehostet, um sie auf einfachste Weise online von einem unserer kostenlosen Betriebssysteme aus ausführen zu können.