This is the Linux app named RobotsDisallowed whose latest release can be downloaded as RobotsDisallowedsourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
Laden Sie die App „RobotsDisallowed with OnWorks“ kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.
- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.
SCREENSHOTS
Ad
Roboter verboten
BESCHREIBUNG
RobotsDisallowed ist ein öffentlicher Katalog, der Websites und Organisationen erfasst, die KI- und Web-Scraping-Crawler explizit in ihrer robots.txt-Datei oder ähnlichen Mechanismen blockieren. Er dokumentiert den wachsenden Trend, dass Content-Inhaber die Kontrolle darüber behalten, wie ihre Daten für das Modelltraining und die automatisierte Datenerfassung verwendet werden. Das Projekt aggregiert Domains, erfasst die betroffenen Bots oder User-Agents und stellt Muster für Forschende, politische Entscheidungsträger und Tool-Entwickler dar. Es dient sowohl der Transparenz als auch als Ressource für die Entwicklung von Strategien zur Zulassung bzw. Verweigerung des automatisierten Zugriffs. Die Community ist eingeladen, Beiträge zum Datensatz zu leisten, um ihn angesichts neuer Bots und sich ändernder Richtlinien aktuell zu halten. Darüber hinaus beleuchtet er die Schnittstelle von Webstandards, Ethik und KI-Governance, indem er zeigt, wie Website-Inhaber Zustimmung und Einschränkung in großem Umfang umsetzen.
Eigenschaften
- Kuratierte Liste von Domains, die KI- oder Scraping-Bots nicht zulassen
- Identifizierung gezielter Benutzeragenten und Blockierungsmuster
- Von der Community aktualisierter Datensatz, der die Richtlinienänderungen widerspiegelt
- Referenz für Forscher und Entwickler von Crawling-fähigen Tools
- Momentaufnahme der sich wandelnden Normen in Bezug auf Datennutzung und Einwilligung
- Leichtes Format für Analyse und Wiederverwendung
Kategorien
Diese Anwendung kann auch unter https://sourceforge.net/projects/robotsdisallowed.mirror/ heruntergeladen werden. Sie wird auf OnWorks gehostet, um die Online-Ausführung über eines unserer kostenlosen Betriebssysteme zu vereinfachen.
