This is the Linux app named RobotsDisallowed whose latest release can be downloaded as RobotsDisallowedsourcecode.tar.gz. It can be run online in the free hosting provider OnWorks for workstations.
使用 OnWorks 免费下载并在线运行名为 RobotsDisallowed 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
机器人禁用
商品描述
RobotsDisallowed 是一个公共目录,用于追踪那些在其 robots.txt 或其他相关机制中明确屏蔽人工智能和网络爬虫的网站和组织。它着重记录内容所有者日益增长的趋势,即他们越来越重视对其数据用于模型训练和自动化数据采集方式的控制。该项目汇总域名,记录目标机器人或用户代理,并为研究人员、政策制定者和工具开发者揭示相关模式。它既是一项提高透明度的举措,也是为设计自动化访问的允许/拒绝策略的人员提供的资源。随着新机器人的出现和政策的变化,该数据集欢迎社区贡献数据,以保持信息的更新。此外,它还通过展示网站所有者如何大规模地实施许可和限制,突显了网络标准、伦理和人工智能治理之间的交集。
功能
- 禁止人工智能或网络爬虫机器人访问的域名列表
- 识别目标用户代理和阻止模式
- 社区更新的数据集反映了政策变化
- 为爬虫感知工具的研究人员和开发者提供的参考资料
- 数据使用和同意相关规范演变概览
- 用于分析和重用的轻量级格式
分类
您也可以从 https://sourceforge.net/projects/robotsdisallowed.mirror/ 获取此应用程序。它已托管在 OnWorks 上,以便通过我们的免费操作系统之一以最简单的方式在线运行。
