这是名为 Heritrix 的 Linux 应用程序,其最新版本可以下载为 3.10.0sourcecode.tar.gz。它可以在免费的工作站托管服务提供商 OnWorks 上在线运行。
免费下载并使用 OnWorks 在线运行名为 Heritrix 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
Heritrix的
商品描述
Heritrix 是互联网档案馆的开源、可扩展、网络规模、档案质量的网络爬虫项目。 Heritrix(有时拼写为heretrix,或拼写或误读为heratrix/heritix/heretix/heratix)是一个古词,意为女继承人(继承的女性)。 由于我们的爬虫旨在收集和保存我们文化的数字文物,以造福未来的研究人员和几代人,因此这个名字似乎很合适。 Heritrix 的设计遵循 robots.txt 排除指令† 和 META nofollow 标签。 请考虑您的爬网将给种子网站带来的负载,并相应地设置礼貌策略。 另外,请始终使用用户代理中的联系信息来识别您的爬网,以便可能受到您的爬网不利影响的网站可以与您联系或相应地调整其服务器行为。
特性
- Heritrix 是免费软件; 您可以根据 Apache 许可证 2.0 版的条款重新分发和/或修改它
- Heritrix 的设计尊重 robots.txt 排除指令† 和 META nofollow 标签
- 始终使用用户代理中的联系信息来识别您的爬网
- 开源、可扩展、网络规模
- 档案级网络爬虫项目
- Heritrix 主要在 Linux 上使用
程式语言
爪哇岛
分类
该应用程序也可以从 https://sourceforge.net/projects/heritrix.mirror/ 获取。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。