适用于 Windows 的无头 Chrome 爬虫下载

这是名为 Headless Chrome Crawler 的 Windows 应用程序,其最新版本可以作为 1.8.0.zip 下载。 它可以在工作站的免费托管服务提供商 OnWorks 中在线运行。

 
 

使用 OnWorks 免费下载并在线运行这个名为 Headless Chrome Crawler 的应用程序。

请按照以下说明运行此应用程序:

- 1. 在您的 PC 中下载此应用程序。

- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。

- 3. 在这样的文件管理器中上传这个应用程序。

- 4. 从本网站启动任何 OS OnWorks 在线模拟器,但更好的 Windows 在线模拟器。

- 5. 从您刚刚启动的 OnWorks Windows 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。

- 6. 下载应用程序并安装。

- 7. 从您的 Linux 发行版软件存储库下载 Wine。 安装后,您可以双击该应用程序以使用 Wine 运行它们。 您还可以尝试 PlayOnLinux,这是 Wine 上的一个花哨界面,可帮助您安装流行的 Windows 程序和游戏。

Wine 是一种在 Linux 上运行 Windows 软件的方法,但不需要 Windows。 Wine 是一个开源的 Windows 兼容层,可以直接在任何 Linux 桌面上运行 Windows 程序。 本质上,Wine 试图从头开始重新实现足够多的 Windows,以便它可以运行所有这些 Windows 应用程序,而实际上不需要 Windows。

截图:


无头 Chrome 爬虫


描述:

基于对 HTML 文件的简单请求的爬虫通常很快。 然而,它有时最终会捕获空的主体,尤其是当网站建立在诸如 AngularJS、React 和 Vue.js 之类的现代前端框架上时。 该爬虫由 Headless Chrome 提供支持,提供简单的 API 来爬取动态网站。 支持深度优先搜索和广度优先搜索算法。 保存抓取证据截图,模拟设备和用户代理,抓取效率优先队列,遵守robots.txt等。 静态爬虫基于对 HTML 文件的简单请求。 它们通常很快,但是当 HTML 在浏览器上动态更改时,它们无法抓取内容。 基于 PhantomJS 和 Selenium 的动态爬虫在此类动态应用程序上神奇地工作。 但是,PhantomJS 的维护者已经下台,并建议改用 Headless Chrome,它又快又稳定。 这个爬虫是动态的,基于 Headless Chrome。



特征

  • 分布式爬取
  • 配置并发、延迟和重试
  • 可插拔缓存存储,如Redis
  • 支持导出结果的 CSV 和 JSON 行
  • 在最大请求处暂停并随时恢复
  • 自动插入 jQuery 进行抓取


程式语言

JavaScript的



这是一个也可以从 https://sourceforge.net/projects/headless-chrome-crawler.mirror/ 获取的应用程序。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。



最新的 Linux 和 Windows 在线程序


下载适用于 Windows 和 Linux 的软件和程序的类别