这是名为 Headless Chrome Crawler 的 Linux 应用程序,其最新版本可以下载为 1.8.0.zip。 它可以在工作站的免费托管服务提供商 OnWorks 中在线运行。
使用 OnWorks 免费下载并在线运行这个名为 Headless Chrome Crawler 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
无头 Chrome 爬虫
商品描述
基于对 HTML 文件的简单请求的爬虫通常很快。 然而,它有时最终会捕获空的主体,尤其是当网站建立在诸如 AngularJS、React 和 Vue.js 之类的现代前端框架上时。 该爬虫由 Headless Chrome 提供支持,提供简单的 API 来爬取动态网站。 支持深度优先搜索和广度优先搜索算法。 保存抓取证据截图,模拟设备和用户代理,抓取效率优先队列,遵守robots.txt等。 静态爬虫基于对 HTML 文件的简单请求。 它们通常很快,但是当 HTML 在浏览器上动态更改时,它们无法抓取内容。 基于 PhantomJS 和 Selenium 的动态爬虫在此类动态应用程序上神奇地工作。 但是,PhantomJS 的维护者已经下台,并建议改用 Headless Chrome,它又快又稳定。 这个爬虫是动态的,基于 Headless Chrome。
功能
- 分布式爬取
- 配置并发、延迟和重试
- 可插拔缓存存储,如Redis
- 支持导出结果的 CSV 和 JSON 行
- 在最大请求处暂停并随时恢复
- 自动插入 jQuery 进行抓取
程式语言
JavaScript
这是一个也可以从 https://sourceforge.net/projects/headless-chrome-crawler.mirror/ 获取的应用程序。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。