这是名为 Web Crawler Security Tool 的 Linux 应用程序,其最新版本可以作为 crawler_v1.0.1.tar.gz 下载。 它可以在工作站的免费托管服务提供商 OnWorks 中在线运行。
使用 OnWorks 免费下载并在线运行这个名为 Web Crawler Security Tool 的应用程序。
请按照以下说明运行此应用程序:
- 1. 在您的 PC 中下载此应用程序。
- 2. 在我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX 中输入您想要的用户名。
- 3. 在这样的文件管理器中上传这个应用程序。
- 4. 从此网站启动OnWorks Linux online 或Windows online emulator 或MACOS online emulator。
- 5. 从您刚刚启动的 OnWorks Linux 操作系统,使用您想要的用户名转到我们的文件管理器 https://www.onworks.net/myfiles.php?username=XXXXX。
- 6. 下载应用程序,安装并运行。
SCREENSHOTS
Ad
网络爬虫安全工具
商品描述
最后更新时间为 26 年 16 月 25 日星期二 2012:XNUMX UTCWeb Crawler Security 是一个基于 Python 的工具,用于自动抓取网站。 它是一个面向渗透测试任务的网络爬虫。 该工具的主要任务是搜索和列出网站中的所有链接(页面和文件)。
爬虫在 v1.0 中被完全重写,带来了很多改进:改进了数据可视化,下载文件的交互选项,提高了爬行速度,将找到的文件列表导出到一个单独的文件中(用于爬取一个站点一次,然后下载文件并使用 FOCA 进行分析)、生成通用日志格式 (CLF) 的输出日志、管理基本身份验证等等!
许多旧功能已重新实现,最有趣的是爬虫搜索目录索引的能力。
功能
- 抓取 http 和 https 网站(甚至不使用公共端口的网站)。 抓取 http 和 https 网站(甚至不使用公共端口的网站)。 抓取 http 和 https 网站(甚至不使用公共端口的网站)。
- (新!)它允许确定爬行的深度(-C 选项)
- (新!)在爬行结束时生成一个摘要,其中包含有关爬行结果的统计信息
- (新!)实现了 HEAD 方法,用于在抓取之前分析文件类型。 该特性显着提高了爬虫的速度。
- 使用正则表达式查找“href”、“src”和“content”链接。
- 标识相对链接。
- 识别非 html 文件并显示它们。
- 不抓取非 html 文件。
- 标识目录索引。
- 使用索引抓取目录(尚未在 v1.0 中实现)
- 使用 CTRL-C 停止当前的爬虫阶段并继续工作。 很实用的东西...
- 通过读取响应的内容类型标头字段来识别所有类型的文件。
- 在一个单独的文件中导出(-e 选项)在爬行过程中找到的所有文件 URL 的列表。
- 选择要下载的文件类型(-d 选项)。 例如:png、pdf、jpeg、gif 或 png、jpeg。
- 以交互方式选择要下载的文件类型(-i 选项)。
- 将下载的文件保存到一个目录中。 如果至少有一个文件要下载,它只会创建输出目录。
- 以 CLF(通用日志格式)生成所有爬行过程中完成的请求的输出日志。
- (测试版)使用基本身份验证登录。 欢迎反馈!
- 尝试检测网站是否使用 CMS(如 wordpress、joomla 等)(尚未在 v1.0 中实现)
- 它查找 php、asp、aspx、jps 页面的“.bk”或“.bak”文件。 (尚未在 v1.0 中实现)
- 它识别并计算爬取的唯一网页的数量。 (尚未在 v1.0 中实现)
- 它识别并计算抓取的包含 URL 参数的唯一网页的数量。 (尚未在 v1.0 中实现)
- 它适用于 Windows,但尚未保存结果
目的
信息科技
用户界面
控制台/终端
程式语言
Python
这是一个也可以从 https://sourceforge.net/projects/webcrawler-py/ 获取的应用程序。 它已托管在 OnWorks 中,以便从我们的免费操作系统之一以最简单的方式在线运行。