英语法语西班牙语

运行服务器 | Ubuntu > | Fedora > |


OnWorks 网站图标

webcheck - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 webcheck

这是 webcheck 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

名称


webcheck - 网站链接检查器

概要


网络检查 [OPTION] ... 网址

商品描述


网络检查 将检查指定 URL 处的文档是否有指向其他文档的链接,请按照
这些链接递归地生成一个 HTML 报告。

-一世, --内部=模式
标记匹配的 URL 模式 (perl 类型的正则表达式)作为内部链接。
可以多次使用。 请注意,PATTERN 与完整 URL 匹配。
与此 PATTERN 匹配的 URL 将被视为内部 URL,即使它们匹配其中之一
--external PATTERNs。

-X, --外部=模式
标记匹配的 URL 模式 (perl 类型的正则表达式)作为外部链接。
可以多次使用。 请注意,PATTERN 与完整 URL 匹配。

-y, --yank=模式
不检查匹配的 URL 模式 (perl 类型的正则表达式)。 像 -x
标志,虽然这个选项会导致 webcheck 不检查正则表达式匹配的链接
而 -x 将检查链接而不是它的子链接。 可以多次使用。
请注意,PATTERN 与完整 URL 匹配。

-b, --仅限基础
将任何不以基本 URL 开头的 URL 视为外部 URL。 例如,如果
你跑
网络检查 -b http://www.example.com/foo
然后 http://www.example.com/foo/bar 将被视为内部,而
http://www.example.com/ 将被视为外部。 默认情况下,所有页面
该站点将被视为内部站点。

-一种, --避免-外部
避免外部链接。 通常,如果 webcheck 正在检查 HTML 页面并且它发现
指向外部文档的链接,它将检查该外部文档是否
文件存在。 此标志禁用该操作。

--忽略机器人
不要检索和解析 robots.txt 文件。 默认情况下,robots.txt 文件是
获得并尊重。 如果您确定要忽略并覆盖
站长决定可以使用这个选项。
有关 robots.txt 处理的更多信息,请参阅下面的 NOTES 部分。

-q, - 安静的, - 沉默的
不要在 webcheck 遍历站点时打印出进度。

-d, -调试
在抓取站点时打印调试信息。 这个选项主要是有用的
对于开发人员

-o, --输出=目录
输出目录。 用于指定 webcheck 将转储其的目录
报告。 默认为当前目录或由 config.py 指定。 如果这
目录不存在,它将为您创建(如果可能)。

-C, - 继续
尝试从上一次运行继续。 使用此选项时,webcheck 将查找
输出目录中的 webcheck.dat。 读取此文件以恢复状态
从上次运行。 这允许 webcheck 继续先前中断的
跑。 使用此选项时,--internal、--external 和--yank 选项将
被忽略以及任何 URL 参数。 --base-only 和 --avoid-external
选项应与上一次运行相同。
请注意,此选项是实验性的,它的语义可能会随着即将到来而改变
版本(特别是与其他选项相关)。 另请注意,存储的
不保证文件在版本之间兼容。

-F, - 力量
无需询问即可覆盖文件。 运行 webcheck 时需要此选项
交互地。

-r, --重定向=N
重定向深度。 遵循 webcheck 时应遵循的重定向数量
关联。 0 意味着遵循所有重定向。

-u, --用户密码=网址
指定一个包含用户名和密码信息的 URL 以用于基本
访问网站时进行身份验证。
例如 http://test:秘密@example.com/
可以多次指定此选项。

-w, --等待=SECONDS
稍等 SECONDS 在文档检索之间。 通常 webcheck 会处理一个 url 和
立即进入下一个。 然而,在某些加载的系统上,它可能是可取的
让 webcheck 在请求之间暂停。 此选项可以设置为任何非
负数。

-v, - 版
显示程序版本。

-H, - 帮帮我
显示选项的简短摘要。

网址 课程设置


URL 分为两类:

内部 检索 URL 并检查检索到的项目的语法。 此外,该
检索到的项目被搜索到其他项目(任何类别)的链接,这些链接是
紧随其后。

外部 检索 URL 仅用于测试它们是否有效并收集一些基本信息
来自他们的信息(标题、大小、内容类型等)。 检索到的项目不是
检查与其他项目的链接。

除了它们的类之外,还可以考虑 URL 猛拉 (与 --yank 指定的一样
或 --avoid-external 选项)。 URL 可以是内部的也可以是外部的,并且不会是
检索或检查。 不受支持的方案的 URL 也被认为是 yanked。

示例


检查网站 www.example.com 但考虑其中包含“/webcheck”的任何路径
外部的。
网络检查 http://www.example.com/ -x /网络检查

附注


检查内部 URL 时,webcheck 尊重 robots.txt 文件,将自身标识为
用户代理网络检查。 根本不会检查不允许的链接,就像 -y 选项一样
为该 URL 指定。 允许 webcheck 抓取其他机器人正在抓取的网站部分
不允许,使用类似的东西:
用户代理: *
禁止: /富

用户代理: 网络检查
允许: /富

环境


_代理
代理网址.

REPORTING BUGS


错误报告应发送到邮件列表webcheck-users@lists.arthurdejong.org>.
可以在 webcheck 主页上找到有关报告错误的更多信息:
http://arthurdejong.org/webcheck/

版权


版权所有 © 1998, 1999 Albert Hopkins (marduk)
版权所有 © 2002 Mike W. Meyer
版权所有 © 2005、2006、2007、2008、2009、2010 Arthur de Jong
webcheck 是免费软件; 请参阅复制条件的来源。 没有保修;
甚至不是为了特定目的的适销性或适合性。
作为软件输出生成的文件不会自动归入
该软件的版权,除非另有明确说明。

使用 onworks.net 服务在线使用 webcheck


Ad


Ad