跟踪
这是命令 httrack,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
httrack - 离线浏览器:将网站复制到本地目录
概要
跟踪 [ 网址 ] ... [ -过滤 ] ... [ +过滤器 ] ... [ -O, - 小路 [ -w, - 镜子 [ -W,
--镜像向导 [ -G, --获取文件 [ -一世, - 继续 [ -Y, --镜像链接 [ -P,
- 代理 [ -%F, --httpproxy-ftp[=N] [ -%b, --绑定 [ -rN, --深度[=N] [ -%eN,
--ext-深度[=N] [ -mN, --最大文件数[=N] [ -MN, --最大尺寸[=N] [ -EN, --最大时间[=N] ]
[ -一个, --最大速率[=N] [ -%cN, --每秒连接数[=N] [ -GN, --max-暂停[=N] [
-CN, --套接字[=N] [ -TN, --超时[=N] [ -RN, --重试[=N] [ -JN, --最小速率[=N] ]
[ -HN, --主机控制[=N] [ -%P, --扩展解析[=N] [ -n, - 靠近 [ -t, - 测试 ]
[ -%L, - 列表 [ -%S, --urllist [ -NN, --结构[=N] [ -%D,
--缓存延迟类型检查 [ -%M, --mime-html [ -LN, --长名称[=N] [ -KN,
--保持链接[=N] [ -X, --replace-外部 [ -%X, --禁用密码 [ -%q,
--包括查询字符串 [ -o, --生成错误 [ -X, --清除旧[=N] [ -%p,
- 保留 [ -%T, --utf8-转换 [ -bN, --cookies[=N] [ -你, --检查类型[=N] [
-j, --parse-java[=N] [ -SN, --机器人[=N] [ -%H, --http-10 [ -%k, - 活着 [
-%B, - 宽容 [ -%s, --更新黑客 [ -%u, --urlhack [ -%一种, - 认为 [ -@在,
--协议[=N] [ -%w, --禁用模块 [ -F, - 用户代理 [ -%R, --推荐人 [ -%E,
- 从 [ -%F, --页脚 [ -%l, - 语 [ -%一种, - 接受 [ -%X, --标题 [ -C,
--缓存[=N] [ -k, --全部存储在缓存中 [ -%n, --不要重新捕获 [ -%v, - 展示 [
-Q, --请勿登录 [ -q, - 安静的 [ -z --额外日志 [ -Z --调试日志 [ -v, --详细
[ -F, --文件日志 [ -f2, --单日志 [ -一世, - 指数 [ -%一世, --构建顶部索引 [
-%一世, --搜索索引 [ -pN, --优先级[=N] [ -S, --留在同一目录 [ -D,
--可以下来 [ -U, --可以上去 [ -B, --可以上下 [ -一种,
--停留在同一地址 [ -d, --留在同一个域 [ -l, --保持相同的顶级域名 [ -e,
--到处走 [ -%H, --调试头 [ -%!, --禁用安全限制 [ -V,
--userdef-cmd [ -%W, - 打回来 [ -K, --保持链接[=N] [
商品描述
跟踪 允许您将万维网站点从 Internet 下载到本地
目录,递归构建所有目录,获取 HTML、图像和其他文件
从服务器到您的计算机。 HTTrack整理了原站的相对链接——
结构体。 只需在浏览器中打开“镜像”网站的页面,您就可以
从一个链接到另一个链接浏览站点,就像您在网上查看一样。 HTTrack 也可以
更新现有的镜像站点,并恢复中断的下载。
示例
跟踪 www.someweb.com/bob/
镜像站点 www.someweb.com/bob/ 并且只有这个站点
跟踪 www.someweb.com/bob/ www.anothertest.com/mike/ +*.com/*.jpg -mime:应用程序/*
将两个站点镜像在一起(带有共享链接)并接受任何 .jpg 文件
.com 网站
跟踪 www.someweb.com/bob/bobby.html +* -r6
意味着从 bobby.html 开始获取所有文件,具有 6 个链接深度,以及
在网络上到处走
跟踪 www.someweb.com/bob/bobby.html - 蜘蛛 -P proxy.myhost.com:8080
使用代理在 www.someweb.com/bob/bobby.html 上运行蜘蛛
跟踪 - 更新
更新当前文件夹中的镜像
跟踪
将带您进入交互模式
跟踪 - 继续
继续当前文件夹中的镜像
配置
一般用途总体评估 opţiuni:
-O 镜像/日志文件+缓存的路径(-O 路径镜像[,路径缓存和日志文件])(--path
)
操作 opţiuni:
-w *镜像网站 (--mirror)
-W 镜像网站,半自动(提问)(--mirror-wizard)
-g 只是获取文件(保存在当前目录中)(--get-files)
-i 使用缓存继续中断的镜像 (--continue)
-Y 镜像位于一级页面的所有链接(镜像链接)(--mirrorlinks)
代理 opţiuni:
-P 代理使用(-P proxy:port 或 -P user:pass@proxy:port)(--proxy )
-%f *使用 ftp 代理 (f0 不要使用) (--httpproxy-ftp[=N])
-%b 使用这个本地主机名来发出/发送请求 (-%b 主机名) (--bind )
极限 opţiuni:
-rN 设置镜像深度为 N (* r9999) (--depth[=N])
-%eN 设置外部链接深度为 N (* %e0) (--ext-depth[=N])
-mN 非 html 文件的最大文件长度 (--max-files[=N])
-mN,N2 非 html (N) 和 html (N2) 的最大文件长度
-MN 可上传/扫描的最大整体尺寸 (--max-size[=N])
-EN 最大镜像时间(以秒为单位)(60=1 分钟,3600=1 小时)(--max-time[=N])
-AN 以字节/秒为单位的最大传输速率 (1000=1KB/s max) (--max-rate[=N])
-%cN 最大连接数/秒 (*%c10) (--connection-per-second[=N])
-GN 如果达到 N 字节则暂停传输,并等待锁定文件被删除
(--max-暂停[=N])
自动化流程 控制:
-cN 多个连接数 (*c8) (--sockets[=N])
-TN 超时,关闭无响应链接后的秒数 (--timeout[=N])
-RN 重试次数,以防超时或非致命错误 (*R1) (--retries[=N])
-JN 交通拥堵控制,链路允许的最小传输速率(字节/秒)
(--最小速率[=N])
-HN 主机在以下情况下被放弃:0=从不,1=超时,2=慢,3=超时或慢
(--主机控制[=N])
链接 opţiuni:
-%P *扩展解析,尝试解析所有链接,即使是未知标签或Javascript
(%P0 不使用) (--extended-parsing[=N])
-n 获取 html 文件附近的非 html 文件(例如:位于外部的图像)(--near)
-t 测试所有 URL(甚至是被禁止的 URL)(--test)
-%L 添加位于此文本文件中的所有 URL(每行一个 URL)(--list )
-%S 添加位于此文本文件中的所有扫描规则(每行一个扫描规则)
(--urllist )
构建 opţiuni:
-NN 结构类型(0 *原始结构,1+:见下文)(--structure[=N])
- 或用户定义的结构 (-N "%h%p/%n%q.%t")
-%N 延迟类型检查,不做任何链接测试,等待文件下载开始
相反(实验性)(%N0 不使用,%N1 用于未知扩展,* %N2 总是
使用)
-%D 缓存延迟类型检查,更新时不要等待远程类型,以加速
他们(%D0 等待,* %D1 不等待)(--cached-delayed-type-check)
-%M 生成一个 RFC MIME 封装的完整档案 (.mht) (--mime-html)
-LN 长名称(L1 *长名称/L0 8-3 转换/L2 ISO9660 兼容)
(--长名称[=N])
-KN 保留原始链接(例如 http://www.adr/link) (K0 *相对链接,K绝对
链接、K4原始链接、K3绝对URI链接、K5透明代理链接)
(--保持链接[=N])
-x 用错误页面替换外部 html 链接 (--replace-external)
-%x 不包括外部密码保护网站的任何密码(%x0 包括)
(--禁用密码)
-%q *include 本地文件的查询字符串(无用,仅供参考)(%q0
不包括) (--include-query-string)
-o * 生成输出 html 文件以防出错 (404..)(o0 不生成)
(--生成错误)
-X *更新后清除旧文件 (X0 保持删除) (--purge-old[=N])
-%p 按原样保留 html 文件(与 -K4 -%F "" 相同)(--preserve)
-%T 将转换链接到 UTF-8 (--utf8-conversion)
蜘蛛 opţiuni:
-bN 接受 cookies.txt (0=不接受,* 1=接受) (--cookies[=N])
-u 检查文档类型如果未知 (cgi,asp..) (u0 don t check, * u1 check but /, u2
始终检查) (--check-type[=N])
-j *parse Java 类(j0 不解析,位掩码:|1 默认解析,|2 不解析
.class |4 不要解析 .js |8 不要太激进) (--parse-java[=N])
-sN 跟随 robots.txt 和元机器人标签(0=从不,1=有时,* 2=总是,3=总是
(即使是严格的规则))(--robots[=N])
-%h 强制 HTTP/1.0 请求(减少更新功能,仅适用于旧服务器或代理)
(--http-10)
-%k 尽可能使用keep-alive,大大减少小文件和测试的延迟
请求 (%k0 不使用) (--keep-alive)
-%B 容忍请求(在某些服务器上接受虚假响应,但不是标准的!)
( - 宽容)
-%s 更新黑客:更新时限制重新传输的各种黑客(相同大小,
虚假回复..) (--updatehack)
-%u url hacks: 各种限制重复 URL 的 hacks (strip //, www.foo.com==foo.com..)
(--urlhack)
-%A 假设类型 (cgi,asp..) 总是与 mime 类型 (-%A
php3,cgi=text/html;dat,bin=application/x-zip) (--假设)
- 也可用于强制特定文件类型:--assume foo.cgi=text/html
-@iN 网络协议 (0=ipv6+ipv4, 4=ipv4 only, 6=ipv6 only) (--protocol[=N])
-%w 禁用特定的外部 mime 模块 (-%w htsswf -%w htsjava) (--disable-module
)
浏览器 ID:
-F 在 HTTP 标头中发送的用户代理字段(-F“用户代理名称”)(--user-agent )
-%R 在 HTTP 标头中发送的默认引用字段 (--referer )
-%E 来自以 HTTP 标头发送的电子邮件地址 (--from )
-%F Html 代码中的页脚字符串(-%F“镜像 [来自主机 %s [文件 %s [at %s]]]”
(--页脚)
-%l 首选语言 (-%l "fr, en, jp, *" (--language )
-%a 接受的格式 (-%a "text/html,image/png;q=0.9,*/*;q=0.1" (--accept )
-%X 附加 HTTP 标头行 (-%X "X-Magic: 42" (--headers )
记录 指数, 缓存
-C 创建/使用缓存进行更新和重试(C0 无缓存,C1 缓存优先,* C2
之前测试更新)(--cache[=N])
-k 将所有文件存储在缓存中(如果文件在磁盘上则没有用)(--store-all-in-cache)
-%n 不要重新下载本地擦除的文件 (--do-not-recatch)
-%v 在屏幕上显示下载的文件名(实时) - * %v1 短版 - %v2
完整动画(--display)
-Q 无日志 - 安静模式 (--do-not-log)
-q 没有问题 - 安静模式 (--quiet)
-z log - 额外信息 (--extra-log)
-Z 日志 - 调试(--debug-log)
-v 登录屏幕 (--verbose)
-f *登录文件(--file-log)
-f2 单个日志文件 (--single-log)
-I *制作索引(I0 不制作)(--index)
-%i 为项目文件夹创建顶部索引(* %i0 不创建)(--build-top-index)
-%I 为此镜像创建可搜索索引 (* %I0 don t make) (--search-index)
专家 opţiuni:
-pN 优先级模式:(* p3) (--priority[=N])
-p0 只扫描,不保存任何东西(用于检查链接)
-p1 只保存 html 文件
-p2 只保存非 html 文件
-*p3 保存所有文件
-p7 之前获取html文件,然后处理其他文件
-S 留在同一个目录 (--stay-on-same-dir)
-D *只能进入子目录(--can-go-down)
-U 只能去上层目录 (--can-go-up)
-B 可以上下进入目录结构(--can-go-up-and-down)
-a *留在同一个地址(--stay-on-same-address)
-d 留在同一个主域(--stay-on-same-domain)
-l 保持在同一个 TLD(例如:.com)(--stay-on-same-tld)
-e 在网络上到处走 (--go-everywhere)
-%H 调试日志文件中的 HTTP 标头 (--debug-headers)
领袖 opţiuni: (做 不是 使用 if 可能的)
-#X *使用优化引擎(有限内存边界检查)(--fast-engine)
-#0 过滤器测试 (-#0 *.gif www.bar.com/foo.gif ) (--debug-testfilters )
-#1 简化测试 (-#1 ./foo/bar/../foobar)
-#2 类型测试 (-#2 /foo/bar.php)
-#C 缓存列表 (-#C *.com/spider*.gif (--debug-cache )
-#R 缓存修复(损坏的缓存)(--repair-cache)
-#d 调试解析器 (--debug-parsing)
-#E 在 meta.zip 中提取 new.zip 缓存元数据
-#f 总是刷新日志文件 (--advanced-flushlogs)
-#FN 最大过滤器数量 (--advanced-maxfilters[=N])
-#h 版本信息 (--version)
-#K 扫描标准输入 (调试) (--debug-scanstdin)
-#L 最大链接数 (-#L1000000) (--advanced-maxlinks)
-#p 显示丑陋的进度信息 (--advanced-progressinfo)
-#P 捕获 URL (--catch-url)
-#R 旧的 FTP 例程(调试)(--repair-cache)
-#T 生成传输操作。 每分钟记录一次(--debug-xfrstats)
-#u 等待时间 (--advanced-wait)
-#Z 每分钟生成一次传输速率统计信息 (--debug-ratestats)
危险的 opţiuni: (做 不是 使用 除非 究竟 知道 什么 旨在 正在做)
-%! 绕过旨在避免带宽滥用(带宽、
同时连接)(--disable-security-limits)
-重要的
注意:危险的选择,只适合专家
- 极其小心地使用它
命令行 具体的 opţiuni:
-V 在每个文件后执行系统命令($0 是文件名:-V "rm \$0")
(--userdef-cmd )
-%W 使用外部库函数作为包装器 (-%W myfoo.so[,myparameters])
( - 打回来)
订阅计划详情 附加选项 N
-N0 站点结构(默认)
-N1 HTML 在 web/,图像/其他文件在 web/images/
-N2 HTML 在 web/HTML 中,图像/其他在 web/images 中
-N3 HTML 在 web/,图像/其他在 web/
-N4 HTML在web/中,images/other在web/xxx中,其中xxx为文件扩展名(均为gif
例如,将被放置到 web/gif 上)
-N5 图像/其他在 web/xxx 和 HTML 在 web/HTML
-N99 web/ 中的所有文件,带有随机名称(小工具!)
-N100 站点结构,不带 www.domain.xxx/
-N101 与 N1 相同,除了“web”被站点名称替换
-N102 与 N2 相同,除了“web”被站点名称替换
-N103 与 N3 相同,除了“web”被站点名称替换
-N104 与 N4 相同,除了“web”被站点名称替换
-N105 与 N5 相同,除了“web”被站点名称替换
-N199 与 N99 相同,除了“web”被站点名称替换
-N1001 与 N1 相同,但没有“web”目录
-N1002 与 N2 相同,但没有“web”目录
-N1003 与 N3 相同,但没有“web”目录(为 g 选项设置的选项)
-N1004 与 N4 相同,但没有“web”目录
-N1005 与 N5 相同,但没有“web”目录
-N1099 与 N99 相同,但没有“web”目录
订阅计划详情 用户自定义 选项 N
%n 没有文件类型的文件名(例如:图像)
%N 文件名,包括文件类型(例如:image.gif)
%t 文件类型(例如:gif)
%p 路径 [无结尾 /](例如:/someimages)
%h 主机名(例如:www.someweb.com)
%M URL MD5(128 位,32 个 ascii 字节)
%Q 查询字符串 MD5(128 位,32 个 ascii 字节)
%k 完整查询字符串
%r 协议名称(例如:http)
%q 小查询字符串 MD5(16 位,4 个 ascii 字节)
%s? 短名称版本(例如:%sN)
%[param] 查询字符串中的参数变量
%[param:before:after:empty:notfound] 高级变量提取
订阅计划详情 用户自定义 选项 N 和 高级 变量 提取
%[参数:之前:之后:空:未找到]
-param : 参数名称
-前
: 如果找到参数,则添加到前面的字符串
-after : 如果找到参数则追加的字符串
-未找到
: 如果找不到参数,则替换字符串
-empty : 如果参数为空则替换字符串
- 除第一个(参数名称)外的所有字段都可以为空
订阅计划详情 附加选项 K
-K0 foo.cgi?q=45 -> foo4B54.html?q=45(相对URI,默认)
-K -> http://www.foobar.com/folder/foo.cgi?q=45(绝对网址)(--keep-links[=N])
-K3 -> /folder/foo.cgi?q=45(绝对URI)
-K4 -> foo.cgi?q=45(原始网址)
-K5 -> http://www.foobar.com/folder/foo4B54.html?q=45(透明代理网址)
捷径:
- 镜子
*制作站点的镜像(默认)
- 得到
获取指示的文件,不要寻找其他 URL (-qg)
- 列表
添加位于此文本文件中的所有 URL (-%L)
--镜像链接
镜像第一级页面中的所有链接 (-Y)
--测试链接
测试页面中的链接 (-r1p0C0I0t)
- 蜘蛛
蜘蛛站点,用于测试链接:报告错误和警告(-p0C0I0t)
--测试站点
与 --spider 相同
- 骨骼
制作一个镜像,但只获取 html 文件 (-p1)
- 更新
更新镜像,无需确认(-iC2)
- 继续
继续镜像,无需确认(-iC1)
--catchurl
创建一个临时代理来捕获 URL 或表单发布 URL
- 干净的
擦除缓存和日志文件
--http10
强制 http/1.0 请求 (-%h)
订阅计划详情 附加选项 %W: 外置 回调 原型
请点击 hts定义.h
使用 onworks.net 服务在线使用 httrack