GoGPT Best VPN GoSearch

OnWorks 网站图标

htdig - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 htdig

这是 htdig 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


htdig - 为 ht://Dig 搜索引擎检索 HTML 文档

概要


数据挖掘 [选项]

商品描述


Htdig 使用 HTTP 协议检索 HTML 文档并从这些文档中收集信息
以后可用于搜索这些文档的文档。 这个程序可以参考
作为搜索机器人。

配置


- 获取 URL 列表以从标准输入开始索引。 这将覆盖
默认参数 起始网址 在配置文件和提供给的文件中指定
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 -m 选项。

-a 使用备用工作文件。 告诉 htdig 追加 。工作 到数据库文件,导致
要构建的数据库的第二个副本。 这允许使用原始文件
通过 htsearch 在索引运行期间。

-c 配置文件
使用指定的 配置文件 而不是默认值。

-h 最大商店
将挖掘限制为最多为 最大商店 远离起点的链接
文档。 这仅适用于选项 -i 还给出了。

-i 最初的。 不要使用任何旧的数据库。 旧数据库将在运行前被擦除
该程序。

-m 文件名
最小运行。 只索引文件中给出的 URL 文件名,无视其他。
文件中的 URL 应格式化为每行一个 URL。

-s 完成后打印有关挖掘的统计信息。

-t 创建文档数据库的 ASCII 版本。 这个数据库很容易解析
与其他程序一起使用,以便可以从中提取信息用于其他目的
比搜索。 人们可以从这个数据库中收集一些有趣的统计数据。

字段名 价值观
网址
标题
一个状态
(0 正常,1 未找到,2 未编入索引,3 已过时)
m 服务器上报的最后修改时间
s 文档大小(以字节为单位)
H 文件摘录
h 元描述
l 最后检索时间
L 文档中的链接数或 即将离任 链接
b 指向文档的链接数,也称为
链接或 的反向链接
c 本文档的跳数
g 本文件的签名
(用于检测重复项)
用于通知的电子邮件地址 通知
n 发送此类通知的日期
S 通知消息的主题
d 指向此文档的传入链接的文本
(例如描述)

文档中的锚点(即

-u 用户名:密码
告诉 htdig 随每个 HTTP 请求发送提供的用户名和密码。 这
凭据将使用 基本的 身份验证方法。 那里 HAS
在用户名和密码之间使用冒号 (:)。

-v 详细模式。 这增加了程序的冗长性。 使用超过 2 是
可能仅用于调试目的。 默认的详细模式(仅使用
one -v) 在挖掘时给出了一个很好的进度报告。 请咨询栏目
下面是进度报告的确切格式。

FORMAT OF 进展 报告 GIVEN IN 详细 MODE
每个 URL 显示一行,URL 前有 3 个数字,后有一些符号
网址。 第一个数字是到目前为止解析的文档数,第二个是
这个文档的DocID,第三个是文档的跳数(number
来自 start_url 文档之一的跃点数)。 印刷符号的含义
在网址之后:

“*” 为已访问的链接打印

“+” 为刚刚排队的新链接打印

“ - ” 由于多种原因中的任何一个而被拒绝的链接的输出。 找出什么
这些原因是,您需要使用至少 3 个运行 htdig -v 选项,即 -vvv.

如果 URL 后没有“*”、“+”或“-”符号,这并不意味着该文档是
未解析或为空,但仅在其中未找到指向其他文档的链接。
随着更详细的输出,这些符号将散布在几行
调试输出。

FILES

/etc/htdig/htdig.conf
默认配置文件。

使用 onworks.net 服务在线使用 htdig


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。