これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド htdig です。
プログラム:
NAME
htdig - ht://Dig 検索エンジンの HTML ドキュメントを取得します
SYNOPSIS
htdig [オプション]
DESCRIPTION
Htdig は、HTTP プロトコルを使用して HTML ドキュメントを取得し、そこから情報を収集します。
後でこれらのドキュメントを検索するために使用できるドキュメント。 このプログラムは参照できます
探索ロボットとして。
OPTIONS
- 標準入力からインデックス作成を開始する URL のリストを取得します。 これは、
デフォルトパラメータ 開始URL 構成ファイルで指定され、提供されるファイル
-m オプションを選択します。
-a 代替作業ファイルを使用してください。 htdig に追加するように指示します 。作業 データベース ファイルに保存され、
構築されるデータベースの XNUMX 番目のコピー。 これにより、元のファイルを使用できるようになります
インデックス作成の実行中に htsearch によって実行されます。
-c 構成ファイル
指定されたものを使用してください 構成ファイル デフォルトの代わりに。
-h マックスホップ
発掘を最大でも次のドキュメントに制限します。 マックスホップ 出発点から離れたリンク
書類。 これはオプションの場合にのみ機能します -i も与えられます。
-i イニシャル。 古いデータベースは使用しないでください。 古いデータベースは実行前に消去されます
プログラム。
-m ファイル名
最小限の実行。 ファイル内で指定された URL のみにインデックスを付けます ファイル名、他のすべてを無視します。
ファイル内の URL は、XNUMX 行に XNUMX つの URL という形式にする必要があります。
-s 完了後に発掘に関する統計を出力します。
-t ASCII バージョンのドキュメント データベースを作成します。 このデータベースは解析が簡単です
他の目的でそこから情報を抽出できるように、他のプログラムと連携させる
探すよりも。 このデータベースから興味深い統計を収集することができます。
フィールド名 値
あなたのURL
t タイトル
状態
(0 正常、1 が見つかりません、2 インデックスが作成されていません、3 が廃止されました)
m サーバーによって報告された最終変更時刻
s ドキュメントサイズ(バイト単位)
H 文書の抜粋
h メタディスクリプション
l 前回の取得時刻
L ドキュメント内のリンクの数または 出ていきます リンク
b ドキュメントへのリンクの数。別名
入ってきます リンクまたは バックリンク
c このドキュメントのホップ数
g 本書の署名
(重複を検出するために使用されます)
e 通知に使用するメールアドレス htnotify
n 当該通知が送信された日付
S 通知メッセージの件名
d このドキュメントを指す受信リンクのテキスト
(例:説明)
A ドキュメント内のアンカー (つまり、
-u ユーザー名パスワード
各 HTTP リクエストで指定されたユーザー名とパスワードを送信するように htdig に指示します。 の
資格情報は、 「ベーシック」 認証方法。 そこには HAS 〜へ
ユーザー名とパスワードの間にはコロン (:) を入れてください。
-v 詳細モード。 これにより、プログラムの冗長性が高まります。 2 つ以上を使用すると、
おそらくデバッグ目的でのみ役立ちます。 デフォルトの冗長モード (のみを使用)
one -v) は、掘削中に優れた進捗レポートを提供します。 セクションを参照してください
進捗レポートの正確な形式については以下をご覧ください。
FORMAT OF 、 進捗 レポート GIVEN IN 詳細 モード
URL ごとに 3 行が表示され、URL の前に XNUMX つの数字が表示され、URL の後にいくつかの記号が表示されます。
URL。 最初の数値はこれまでに解析されたドキュメントの数、XNUMX 番目の数値は
この文書の DocID、XNUMX 番目は文書のホップ数 (数値)
start_url ドキュメントの XNUMX つからのホップ数)。 印刷されている記号の意味
URL の後に:
「*」 すでにアクセスしたリンクに対して出力されます
"+" キューに入れられたばかりの新しいリンクについて出力されます
「 - 」 は、さまざまな理由のいずれかで拒否されたリンクに対して出力されます。 何を知るには
それらの理由は、少なくとも 3 つを指定して htdig を実行する必要があるためです。 -v オプション、つまり -vvv.
URL の後に「*」、「+」、または「-」記号がない場合、その文書が
解析されていないか空でしたが、その中に他のドキュメントへのリンクが見つからなかっただけです。
より冗長な出力では、これらのシンボルが複数の行に散在します。
デバッグ出力。
ファイル
/etc/htdig/htdig.conf
デフォルトの構成ファイル。
onworks.net サービスを使用してオンラインで htdig を使用する