英語フランス語スペイン語

Ad


OnWorksファビコン

checkbotp - クラウドでオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターを介して、OnWorks の無料ホスティング プロバイダーで checkbotp を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド checkbotp です。

プログラム:

NAME


Checkbot - WWW リンク検証ツール

SYNOPSIS


チェックボット[- クッキー] [- デバッグ] [- ファイル ファイル名] [ - 助けて]
[--mailto メールアドレス] [--noproxy ドメインのリスト]
[-詳細]
[--url 開始URL]
[- マッチ マッチ文字列] [-除外する 文字列を除外]
[- プロキシー プロキシ URL] [--内部のみ]
[- 無視 文字列を無視]
[- フィルター 置換正規表現]
[- スタイル スタイルファイルのURL]
[- ノート ノート] [- 寝る 秒] [- タイムアウト タイムアウト]
[- 間隔 秒] [--ドンワーン HTTP 応答コード]
[--enable-virtual]
[- 言語 言語コード]
[-抑制 抑止ファイル】
[開始 URL]

DESCRIPTION


Checkbot は、World Wide Web の特定の部分のリンクを検証します。 HTMLを作成します
診断のあるページ。

Checkbot は、LWP を使用してページ上の URL を検索し、それらをチェックします。 と同じスキームをサポートします。
LWP はそうし、HTML::LinkExtor が見つけるのと同じリンクを見つけます。

Checkbot は、リンクを「内部」または「外部」と見なします。 内部リンクはリンクです
チェックが必要な Web スペース内。 内部リンクが Web を指している場合
document このドキュメントが取得され、そのリンクが抽出されて処理されます。 外部の
リンクが機能していることのみがチェックされます。 Checkbot はリンクを見つけ次第チェックするため、内部的に
外部リンクは、異なる方法で処理されますが、同時にチェックされます。

チェックボットのオプションは次のとおりです。

- クッキー
サーバーから Cookie を受け入れ、後の要求で再度提供します。 これは
Cookie を使用してセッションを処理するサーバーに役立ちます。 デフォルトでは Checkbot は
任意の Cookie を受け入れます。

- デバッグ
デバッグ モードを有効にします。 もう実際にはサポートされていませんが、いくつかのファイルは保持されます
それ以外の場合は削除されます。

- ファイル
ファイルを使用する file 要約ファイル名の基礎として。 概要ページは
得る file 与えられ、サーバーページはに基づいています file なしで
.html 拡張子。 たとえば、このオプションを「index.html」に設定すると、
index.html と呼ばれる概要ページと index-server1.html と呼ばれるサーバー ページ
index-server2.html。

このオプションのデフォルト値は「checkbot.html」です。

- 助けて
標準出力に簡単なヘルプ メッセージを表示します。

--mailto [、 ]
にメールを送信 email 住所 Checkbot がチェックを完了したとき。 以上のものを与えることができます
カンマで区切られた XNUMX つのアドレス。 通知メールには、
結果。 Checkbot 1.76 の時点で、メールは送信中に問題が見つかった場合にのみ送信されます。
チェックボットの実行。

--noproxy
指定されたドメインにリクエストをプロキシしません。 ドメインのリストはカンマである必要があります-
区切られたリスト。 たとえば、ローカルホストにプロキシを使用しないようにします。
someserver.xyz の場合、「--noproxy localhost,someserver.xyz」を使用できます。

-詳細
実行中に詳細出力を表示します。 チェックしたすべてのリンク、
チェックなど

--url
開始 URL を設定します。 Checkbot はこの URL でチェックを開始し、再帰的にチェックします
このページにあるすべてのリンク。 開始 URL は追加の URL よりも優先されます
コマンドラインで指定します。

URL にスキームが指定されていない場合は、ファイル プロトコルが想定されます。

- マッチ
このオプションは、Checkbot がローカルと見なすページを選択します。 もし match 文字列 is
URL 内に含まれている場合、Checkbot はそのページをローカルと見なして取得し、
それに含まれるすべてのリンクをチェックします。 それ以外の場合、ページは外部と見なされます
HEAD リクエストでのみチェックされます。

明示的でない場合 match 文字列 を指定すると、開始 URL (オプション「--url」を参照) が使用されます
代わりに一致文字列として。 この場合、最後のページ名があれば削除されます。
たとえば、「http://some.site/index.html" はデフォルトになります
match 文字列http://some.site/".

  match 文字列 perl 正規表現にすることができます。 たとえば、メインを確認するには
サーバー ページとそのすぐ下にあるすべての HTML ページ。
サーバーのサブディレクトリ、 match 文字列 になる
"www.someserver.xyz/($|[^/]+.html)".

--除外
一致する URL 除外する 文字列 たまたま発生したとしても、外部と見なされます
一致する match 文字列 (オプション「--match」を参照)。 --exclude 文字列に一致する URL は
まだチェック中で、問題が見つかった場合は報告されますが、問題は報告されません。
サイトへのさらなるリンクを確認しました。

  除外する 文字列 perl 正規表現にすることができます。 たとえば、すべての URL を考慮するには
外部のクエリ文字列では、「[=\?]」を使用します。 これは、URL にクエリが含まれる場合に役立ちます。
string は、チェックされる巨大なデータベースへのパスのロックを解除します。

- フィルター
このオプションは、 filter 文字列、これは perl の正規表現です。 このフィルター
見つかった各 URL に対して実行されるため、キューに入る前に URL が書き換えられます。
チェック済み。 URL から要素を削除するために使用できます。 このオプションは、次の場合に役立ちます。
シンボリック リンクが同じディレクトリを指している場合、またはコンテンツ管理システムが追加した場合
URL へのセッション ID。

たとえば、「/old/new/」は、各 URL の「old」を「new」に置き換えます。

- 無視
一致する URL 無視する 文字列 はまったくチェックされず、完全に無視されます。
チェックボット。 これは、既知の問題のリンクを無視したり、主要なリンクを無視したりするのに役立ちます。
データベースに。 の 無視する 文字列 の後に一致します filter 文字列 適用された。

  無視する 文字列 perl 正規表現にすることができます。

たとえば、「www.server.com\/(one|two)」は、次のいずれかで始まるすべての URL に一致します。
www.server.com/one または www.server.com/two。

- プロキシー
この属性は、プロキシ サーバーの URL を指定します。 HTTP および FTP 要求のみ
そのプロキシ サーバーに送信されます。

--内部のみ
Checkbot 実行の最後にある外部リンクのチェックをスキップします。 マッチングのみ
リンクがチェックされます。 リダイレクトによっては、外部リンクが無効になる場合があることに注意してください。
チェックしました。

- ノート
  注意 メールメッセージに逐語的に含まれます (オプション「--mailto」を参照)。 これはすることができます
たとえば、簡単に参照できるように要約 HTML ページの URL を含めると便利です。

「--mailto」オプションとの組み合わせでのみ意味があります。

- 寝る
リクエストの間にスリープします。 デフォルトは 0 秒です。
リクエスト間でまったくスリープします。 このオプションを設定すると、負荷を維持するのに役立ちます
Checkbot の実行中に Web サーバーがダウンした。 このオプションは、
分数、つまり 0.1 の値は XNUMX 分の XNUMX 秒の間スリープします。
リクエスト。

- タイムアウト
秒単位で指定された、リクエストのデフォルトのタイムアウト。 デフォルトは 2 分です。

- 間隔
結果 Web ページの更新の最大間隔 (秒単位)。 デフォルトは 3 です
時間 (10800 秒)。 Checkbot は XNUMX 分間隔で開始し、徐々に
最大間隔に向かって延長します。

- スタイル
このオプションを使用すると、Checkbot はこの URL をスタイル ファイルへのリンクとしてそれぞれに埋め込みます。
書いているページ。 これにより、生成されたページのレイアウトを簡単にカスタマイズできます。
チェックボット。

--ドンワーン
一致する HTTP 応答コードの結果ページに警告を含めないでください。
正規表現。 たとえば、 --dontwarn "(301|404)" は 301 を含まず、
404 応答コード。

Checkbot は、サーバーによって生成された応答コードを使用します。
RFC 2616 (HTTP/1.1) では定義されていません。 通常の HTTP レスポンス コードに加えて、
チェックボットは、技術的には
問題ですが、とにかく多くの場合に問題を引き起こします。 これらのコードは次のとおりです。

901 ホスト名が必要ですが、見つかりません
この場合、URL はホスト名をサポートしていますが、ホスト名が見つかりませんでした
URLで。 これは通常、URL の誤りを示しています。 アン
例外として、このチェックは news: URL には適用されません。

902 修飾されていないホスト名が見つかりました
この場合、ホスト名にはドメイン部分が含まれません。
これは通常、ページが正常に動作することを意味します。
元のドメインですが、その外側から見た場合ではありません。

903 URL パスの二重スラッシュ
URL には二重スラッシュが含まれています。 これは合法ですが、一部のウェブ
サーバーはそれをうまく処理できず、Checkbot が
逃げる。 以下のコメントも参照してください。

904 URL に不明なスキームがあります
URL は Checkbot が認識しないスキームで始まっています
約。 これは多くの場合、URL のスキームの入力ミスが原因です。
しかし、スキームは合法的なものにもなり得ます。 その場合はお任せください
Checkbotに追加できるように知っています。

--enable-virtual
このオプションにより、仮想サーバーを扱うことができます。 チェックボットは、すべての
内部サーバーのホスト名は一意です。
同じ。 通常、Checkbot は IP アドレスを使用してサーバーを識別します。 これには
サーバーに XNUMX つの名前 (www と Bamboozle など) がある場合、そのページは
一度チェック。 複数の仮想サーバーをチェックしたい場合、これが問題になります。
この機能は、ホスト名を使用してサーバーを区別することで回避します。

- 言語
このオプションの引数は、XNUMX 文字の言語コードです。 チェックボットは言語を使用します
その言語でファイルを要求するための交渉。 デフォルトでは英語をリクエストします
言語 (言語コード「en」)。

-抑制
このオプションの引数は、エラー コードとエラー コードの組み合わせを含むファイルです。
警告を抑制する URL。 これは、既知のレポートを回避するために使用できます。
修正不可能な URL エラーまたは警告。

抑制ファイルの形式は単純な空白で区切られた形式です。
エラー コードとそれに続く URL をリストします。 各エラー コードと URL の組み合わせは、
新しい行に記載されています。 で行を開始すると、ファイルにコメントを追加できます。
"#" キャラクター。

#301 永久移転
301 http://www.w3.org/P3P

# 403禁止します
403 http://www.herring.com/

さらに柔軟性を高めるために、通常の URL の代わりに正規表現を使用できます。 の
正規表現はスラッシュで囲む必要があります。 たとえば、すべてを抑制するには
ウィキペディアの 403 エラー:

403 /http:\/\/wikipedia.org\/.*/

将来のリリースで消える非推奨のオプション:

--allow-simple-hosts (非推奨)
このオプションは、修飾されていないホスト名を含む URL に関する警告をオフにします。 これ
単純なホスト名のみを使用することが多いイントラネット サイトで役立ちます。
リンクの「localhost」。

このオプションの使用は非推奨です。 エラー 902 には --dontwarn メカニズムを使用してください
を代わりにお使いください。

ヒント そして みんなが読んでいる


FTP リンクのチェックに関する問題
一部のユーザーは、FTP リンクのチェックで一貫した問題を経験する場合があります。 これらの場合
Net::FTP にパッシブ FTP モードを使用してファイルをチェックするように指示すると便利な場合があります。 これは
環境変数 FTP_PASSIVE を 1 に設定することで実行できます。たとえば、
bash シェル: "FTP_PASSIVE=1 checkbot ...". 詳細については、Net::FTP のドキュメントを参照してください。
詳細。

暴走チェックボット
場合によっては、Checkbot が完了するまで文字通り永遠にかかることがあります。 XNUMXつの一般的な原因があります
この問題のために。

まず、Web サイトの一部としてデータベース アプリケーションが存在する可能性があります。
別のページのリンクに基づく新しいページ。 Checkbot はすべてを通過しようとするため、
リンク これにより、無限の数のページが作成されます。 この種の暴走効果は、
通常は予測可能です。 --exclude オプションを使用することで回避できます。

次に、サーバー構成の問題により、ページの URL を生成する際にループが発生する可能性があります。
それは本当に存在しません。 これにより、フォームの URL が生成されます。
http://some.server/images/images/images/logo.png、より多くの「画像」が含まれています。
チェックボットはこれをチェックできません。サーバーは、
要求されたページは存在しません。 これを修正する以外にこれを解決する簡単な方法はありません
問題のある Web サーバーまたは壊れたリンク。

https:// リンクに関する問題
エラーメッセージ

パッケージ「LWP::Protocol::https::Socket」を介してオブジェクトメソッド「new」を見つけることができません

通常、LWP の現在のインストールが SSL のチェックをサポートしていないことを意味します。
リンク (つまり、https:// で始まるリンク)。 この問題は、インストールすることで解決できます
Crypt::SSLeay モジュール。


Checkbot の最も単純な使用法は、サーバー上の一連のページをチェックすることです。 私をチェックするには
私が使用するチェックボットページ:

チェックボット http://degraaff.org/checkbot/

Checkbot の実行には時間がかかる場合があるため、Checkbot は実行が完了したときに通知メールを送信できます。
終わり:

checkbot --mailto [メール保護] http://degraaff.org/checkbot/

Webサーバーを介さずにローカルファイル一式をチェックすることが可能です。 これだけで動作します
静的ファイル用ですが、場合によっては役立つ場合があります。

チェックボットファイル:///var/www/documents/

前提条件


このスクリプトは「LWP」モジュールを使用します。

相互要件


このスクリプトは、「Mail::Send」が存在する場合にメールを送信できます。

onworks.net サービスを使用してオンラインで checkbotp を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad