これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドWebチェックです。
プログラム:
NAME
webcheck-ウェブサイトリンクチェッカー
SYNOPSIS
webcheck [オプション] ... URL
DESCRIPTION
webcheck 指定されたURLのドキュメントで、他のドキュメントへのリンクを確認します。
これらのリンクは再帰的にリンクされ、HTMLレポートを生成します。
-私、 -内部=パターン
に一致するURLをマークします パターン (perlタイプの正規表現)内部リンクとして。
複数回使用できます。 PATTERNは完全なURLと照合されることに注意してください。
このパターンに一致するURLは、次のいずれかに一致する場合でも内部と見なされます。
--externalPATTERN。
-NS、 -外部=パターン
に一致するURLをマークします パターン (perlタイプの正規表現)外部リンクとして。
複数回使用できます。 PATTERNは完全なURLと照合されることに注意してください。
-y、 --yank =パターン
に一致するURLをチェックしないでください パターン (perlタイプの正規表現)。 -xのように
フラグ。ただし、このオプションを使用すると、webcheckは正規表現と一致するリンクをチェックしません。
一方、-xはリンクをチェックしますが、その子はチェックしません。 複数回使用できます。
PATTERNは完全なURLと照合されることに注意してください。
-NS、 -ベースのみ
ベースURLで始まらないURLはすべて外部であると考えてください。 たとえば、
あなたが実行します
webcheck -b http://www.example.com/foo
その後 http://www.example.com/foo/bar 内部と見なされますが
http://www.example.com/ 外部と見なされます。 デフォルトでは、上のすべてのページ
サイトは内部と見なされます。
-a、 -回避-外部
外部リンクは避けてください。 通常、webcheckがHTMLページを調べていて、それが見つかった場合
外部ドキュメントを指すリンク。外部ドキュメントかどうかを確認します
ドキュメントが存在します。 このフラグはそのアクションを無効にします。
-無視-ロボット
robots.txtファイルを取得して解析しないでください。 デフォルトでは、robots.txtファイルは
取得され、名誉を与えられました。 無視して上書きしたい場合は
ウェブマスターの決定このオプションを使用することができます。
robots.txtの処理の詳細については、以下の「注意」セクションを参照してください。
-NS、 - 静かな、 - 静けさ
Webcheckがサイトをトラバースするときに、進行状況を印刷しないでください。
-NS、 - デバッグ
サイトのクロール中にデバッグ情報を出力します。 このオプションは主に便利です
開発者のために。
-o、 --output =DIRECTORY
出力ディレクトリ。 webcheckがダンプするディレクトリを指定するために使用します
レポート。 デフォルトは、現在のディレクトリまたはconfig.pyで指定されたディレクトリです。 これなら
ディレクトリが存在しない場合は、作成されます(可能な場合)。
-NS、 - 継続する
前の実行から続行してみてください。 このオプションを使用する場合、webcheckはを検索します
出力ディレクトリのwebcheck.dat。 このファイルは、状態を復元するために読み取られます
前回の実行から。 これにより、Webチェックは以前に中断されたものを続行できます
走る。 このオプションを使用すると、-internal、-external、および--yankオプションが使用されます。
URL引数と同様に無視されます。 --base-onlyおよび--avoid-external
オプションは前の実行と同じである必要があります。
このオプションは実験的なものであり、セマンティクスは今後変更される可能性があることに注意してください
リリース(特に他のオプションに関連して)。 また、保存されていることに注意してください
ファイルはリリース間で互換性があることが保証されていません。
-NS、 - 力
質問せずにファイルを上書きします。 このオプションは、webcheckを実行するために必要です。
インタラクティブに。
-NS、 --redirects =N
深さをリダイレクトします。 次の場合にWebチェックが従う必要のあるリダイレクトの数
リンク。 0は、すべてのリダイレクトに従うことを意味します。
-u、 --userpass =URL
基本に使用するユーザー名とパスワード情報を含むURLを指定します
サイトにアクセスするときの認証。
マシン情報の記入> という構文でなければなりません。例えば、 http://test:[メール保護]/
このオプションは複数回指定できます。
-w、 --wait =SECONDS
待つ SECONDS ドキュメントの取得の合間に。 通常、webcheckはURLと
すぐに次へ進みます。 ただし、一部のロードされたシステムでは、それが望ましい場合があります
リクエスト間でWebチェックを一時停止します。 このオプションは、
負の数。
-v、 - バージョン
プログラムのバージョンを表示します。
-NS、 - 助けて
オプションの簡単な要約を表示します。
URL クラス
URLはXNUMXつのクラスに分けられます。
内部 URLが取得され、取得されたアイテムの構文がチェックされます。 また、
取得したアイテムは、(任意のクラスの)他のアイテムへのリンクを検索され、これらのリンクは次のとおりです。
続く。
外部 URLは、それらが有効かどうかをテストし、いくつかの基本的な情報を収集するためにのみ取得されます
それらからの情報(タイトル、サイズ、コンテンツタイプなど)。 取得したアイテムは
他のアイテムへのリンクを検査しました。
クラスとは別に、URLも考慮することができます ヤンク (--yankで指定されたとおり
または--avoid-externaloptions)。 URLは内部または外部のいずれかであり、
取得またはチェック済み。 サポートされていないスキームのURLもヤンクされていると見なされます。
例
サイトwww.example.comを確認しますが、「/ webcheck」が含まれているパスは次のようになります。
外部。
webcheck http://www.example.com/ -x / webcheck
注意事項
内部URLをチェックするとき、webcheckはrobots.txtファイルを尊重し、それ自体を次のように識別します。
ユーザーエージェントのウェブチェック。 -yオプションがあったかのように、許可されていないリンクはまったくチェックされません。
そのURLに指定されています。 Webcheckが他のロボットがいるサイトの一部をクロールできるようにするため
許可されていない、次のようなものを使用してください:
ユーザーエージェント *
許可しません: / foo
ユーザーエージェント webcheck
許可: / foo
ENVIRONMENT
_プロキシー
のプロキシURL 。
報告 バグ
バグレポートはメーリングリストに送信する必要があります[メール保護]>.
バグの報告の詳細については、Webチェックのホームページを参照してください。
http://arthurdejong.org/webcheck/
COPYRIGHT
Copyright©1998、1999アルバートホプキンス(マルドゥク)
Copyright©2002Mike W. Meyer
Copyright©2005、2006、2007、2008、2009、2010 Arthur de Jong
webcheckはフリーソフトウェアです。 コピー条件については、ソースを参照してください。 保証はありません。
商品性や特定の目的への適合性についてもそうではありません。
ソフトウェアからの出力として生成されたファイルは、自動的に
特に明記されていない限り、ソフトウェアの著作権。
onworks.netサービスを使用してオンラインでwebcheckを使用する