これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド pavuk です。
プログラム:
NAME
pavuk - HTTP, HTTP over SSL, FTP, FTP over SSL および Gopher の再帰的なドキュメント検索
プログラム
SYNOPSIS
パヴク [-モード {正常 | 再開する | 単一ページ | シングルリゲット | sync | 保存しない | ftpdir
| 鏡}] [-NS] [-runX] [-bg/-nobg] [prefs/-noprefs] [-NS] [-v] [-進行中/-進行なし]
[-stime/-nostime] [-xmaxlog $nr] [-ログファイル $ファイル] [-slogfile $ファイル] [-auth_file $ファイル]
[-msgcat $ディレクトリ] [-言語 $str] [-gui_font $フォント] [-静か/-冗長 [-read_css/-noread_css]
[-cdir $ディレクトリ] [-scndir $ディレクトリ] [-シナリオ $str] [-dumpscn $ファイル名] [-lmax $nr] [-dmax $nr]
[-leave_level $nr] [-最大サイズ $nr] [-最小サイズ $nr] [-サイト $リスト] [-dsite $リスト] [-ドメイン
$リスト] [-dドメイン $リスト] [-asfx $リスト] [-dsfx $リスト] [-接頭辞 $リスト] [-dprefix $リスト]
[-アミムト $リスト] [-dmimet $リスト] [-パターン $パターン] [-url_パターン $パターン] [-rパターン
$正規表現] [-url_rpattern $正規表現] [-スキップパターン $パターン] [-skip_url_pattern $パターン]
[-skip_rpattern $正規表現] [-skip_url_rpattern $正規表現] [-より新しい $time] [-より古い
$time] [-スケジュール $time] [-再スケジュール $nr] [-dont_leave_site/-leave_site]
[-dont_leave_dir/-leave_dir] [-http_proxy $サイト[:$ポート]] [-ftp_proxy $サイト[:$ポート]]
[-ssl_proxy $サイト[:$ポート]] [-gopher_proxy $サイト[:$ポート]] [-ftp_httpgw/-noftp_httpgw]
[-ftp_dirtyproxy/-noftp_dirtyproxy] [-gopher_httpgw/-nogopher_httpgw] [-noFTP/-FTP]
[-noHTTP/-HTTP] [-noSSL/-SSL] [-noGopher/-Gopher] [-FTPdir/-noFTPdir] [-noCGI/-CGI]
[-FTPlist/-noFTPlist] [-FTPhtml/-noFTPhtml] [-noRelocate/-Relocate]
[-force_reget/-noforce_reget] [-nocache/-cache] [-check_size/-nocheck_size]
[-noRobots/-Robots] [-noEnc/-Enc] [-認証名 $ユーザー] [-auth_passwd $パス] [-auth_scheme
1/2/3/4/ユーザー/ベーシック/ダイジェスト/NTLM] [-auth_reuse_nonce/-no_auth_reuse_nonce] [-http_proxy_user
$ユーザー] [-http_proxy_pass $パス] [-http_proxy_auth 1/2/3/4/ユーザー/ベーシック/ダイジェスト/NTLM]
[-auth_reuse_proxy_nonce/-no_auth_reuse_proxy_nonce] [-ssl_key_file $ファイル] [-ssl_cert_file
$ファイル] [-ssl_cert_passwd $パス] [-から $メール] [-send_from/-nosend_from] [-身元 $str]
[-auto_referer/-noauto_referer] [-referer/-noreferer] [-アラン $リスト] [-acharset $リスト]
[-リトライ $nr] [-nregets $nr] [-nredirs $nr] [-ロールバック $nr] [-寝る $nr] [-タイムアウト $nr]
[-preserve_time/-nopreserve_time] [-preserve_perm/-nopreserve_perm]
[-preserve_slinks/-nopreserve_slinks] [-bufsize $nr] [-maxrate $nr] [-minrate $nr]
[-user_condition $str] [-cookie_file $ファイル] [-cookie_send/-nocookie_send]
[-cookie_recv/-nocookie_recv] [-cookie_update/-nocookie_update] [-cookies_max $nr]
[-disabled_cookie_domains $リスト] [-disable_html_tag $TAG,[$ATTRIB][;...]]
[-enable_html_tag $TAG,[$ATTRIB][;...]] [-tr_del_chr $str] [-tr_str_str $str1 $str2]
[-tr_chr_chr $chrset1 $chrset2] [-インデックス名 $str] [-store_index/-nostore_index]
[-店舗名 $str] [-debug/-nodebug] [-デバッグレベル $レベル] [-ブラウザ $str] [-urls_file
$ファイル] [-file_quota $nr] [-trans_quota $nr] [-fs_quota $nr] [-enable_js/-disable_js]
[-fnrules $t $m $r] [-store_info/-nostore_info] [-all_to_local/-noall_to_local]
[-sel_to_local/-nosel_to_local] [-all_to_remote/-noall_to_remote] [-url_strategie
$戦略] [-remove_adv/-noremove_adv] [-adv_re $RE] [-check_bg/-nocheck_bg]
[-send_if_range/-nosend_if_range] [-sched_cmd $str] [-unique_log/-nounique_log] [-post_cmd
$str] [-ssl_version $v] [-unique_sslid/-nounique_sslid] [-aip_pattern $re] [-dip_pattern
$re] [-use_http11/-nouse_http11] [-local_ip $追加] [-リクエスト $req] [-フォームデータ $req]
[-httpad $str] [-n スレッド $nr] [-immesg/-noimmesg] [-dumpfd $nr] [-dump_urlfd $nr]
[-固有名/-固有名] [-leave_site_enter_dir/-dont_leave_site_enter_dir]
[-max_time $nr] [-del_after/-nodel_after] [-singlepage/-nosinglepage]
[-dump_after/-nodump_after] [-dump_response/-nodump_response] [-auth_ntlm_domain $str]
[-auth_proxy_ntlm_domain $str] [-js_パターン $re] [-follow_cmd $str]
[-retrieve_symlink/-noretrieve_symlink] [-js_transform $p $t $h $a] [-js_transform2 $p $t
$h $a] [-ftp_proxy_user $str] [-ftp_proxy_pass $str] [-limit_inlines/-dont_limit_inlines]
[-ftp_list_options $str] [-fix_wuftpd_list/-nofix_wuftpd_list]
[-post_update/-nopost_update] [-info_dir $ディレクトリ] [-mozcache_dir $ディレクトリ] [-ポート $リスト] [-dポート
$リスト] [-hack_add_index/-nohack_add_index] [-デフォルト_プレフィックス $str] [-rsleep/-norsleep]
[-ftp_login_handshake $host $握手] [-js_script_file $ファイル] [-dont_touch_url_pattern
$パット] [-dont_touch_url_rpattern $パット] [-dont_touch_tag_rpattern $パット] [-タグパターン $タグ
$属性 $url] [-tag_rpattern $タグ $属性 $url] [-nss_cert_dir $ディレクトリ]
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
[-nss_domestic_policy/-nss_export_policy] [-[いいえ]検証] [-tlogfile $ファイル] [-相対
{物体 | プログラム}] [-transparent_proxy FQDN[:ポート]] [-transparent_ssl_proxy FQDN[:ポート]]
[-sdemo] [-エンコードなし] [URL]
パヴク -モード {正常 | 単一ページ | シングルリゲット} [-base_level $nr]
パヴク -モード sync [-日 $nr] [-サブディレクトリ $ディレクトリ] [-remove_old/-noremove_old]
パヴク -モード 再開する [-サブディレクトリ $ディレクトリ]
パヴク -モード リンク更新 [-NS] [-NS] [-v] [-cdir $ディレクトリ] [-サブディレクトリ $ディレクトリ] [-scndir $ディレクトリ]
[-シナリオ $str]
パヴク -モード リマインダー [-remind_cmd $str]
パヴク -モード ミラー [-サブディレクトリ $ディレクトリ] [-remove_old/-noremove_old]
[-remove_before_store/-noremove_before_store] [-always_mdtm/-noalways_mdtm]
DESCRIPTION
このマニュアルページでは、pavuk の使用方法について説明します。 Pavuk を使用してコンテンツをミラーリングできます
インターネット/イントラネット サーバーとドキュメントのローカル ツリーにコピーを維持するため。 パヴク
取得したドキュメントをローカルにマップされたディスク領域に保存します。 ローカルツリーの構造
リモートサーバー上のものと同じです。 サポートされている各サービス (プロトコル) には独自の
ローカル ツリーのサブディレクトリ。 参照される各サーバーには、これらのサブディレクトリがあります。
プロトコルのサブディレクトリ。 サービスが常駐するポート番号が続きます。
文字区切りは変更可能です。 オプションで -fnrules を変更できます
リンクの一貫性を失うことなく、ローカル ドキュメント ツリーのデフォルト レイアウト。
自律的AI パヴク ローカル ディスクにリモート ドキュメントの最新のコピーを保持することが可能
スペース。
バージョン 0.3pl2 の時点で、pavuk は切断された接続を自動的に再開し、再取得できます。
FTP サーバーからの部分的なコンテンツ (これは、 REST コマンド)、適切な
構成された HTTP/1.1 サーバー、またはサポートする HTTP/1.0 サーバーから 範囲。
バージョン 0.6 では、いわゆるシナリオを介して構成を処理できます。 の
このような構成ファイルを作成する最善の方法は、X Window インターフェイスを使用して簡単に作成することです。
作成した構成を保存します。 もう XNUMX つの方法は、-dumpscn スイッチを使用することです。
バージョン 0.7pl1 では、認証情報を authinfo に保存できます。
ファイル、pavuk が解析して使用できます。
バージョン 0.8pl4 以降、pavuk はローカル プロキシ/キャッシュ サーバーで使用するドキュメントをフェッチできます。
それらをローカルドキュメントツリーに保存せずに。
バージョン 0.9pl4 以降、pavuk はサポートしています SOCKS (4 / 5) 必要な場合はプロキシ
ライブラリ。
バージョン 0.9pl12 以降、pavuk はリモート ファイルとシンボリック リンクのアクセス許可を保持できます。
そのため、強力な FTP ミラーリングに使用できます。
代わりに ftps:// URL を指定すると、Pavuk は FTP サーバーへの SSL 接続をサポートします。
ftp://.
Pavuk は、ファイルシステムの安全でない文字を含むファイル名を自動的に処理できます。 これは
まだ Win32 プラットフォーム用にのみ実装されており、ハードコードされています。
パヴクが使用できるようになりました HTTP / 1.1 HTTP サーバーと通信するためのプロトコル。 使える
永続的な接続であるため、XNUMX つの TCP 接続を使用して複数のドキュメントを転送する必要があります
閉じずに。 この機能は、ネットワーク帯域幅を節約し、ネットワークを高速化します
通信。
Pavuk は構成可能にすることができます POST HTTP サーバーへのリクエストと、ファイルのアップロードもサポート
HTTP POST リクエスト経由。
ユーザーがそのフィールドにデータを提供する場合、Pavuk は見つかった HTML フォームに自動的に入力できます。
前にオプションで -フォームデータ.
Pavuk は、設定可能な数の同時実行ダウンロード スレッドを実行できます。
マルチスレッドをサポートしてコンパイルされています。
フォーマット of 。 URLは
HTTP
http://[[user][:password]@]host[:port][/document]
[[ユーザー][:パスワード]@]ホスト[:ポート][/ドキュメント]
HTTPS
https://[[user][:password]@]host[:port][/document]
ssl[.ドメイン][:ポート][/ドキュメント]
FTP
ftp://[[ユーザー][:パスワード]@]ホスト[:ポート][/relative_path][;type=x]
ftp://[[ユーザー][:パスワード]@]ホスト[:ポート][//絶対パス][;type=x]
ftp[.domain][:port][/document][;type=x]
FTPS
ftps://[[ユーザー][:パスワード]@]ホスト[:ポート][/relative_path][;type=x]
ftps://[[ユーザー][:パスワード]@]ホスト[:ポート][//絶対パス][;type=x]
ftps[.domain][:port][/document][;type=x]
ゴーファー
gopher://ホスト[:ポート][/タイプ[ドキュメント]]
gopher[.ドメイン][:ポート][/タイプ[ドキュメント]]
デフォルト マッピング of URLは 〜へ ローカル ファイル名
HTTP
http://[[user][:password]@]host[:port][/document][?query]
〜へ
http/host_port/[ドキュメント][?クエリ]
HTTPS
https://[[user][:password]@]host[:port][/document][?query]
〜へ
https/host_port/[ドキュメント][?クエリ]
FTP
ftp://[[ユーザー][:パスワード]@]ホスト[:ポート][/パス]
〜へ
ftp/ホストポート/[パス]
FTPS
ftps://[[ユーザー][:パスワード]@]ホスト[:ポート][/パス]
〜へ
ftps/ホスト_ポート/[パス]
ゴーファー
gopher://ホスト[:ポート][/タイプ[ドキュメント]]
〜へ
gopher/host_port/[タイプ[ドキュメント]]
注: Pavuk は、ターゲット サーバーにクエリを実行する文字列を、サーバーの名前として使用します。
結果ファイル。 このファイル名には、場合によっては、次のような句読点が含まれる場合があります。 $,?,=,& 等々
このような句読点は、ダウンロードしたファイルを
ブラウザを使用しているか、ダウンロードしたファイルをシェル スクリプトまたはビューで処理しようとしている
結果ファイルの名前を参照するファイル管理ユーティリティを含むファイル。 もし、あんたが
これが問題を引き起こしている可能性があると思われる場合は、すべての句読点を削除できます
オプション付きの結果ファイル名: -tr_del_chr [:punct:] または他のオプションを使用して
ファイル名の調整。
OPTIONS
すべてのオプションで大文字と小文字が区別されません。
リスト of オプション 章
モード
カスタマーサービス
表示/ロギング/インターフェース オプション
ネトリ オプション
Special start
シナリオ/タスク オプション
ディレクトリ オプション
保存する オプション
プロキシ オプション
プロキシ 認証
プロトコル/ダウンロード オプション
認証
サイト/ドメイン/ポート 制限 オプション
制限 ドキュメント プロパティ
制限 ドキュメント 名
制限 プロトコル オプション
その他 制限 オプション
Javascriptを 対応
クッキー
HTML 書き換え エンジン チューニング オプション
ファイル名/URL 変換 オプション
その他 オプション
モード
-モード {正常、 リンク更新、 同期、 シングルページ、 シングルリゲット、 再開する}
動作モードを設定します。
通常の - 再帰的なドキュメントを取得します
リンク更新 - ローカル HTML ドキュメントのリモート URL をローカル URL に更新します。
ローカルツリーに存在する
sync - リモート ドキュメントをローカル ツリーと同期する (ドキュメントのローカル コピーの場合)
リモートよりも古い場合、ドキュメントは再度取得されます。それ以外の場合は何も起こりません)
単一ページ - URL は、すべてのインライン オブジェクト (画像、音声) を含む XNUMX つのページとして取得されます
...) このモードは現在廃止されています -シングルページ オプションを選択します。
再開する - pavuk はローカル ツリーをスキャンして、完全に取得されなかったファイルを探します。
それらを再度取得します(可能であれば部分的な取得を使用します)
シングルリゲット - 完全に取得されるまで URL を取得する
保存しない - サーバーからページを転送しますが、ローカル ツリーには保存しません。 これ
モードは、ローカルのプロキシ/キャッシュ サーバーに保持されているページを取得するのに適しています。
リマインダー - 変更されたドキュメントについてユーザーに通知するために使用されます
ftpdir - FTP ディレクトリの内容のリストに使用
デフォルトの動作モードは 通常の モード。
カスタマーサービス
-h 長い詳細なヘルプ メッセージを出力する
-v コンパイル時にバージョン情報と構成を表示します。
表示/ロギング/インターフェース オプション
-静かな 画面にメッセージを表示しません。
-詳細
画面に出力メッセージを強制的に表示する (デフォルト)
-進行中/-進行なし
端末での実行中に取得の進行状況を表示します (デフォルトは進行状況オフです)。
-stime/-nostime
転送の開始時刻と終了時刻を表示します。 (デフォルトではこの情報は表示されません)
-xmaxlog $nr
ログ ウィジェットのログ行の最大数。 0 は無制限を意味します。 このオプションは
GTK+ GUI でコンパイルされた場合にのみ使用できます。 (デフォルト値は 0)
-ログファイル $ file
生成されたすべてのメッセージが保存されるファイル。
-unique_log/-nounique_log
オプションでログファイルを指定した場合 -ログファイル はすでに別のユーザーによって使用されています
プロセスで、ログ ファイルの新しい一意の名前を生成してみてください。 (デフォルトはこのオプションです
オフ)
-slogfile $ file
短いログを保存するファイル。このファイルには、XNUMX 行ごとに XNUMX 行の情報が含まれています。
処理された文書。 これは、あらゆる種類のスクリプトに関連して使用されることを意図しています
ウェブサイト上のリンクを検証するため、または生成するための統計を生成するため
シンプルなサイトマップ。 複数の pavuk プロセスがこのファイルを同時に使用できます。
互いのエントリを上書きします。 レコード構造:
- PID pavuk プロセスの
- タイム 現在の時刻
- COUNTER current/total number of URLs の形式で
- ステータス エラーのタイプが含まれます: FATAL、ERR、
警告または OK
- エラーコード エラーの番号コードです
(pavuk ソースの errcode.h を参照)
- URL 文書の
- 親URL この URL の最初の親ドキュメント
(親がない場合 - [なし])
- ファイル名 ローカルファイルの名前です
ドキュメントは以下に保存されます
- サイズ 既知の場合、要求されたドキュメントのサイズ
- ダウンロード_TIME これのダウンロードにかかる時間
seconds.mili_seconds 形式のドキュメント
- HTTPRESP HTTP サーバーの最初の行が含まれています
応答
-言語 $ str
pavuk がユーザーとのコミュニケーションに使用する母国語 (動作のみ
その言語のメッセージ カタログがある場合) GNU gettextを サポート(メッセージ用)
国際化) もコンパイルする必要があります。デフォルトの言語は、
NLS 環境変数。
-gui_font $フォント
GUI インターフェイスで使用されるフォント。 利用可能な X フォントを一覧表示するには、 xlsフォント
このオプションは、GTK+ GUI サポート付きでコンパイルされた場合にのみ使用できます。
ネトリ オプション
-[いいえ]read_css
スタイル シートに記載されているオブジェクトの取得を有効または無効にします。
-[いいえ]検証
SSL モードでのサーバー CERTS の検証を有効または無効にします。
-tlogfile $ file
指定されたファイルへの出力で Netli ログをオンにします。
-相対的な {物体 | プログラム}
最初のオブジェクトまたはプログラムの開始に相対的な Netli タイミングを作成します。
-transparent_proxy FQDN[:ポート]
URL加工時は原本を送るがFQDNのIPアドレスに送る
-transparent_ssl_proxy FQDN[:ポート]
HTTPS URLを処理する場合、オリジナルを送信しますが、FQDNのIPアドレスに送信します
-sdemo sdemo 互換形式で出力します。 これは sdemo でのみ使用されます。 (今のところ単純に
は、測定値が無効な場合に「*」ではなく「-1」を出力することを意味します。)
-noencode
URL で「安全でない」文字をエスケープしないでください。
Special start
-X X Window インターフェイスでプログラムを開始します (GTK+ をサポートするようにコンパイルされている場合)。 パヴク
デフォルトでは GUI なしで起動し、通常のコマンドライン ツールとして動作します。
-runX と併用すると、 -X オプションで、pavuk はすぐに URL の処理を開始します
GUIウィンドウが起動した後。 なしで -X 与えられた場合、このオプションにはありません
任意の効果。 GTK+ サポート付きでコンパイルされた場合にのみ使用できます。
-bg/-nobg
このオプションを使用すると、pavuk を端末から切り離してバックグラウンド モードで実行できます。
Pavuk は端末にメッセージを出力しません。 もしあなたが見たいなら
メッセージ、あなたは使用する必要があります -log_file メッセージを保存するファイルを指定するオプション
書かれます。 デフォルトの pavuk はフォアグラウンドで実行されます。
-check_bg/-nocheck_bg
通常、フォアグラウンドで実行された後にバックグラウンドに送信されたプログラムは続行します
メッセージを端末に出力します。 このオプションが有効になっている場合、pavuk は以下をチェックします。
バックグラウンド ジョブとして実行されており、ターミナルにメッセージを書き込むことはありません。
この場合。 再びフォアグラウンド ジョブになった後、メッセージの書き込みを開始します。
通常の方法でターミナルに移動します。 このオプションは、システムが
経由の端末情報の取得をサポート tc*() 機能します。
-prefs/-noprefs
このオプションをオンにすると、pavuk は終了時にすべての設定を保存します。
GUI インターフェイスで pavuk を再度実行すると、すべての設定が復元されます。 の
設定は ~./pavuk_prefs ファイル。 デフォルトの pavuk を復元したい
起動時のオプション。 このオプションは、GTK+ でコンパイルされた場合にのみ使用できます。
-スケジュール $時間
パラメータで指定された時間にpavukを実行します。 $time パラメータの形式
YYYY.MM.DD.hh.mm です。 で適切に構成されたスケジューリングが必要です。 at command
このオプションを使用するためのシステム。 デフォルト設定の場合 (at -f %f %t
%d.%m.%Y) のスケジューリング コマンドは、お使いのシステムでは機能しません。
-sched_cmd オプションを選択します。
-再スケジュール $nr
$nr 時間間隔で定期的に pavuk を実行します。 適切に構成する必要があります
とのスケジューリング at このオプションを使用するためのシステム上のコマンド。
-sched_cmd $ str
スケジューリングに使用するコマンド。 Pavuk は明示的にスケジューリングをサポートしています at $ str
でエスケープされた通常の文字とマクロを含める必要があります % キャラクター。 対応
マクロは次のとおりです。
%f
- スクリプト ファイル名
%t
- 時間 (HH:MM 形式)
- でサポートされているすべてのマクロ strftime() function
-urls_file $ file
このオプションを使用すると、pavuk は開始前に $file から URL を読み取ります。
処理。 このファイルでは、各 URL を別の行に記述する必要があります。 最後の後
URL、単一のドット . LF (改行) 文字が続くと、末尾を示します。 パヴク
すべての URL が読み取られた直後に処理が開始されます。 もしも $ file として与えられます
- 文字、標準入力が読み込まれます。
-store_info/-nostore_info
このオプションにより、pavuk は各ドキュメントに関する情報を個別に保存します。
内のファイル .pavuk_info ディレクトリ。 このファイルは、元の URL を保存するために使用されます。
ドキュメントがダウンロードされました。 HTTP または HTTPS 経由でダウンロードされるファイルの場合
プロトコル、HTTP 応答ヘッダー全体がそこに格納されます。 これを使用することをお勧めします
ローカルのデフォルト レイアウトを変更するオプションを使用している場合のオプション
ドキュメント ツリー。この情報ファイルは、pavuk がローカル ファイル名を
URL。 このオプションは、異なる URL に同じファイル名がある場合にも非常に便利です。
ローカルツリー。 これが発生すると、pavuk は情報ファイルを使用してこれを検出し、
ローカル名の前に数字を付けます。 デフォルトでは、このエクストラの保存は無効になっています
informations。
-info_dir $ディレクトリ
このオプションで、情報ファイルを保存するための別のディレクトリの場所を設定できます
いつ作成された -ストア情報 オプションが使用されます。 混ぜたくない場合に便利です。
宛先ディレクトリに、通常のドキュメント ファイルを含む info ファイル。 構造
の info ファイルは保存されますが、別のディレクトリに保存されるだけです。
-リクエスト $req
このオプションを使用すると、URL を開始するための拡張情報を指定できます。 と
このオプションでクエリデータを指定できます POST or GET . これの現在の構文
オプションは: URL:["]$url["] [メソッド:["]{GET|POST}["]] [エンコード:["]{u|m}["]]
[FIELD:["]変数=値["]] [FILE:["]変数=ファイル名["]
[LNAME:["]local_filename["]]
- URL: リクエスト URL を指定します
- 方法: URL のリクエスト メソッドを指定し、
一つ GET or POST.
- エンコーディング: リクエストボディデータのエンコーディングを指定します。
m ためのものです multipart / form-data エンコーディング
u ためのものです application / x-www-form-urlencoded
エンコーディング
- 分野: 要求データのフィールドを形式で指定します
変数=値. 特殊文字のエンコード用
in 変数 値 同じエンコーディングを使用できます
で使用されているように application / x-www-form-urlencoded
エンコーディング。
- ファイル: クエリの特別なフィールドを指定します。
ファイルの指定に使用 POST ベースのファイルアップロード。
- LNAME: このリクエストのローカル名を指定します
内部で使用する必要がある場合 分野: ファイル: リクエスト仕様特例の分野
文字、使用する必要があります application / x-www-form-urlencoded 文字のエンコード。
すべての非 ASCII 文字、引用符 (")、空白文字 ( )、アンパサンドを意味します。
文字 (&)、パーセント文字 (%)、および等号 (=) は、形式でエンコードする必要があります。 %xx
コラボレー xx 文字の ASCII 値の XNUMX 進表現です。 たとえば %
文字は次のようにエンコードする必要があります %25.
-フォームデータ $req
このオプションを使用すると、検索中に見つかった HTML フォームのコンテンツを指定できます。
ドキュメント ツリーをトラバースします。
このオプションの現在の構文は、 -リクエスト オプションですが、 エンコーディング:
方法: このオプションのセマンティクスでは意味がありません。
In URL: 照合される HTML フォーム アクション URL を指定する必要があります。
処理された HTML ドキュメントで見つかったアクション URL。 pavuk がアクション URL を見つけた場合
で提供された一致 -フォームデータ オプション、pavuk が構築します GET or POST 要求
このオプションで提供されるデータと、で提供されるデフォルトのフォーム フィールド値から
HTML ドキュメント。 コマンドラインで指定された値は、指定された値よりも優先されます
HTMLファイルで。
-nスレッド $nr
このオプションを使用して、ダウンロードする同時スレッド数を指定できます
ドキュメント。 デフォルトの pavuk は、3 つの同時ダウンロード スレッドを実行します。 このオプションは
マルチスレッドをサポートするように pavuk がコンパイルされている場合にのみ使用できます。
-immesg/-noimmesg
複数のダウンロード スレッドを実行するときのデフォルトの pavuk の動作は、すべてをバッファリングすることです。
メッセージをメモリバッファに出力し、スレッドが実行されたときにバッファリングされたデータをフラッシュします
XNUMX つのドキュメントの処理を終了します。 このオプションを使用すると、この動作を変更できます
メッセージが生成されたときにすぐにメッセージを表示します。 する場合にのみ使用できます。
マルチスレッド環境でいくつかのスペシャルをデバッグしたい。 このオプションは
マルチスレッドをサポートするように pavuk がコンパイルされている場合にのみ使用できます。
-dumpfd $nr
スクリプトを使用して、ドキュメントをパイプに直接ダウンロードできる場合があります
または変数を通常のファイルに保存する代わりに。 そんな時はこれが使えます
たとえば標準出力 ($nr = 1) にデータをダンプするオプション。
-dump_after/-nodump_after
使用している間 -dumpfd マルチスレッドpavukのオプション、ドキュメントをダンプする必要があります
複数のスレッドでダウンロードされたドキュメントが重複する可能性があるためです。 これ
このオプションは、pavuk がリンクを調整した後にドキュメントをダンプしたい場合にも役立ちます
HTML ドキュメント内。
-dump_response/-nodump_response
このオプションは、 -dumpfd オプション。 HTTPをダンプするために使用されます
応答ヘッダー。
-dump_urlfd $nr
このオプションを使用すると、pavuk は HTML ドキュメントで見つかったすべての URL を出力します。
ファイル記述子 $nr へ。 このオプションを使用して、すべての URL を抽出し、
絶対。
シナリオ/タスク オプション
-シナリオ $ str
ロードおよび/または実行するシナリオの名前。 シナリオは、類似した構造を持つファイルです
から .pavukrc ファイル。 シナリオには、保存された構成が含まれています。 あなたはそれを使用することができます
定期的なミラーリング。 コマンドラインで指定されたシナリオからのパラメーターは、
コマンド ライン パラメータによって上書きされます。 このオプションを使用するには、次のものが必要です。
オプションでシナリオベースディレクトリを指定する -scndir.
-dumpscn $ filename
名前を付けて実際の構成をシナリオ ファイルに保存する $ filename。 これは便利です
手動編集用に事前構成されたシナリオをすばやく作成できます。
ディレクトリ オプション
-msgcat $ディレクトリ
pavuk のメッセージ カタログを含むディレクトリ。 お持ちでない場合
システム ディレクトリに pavuk メッセージ カタログを保存する権限が必要です。
ホームディレクトリに同様のディレクトリ構造を作成するだけです
あなたのシステム。
例:
母国語はドイツ語で、ホーム ディレクトリは /home/jano です。
最初にディレクトリ /home/jano/locales/de/LC_MESSAGES/ を作成してから、
そこにドイツ語の pavuk.mo を置き、-msgcat を /home/jano/locales/ に設定します。 あなたが持っている場合
ロケール環境値を適切に設定すると、pavuk がドイツ語を話していることがわかります。 これ
オプションは、GNU gettext メッセージをサポートするようにコンパイルした場合にのみ使用できます
国際化。
-cdir $ディレクトリ
取得したすべてのドキュメントが格納されるディレクトリ。 指定しない場合、
現在のディレクトリが使用されます。 指定したディレクトリが存在しない場合は、
作成しました。
-scndir $ディレクトリ
シナリオが保存されているディレクトリ。 次の場合に、このオプションを使用する必要があります。
シナリオ ファイルをロードまたは保存しています。
保存する オプション
-preserve_time/-nopreserve_time
ダウンロードしたドキュメントをリモート サイトと同じ変更時刻で保存します。
変更時間は、そのような情報が利用可能な場合にのみ設定されます (一部の FTP
サーバーは、 MDTM コマンド、および HTTP サーバー上の一部のドキュメントは
オンラインで作成されているため、pavuk はこのドキュメントの変更時刻を取得できません)。 で
ドキュメントのデフォルトの変更時刻は保持されません。
-preserve_perm/-nopreserve_perm
ダウンロードしたドキュメントをリモート サイトと同じ権限で保存します。 これ
オプションは、FTP プロトコルを介してファイルをダウンロードする場合にのみ有効であり、
その -ftplist オプションが使用されます。 デフォルトでは、権限は保持されません。
-preserve_slinks/-nopreserve_slinks
リモート サーバーとまったく同じ場所を指すようにシンボリック リンクを設定します。 しないでください
あらゆる移転を行います。 このオプションは、FTP 経由でファイルをダウンロードする場合にのみ有効です
プロトコルであり、 -ftplist オプションが使用されます。 デフォルトのシンボリック リンクは
保存されず、リンクされた完全なコンテンツを含む通常のドキュメントとして取得されます
ファイルにソフトウェアを指定する必要があります。
たとえば、FTP サーバー ftp.xx.org にシンボリック リンクがあるとします。
/tmp/pub/pavuk-0.9pl11.tgz を指す /pub/pavuk/pavuk-current.tgz。 パヴク
シンボリックリンク ftp/ftp.xx.org_21/pub/pavuk/pavuk-current.tgz を作成します
オプション -preserve_slinks が使用される場合、このシンボリック リンクは
/tmp/pub/pavuk-0.9pl11.tgz
オプション -preserve_slinks を使用する場合、このシンボリック リンクは
../../tmp/pub/pavuk-0.9pl11.tgz
-retrieve_symlink/-noretrieve_symlink
ローカル ツリーでシンボリック リンクを複製する代わりに、シンボリック リンクの背後にあるファイルを取得します。
プロキシ オプション
-http_プロキシ $サイト[:$ポート]
このパラメータを使用すると、すべての HTTP リクエストがこのプロキシを通過します
サーバ。 これは、サイトがファイアウォールの内側にある場合や、
HTTP プロキシ キャッシュ サーバーを使用します。 デフォルトのポート番号は 8080 です。
(複数の -http_proxy オプションを使用して) 複数の HTTP プロキシを指定すると、
エラーのあるプロキシを無効にするラウンドロビン優先度でプロキシをローテーションします。
-nocache/-cache
ドキュメントをサイトから直接取得したい場合はいつでもこのオプションを使用し、
HTTP プロキシ キャッシュ サーバーからではありません。 デフォルトの pavuk はドキュメントの転送を許可します
キャッシュからコピーします。
-ftp_proxy $サイト[:$ポート]
このパラメーターを使用すると、すべての FTP 要求がこのプロキシーを通過します。
サーバ。 これは、サイトがファイアウォールの背後にある場合や、
FTP プロキシ キャッシュ サーバーを使用します。 デフォルトのポート番号は 22 です。Pavuk は XNUMX つのポートをサポートします。
FTP 用のさまざまなタイプのプロキシ。オプションを参照してください -ftp_httpgw、 -ftp_dirtyproxy。
上記のオプションのいずれも使用されていない場合、pavuk は通常の FTP プロキシを想定します。
USER user @ host リモート FTP サーバーに接続しています。
-ftp_httpgw/-noftp_httpgw
指定された FTP プロキシは、FTP プロトコルの HTTP ゲートウェイです。 デフォルトの FTP プロキシ
通常の FTP プロキシです。
-ftp_dirtyproxy/-noftp_dirtyproxy
指定された FTP プロキシは、 CONNECT リクエスト(パブク
アクティブなデータ接続を除いて、完全な FTP プロトコルを使用する必要があります)。 デフォルトの FTP
proxy は通常の FTP プロキシです。 -ftp_dirtyproxy と -ftp_httpgw の両方を指定した場合、
-ftp_dirtyproxy が推奨されます。
-gopher_proxy $サイト[:$ポート]
Gopher ゲートウェイまたはプロキシ/キャッシュ サーバー。
-gopher_httpgw/-nogopher_httpgw
指定された Gopher プロキシ サーバーは、Gopher プロトコルの HTTP ゲートウェイです。 いつ
-gopher_proxy が設定され、これ -gopher_httpgw オプションは使用されません。pavuk は使用しています
を使用した HTTP トンネルとしてのプロキシ CONNECT Gopher サーバーへの接続を開くように要求します。
-ssl_proxy $サイト[:$ポート]
SSLプロキシ(トンネリング)サーバー[CERN httpd +パッチまたはSquidの場合]
使用可能 CONNECT リクエスト (少なくともポート 443)。 このオプションは、次の場合にのみ使用できます。
SSL サポート付きでコンパイルされています (SSL をサポートする SSleay または OpenSSL ライブラリが必要です)。
開発ヘッダー)
プロキシ 認証
-http_proxy_user $ユーザー
HTTP プロキシ認証のユーザー名。
-http_proxy_pass $パス
HTTP プロキシ認証のパスワード。
-http_proxy_auth {1/2/3/4/ユーザー/ベーシック/ダイジェスト/NTLM}
プロキシ アクセスの認証スキーム。 と同じような意味 -auth_scheme
オプション (詳細については、このオプションのヘルプを参照してください)。 デフォルトは 2 (基本スキーム) です。
-auth_proxy_ntlm_domain $ str
再度認証に使用される NT または LM ドメイン NTLM の場合は HTTP プロキシ サーバー
認証スキームが必要です。 このオプションは、コンパイル時にのみ使用できます
OpenSSL または libdes ライブラリを使用します。
-auth_reuse_proxy_nonce/-noauth_reuse_proxy_nonce
HTTP Proxy Digest アクセス認証スキームを使用する場合は、最初に受信したものを使用します
複数の後続リクエストのノンス値。
-ftp_proxy_user $ユーザー
FTP プロキシ認証のユーザー名。
-ftp_proxy_pass $パス
FTP プロキシ認証のパスワード。
プロトコル/ダウンロード オプション
-ftp_passive
ftp 経由でダウンロードするときにパッシブ ftp を使用します。
-ftp_active
ftp 経由でダウンロードする場合、アクティブな ftp を使用します。
-active_ftp_port_range $分:$最大
このオプションは、アクティブな ftp に使用されるポートを指定することを許可します。 これにより、より簡単に
ポートの範囲が制限される可能性があるため、ファイアウォール構成。
Pavuk は、オープンするまで、指定された範囲内からランダムに番号を選択します。
ポートが見つかりました。 指定された範囲内に開いているポートが見つからない場合、pavuk は
デフォルトは通常のカーネル割り当てポートで、メッセージ (デバッグ レベル ネット) は
出力。
選択したポート範囲は、特権のない範囲内にある必要があります (例: 以上または
1024 に等しい); 選択した範囲を十分に大きくすることを強くお勧めします。
多くの同時アクティブ接続を処理します (たとえば、49152-65534、IANA-
登録された一時ポート範囲)。
-always_mdtm/-noalways_mdtm
pavuk が常に "MDTM" を使用してファイルの変更時刻を決定し、決して使用しないように強制します。
リモートファイルをリストするときに決定されたキャッシュされた時間を使用します。
-remove_before_store/-noremove_before_store
新しいコンテンツがファイルに保存される前に、ファイルのリンクを強制的に解除します。 これは役に立ちます
ローカルファイルが他のディレクトリにハードリンクされていて、ミラーリングした後
ハードリンクがチェックされます。 すべての「壊れた」ハードリンクは、ファイルの更新を示しています。
-リトライ $nr
処理済み文書の転送試行回数を設定します。 デフォルトは 1 に設定されています。
pavuk は、最初の試行で失敗したドキュメントを取得するために XNUMX 回再試行することを意味します。
-nregets $nr
転送が中断された後、XNUMX つのドキュメントで許容される再取得の回数を設定します。
このオプションのデフォルト値は 2 です。
-nredirs $nr
許可される HTTP リダイレクトの数を設定します。 (ループ防止に使用) デフォルト
このオプションの値は 5 で、HTTP 仕様に準拠しています。
-force_reget/-noforce_reget
サーバーが破損した場合、転送が失敗した後にドキュメント全体を強制的に再取得します。
部分的なコンテンツの取得はサポートされていません。 Pavuk のデフォルトの動作は停止です
指定した位置からの転送の再開を許可しないドキュメントを取得します。
-タイムアウト $nr
停止した接続のタイムアウト (分単位)。 この値は接続にも使用されます
タイムアウト。 XNUMX 分未満のタイムアウトの場合、浮動小数点数を使用できます。 デフォルト
timeout は 0 です。これは、タイムアウト チェックが無効であることを意味します。
-noRobots/-Robots
このスイッチは、 robots.txtの に使用される標準
Web サーバー上の特定の場所への Web ロボットのアクセスを制限します。 デフォルトは
HTTP サーバー上の robots.txt ファイルのチェックを許可しました。 このオプションを常に有効にする
レイアウトが予測できない膨大なページ セットをダウンロードする場合。 これ
サーバー管理者を動揺させるのを防ぎます:-)。
-noEnc/-Enc
このスイッチは、 gzip or 圧縮する or デフレート 転送中のエンコード。 私
一部のサーバーが壊れているかどうかはわかりませんが、その MIME を伝播しています
エンコードされた application/gzip または application/compress と入力します。 このオプションをオフにして、
libzサポートがコンパイルされていない場合 gzip 使用するプログラム
この方法でエンコードされたドキュメントをデコードします。 デフォルトでは、ダウンロードしたドキュメントのデコードです
無効にする。
-check_size/-nocheck_size
からページをダウンロードしようとしている場合は、オプション -nocheck_size を使用する必要があります。
間違って送信する HTTP サーバー コンテンツの長さ: の MIME ヘッダーのフィールド
応答。 デフォルトの pavuk の動作は、このフィールドをチェックし、次の場合に文句を言うことです。
何かが間違っている。
-最大レート $nr
すべての転送帯域幅を pavuk に与えたくない場合は、このオプションを使用して
pavuk の最大転送速度を設定します。 このオプションは浮動小数点数を受け入れます
転送速度を kB/s で指定します。 最適な設定を取得したい場合は、
読み取りバッファのサイズで遊ぶ(オプション -bufsize)パブクがやっているから
アプリケーションレベルでのみフロー制御。 デフォルトでは、pavuk は全帯域幅を使用します。
-minrate $nr
転送速度が遅いのが嫌なら、このオプションを使用すると転送を中断できます。
ゆっくり。 最小転送速度を設定できます。接続が確立された場合
指定されたレートより遅い場合、転送は停止します。 最低転送速度
単位は kB/s です。 デフォルトでは、pavuk はこの制限をチェックしません。
-bufsize $nr
このオプションは、読み取りバッファのサイズを指定するために使用されます (デフォルト サイズ: 32kB)。
接続が非常に高速な場合は、バッファーのサイズを増やして取得することができます。
読み取りパフォーマンスが向上します。 転送速度を下げる必要がある場合は、
バッファのサイズを減らし、最大転送速度を
-最大レート オプション。 このオプションは、kB 単位のバッファーのサイズを受け入れます。
-fs_quota $nr
マルチユーザーシステムで pavuk を実行している場合、いっぱいになるのを避ける必要があるかもしれません
あなたのファイルシステム。 このオプションを使用すると、空き領域をいくつ残す必要があるかを指定できます。 もしも
pavuk は空き容量の不足を検出すると、ファイルのダウンロードを停止します。
このクォータを kB で指定します。 デフォルト値は 0 で、これはチェックしないことを意味します
クォータ。
-ファイルクォータ $nr
このオプションは、大きなファイルのダウンロードを制限したいが、
大きなファイルから少なくとも $nr キロバイトをダウンロードします。 大きなファイルが転送されますが、
指定したサイズに達すると、転送が中断されます。 そのような文書は、
正しくダウンロードされたものとして処理されるため、このオプションを使用するときは注意してください。 デフォルトでは
pavuk はフル サイズのドキュメントを転送しています。
-trans_quota $nr
選択内容が大量のデータに対応する必要があることを認識している場合は、次のことができます。
このオプションを使用して、転送されるデータの量を制限します。 デフォルトはサイズ順です
無制限の転送。
-max_time $nr
プログラム実行の最大時間を設定します。 時間を超えるとパヴークが止まる
ダウンロード中。 時間は分単位で指定します。 デフォルト値は 0 です。
ダウンロード時間に制限はありません。
-url_strategy $戦略
このオプションを使用すると、ドキュメント ツリー内の URL のダウンロード順序を指定できます。
このオプションは、次の文字列をパラメーターとして受け入れます。
レベル - HTML ファイルからロードするときに URL を順序付けます (デフォルト)。
レベル - 前と同じですが、インライン オブジェクトの URL が最初に来ます
プレ - 実際の HTML ドキュメントからの URL を開始時に挿入し、他のドキュメントの前に挿入します。
プレイ - 前と同じですが、インライン オブジェクトの URL が最初に来ます
-send_if_range/-nosend_if_range
送信する If-範囲: HTTP リクエストのヘッダー。 私は、いくつかのHTTPサーバーが
(あいさつ、MS :-)) 別のものを送信しています Eタグ: のさまざまな応答のフィールド
同じ、変更されていないドキュメント。 これにより、pavuk が再取得を試みるときに問題が発生します。
そのようなサーバーからのドキュメント: pavuk は古い ETag 値を記憶し、それを使用します
このドキュメントの次の要求。 サーバーが新しいETagでそれをチェックする場合
値と異なる場合、ドキュメントの一部のみの送信を拒否し、開始します。
最初からダウンロードします。
-ssl_version $v
SSL 通信に必要な SSL プロトコル バージョンを設定します。 $v ssl2、ssl23、
ssl3 または tls1。 このオプションは、SSL サポート付きでコンパイルされた場合にのみ使用できます。
デフォルトは ssl23 です。
-unique_sslid/-nounique_sslid
このオプションは、一意の SSL ID すべての SSL セッションに対して。
デフォルトの pavuk の動作は、毎回新しいセッション ID をネゴシエートすることです。
繋がり。 このオプションは、SSL サポート付きでコンパイルされた場合にのみ使用できます。
-use_http11/-nouse_http11
このオプションは、HTTP で使用される HTTP/1.0 プロトコルと HTTP/1.1 プロトコルを切り替えるために使用されます。
サーバー。 HTTP/1.1 プロトコルが実装されているため、デフォルトではなく HTTP/XNUMX プロトコルを使用しています。
非常に新鮮で、100% テストされていません。 HTTP/1.1 の使用は非常に
HTTP/1.0 よりも高速で、ネットワーク帯域幅の使用が少ないため、推奨されます。
接続を開始します。 今後のバージョンでは、HTTP/1.1 を使用してアクティブ化します。
デフォルト。
-local_ip $ addr
指定したネットワーク インターフェイスを使用する場合に、このオプションを使用できます。
他のホストとの通信。 このオプションは、マルチホーム ホストに適しています。
いくつかのネットワーク インターフェイス。 アドレスは、通常の IP アドレスまたは
ホスト名。
-身元 $ str
このオプションを使用すると、次のコンテンツを指定できます。 ユーザーエージェント: HTTP リクエストのフィールド。
これは、リモート サーバー上のスクリプトが同じサーバー上で異なるドキュメントを返す場合に使用できます。
さまざまなブラウザーの URL、または一部の HTTP サーバーが Web 用のドキュメントの提供を拒否した場合
パヴクのようなロボット。 デフォルトの pavuk が送信する ユーザーエージェント: フィールド パヴク/$VERSION 文字列。
-auto_referer/-noauto_referer
このオプションは、pavuk に HTTP の送信を強制します リファラー: 開始 URL を含むヘッダー フィールド。
このフィールドの内容はセルフ URL になります。 リモートの場合、このオプションを使用する必要があります
サーバーは Referer: フィールドをチェックします。 デフォルトでは、pavuk は Referer: フィールドを送信しません
開始 URL。
-referer/-noreferer
このオプションを使用すると、HTTP の送信を有効または無効にすることができます リファラー: ヘッダ
分野。 デフォルトでは、pavuk は Referer: フィールドを送信します。
-httpad $ str
場合によっては、ユーザー定義フィールドを HTTP/HTTPS リクエストに追加したいことがあります。 これ
オプションはまさにこの目的のためのものです。 の $ str の内容を直接指定できます
追加ヘッダー。 生のヘッダーのみを指定すると、
リクエストを開始します。 各リクエストでこのヘッダーを使用したい場合
クロール、ヘッダーの前に + 文字。
-del_after/-nodel_after
このオプションを使用すると、ダウンロード時にリモート サーバーからファイルを削除できます。
適当に終了。 デフォルトでは、このオプションはオフです。
-FTPlist/-noFTPlist
オプション -FTPlist が使用される場合、pavuk は FTP ディレクトリのコンテンツを取得します
FTPコマンドで LIST NLST. したがって、同じリストが次のように取得されます。
"ls -l" UNIX コマンドで。 保存する必要がある場合、このオプションは必須です。
リモート ファイルのパーミッションを変更するか、シンボリック リンクを保持する必要があります。 パヴクがサポート
通常のFTPサーバーでのワイドリスティング BSD or SYSV スタイル "ls -l" ディレクトリ
リスト、FTP サーバー上 EPFL リスト形式、 VMS スタイルリスト、 DOS/Windows
スタイルリストと 小説 リスト形式。 デフォルトの pavuk の動作は、NLST を使用することです。
FTP ディレクトリのリスト。
-ftp_list_options $ str
一部の FTP サーバーでは、追加のオプションを LIST または NLST FTP コマンドに指定する必要があります。
すべてのファイルとディレクトリを適切に表示します。 ただし、余分なオプションは使用しないでください
リストの出力を再フォーマットできます。 特に便利です -a オプション
FTPサーバーにドットファイルとディレクトリも表示させ、WuFTPが壊れている
ファイルだけでなく、完全なディレクトリ リストを作成するのにも役立ちます。
-fix_wuftpd/-nofix_wuftpd
このオプションは、正しく動作するように何度か試みた結果です。
-remove_old ときの WuFTPd サーバーのオプション -ftplist オプションが使用されます。 問題は
存在しないものをリストしようとするとき、WuFTPd の FTP コマンド LIST は気にしません。
ディレクトリに記録され、FTP 応答コードで成功を示します。 これを有効にすると
オプションを指定すると、pavuk は追加の FTP コマンド (STAT -d dir) を使用して、ディレクトリが
本当に存在します。 本当に必要であると確信するまで、このオプションを使用しないでください。
認証
-auth_file $ file
一部のサービスにアクセスするための認証情報を保存したファイル。
ファイル構造については、以下を参照してください ファイル のセクションから無料でダウンロードできます。
-認証名 $ユーザー
このパラメーターを使用している場合、プログラムは各 HTTP で認証を行っています。
ドキュメントへのアクセス。 これは、HTTP サーバーが XNUMX つしかないことがわかっている場合にのみ使用してください。
アクセスまたは使用 -サイト 認証を使用するサイトを指定するオプション。
それ以外の場合、認証パラメーターは、アクセスされた各 HTTP サーバーに送信されます。
-auth_passwd $パスワード
このパラメーターの値は、認証用のパスワードとして使用されます
-auth_scheme {1/2/3/4/ユーザー/ベーシック/ダイジェスト/NTLM}
このパラメーターは、使用される認証方式を指定します。
1 or user 手段 user HTTP/1.0 または
HTTP/1.1。 パスワードとユーザー名はエンコードされずに送信されます。
2 or Basic 手段 Basic 認証スキームは、HTTP/1.0 で定義されているとおりに使用されます。
パスワードとユーザー名は BASE64 エンコードで送信されます。
3 or ダイジェスト 手段 ダイジェスト MD5 チェックサムに基づくアクセス認証方式
RFC2069 で定義されています。
4 or NTLM 手段 NTLM Microsoft が使用する独自のアクセス認証スキーム
IIS またはプロキシ サーバー。 このスキームを使用する場合は、NT または LM も指定する必要があります。
オプション付きドメイン -auth_ntlm_domain. このスキームは、コンパイル時にのみサポートされます
OpenSSL または libdes ライブラリを使用します。
-auth_ntlm_domain $ str
再度認証に使用する NT または LM ドメイン NTLM 認証時の HTTP サーバー
スキームが必要です。 このオプションは、OpenSSL または
libdes ライブラリ。
-auth_reuse_nonce/-noauth_reuse_nonce
HTTP ダイジェスト アクセス認証スキームを使用している間は、最初に受信したノンスを使用します
次のリクエストの値。 デフォルトの pavuk は、リクエストごとに nonce をネゴシエートします。
-ssl_key_file $ file
SSL 証明書の公開鍵を含むファイル (SSLeay または OpenSSL から詳細を確認してください)
このオプションは、SSL サポート付きでコンパイルされた場合にのみ使用できます (
SSleay または OpenSSL ライブラリと開発ヘッダーが必要)
-ssl_cert_file $ file
PEM 形式の証明書ファイル (詳細については、SSLeay または OpenSSL のドキュメントを参照してください)
このオプションは、SSL サポートを使用してコンパイルした場合にのみ使用できます (SSleay または
OpenSSL ライブラリと開発ヘッダー)
-ssl_cer_passwd $ str
証明書の生成に使用されるパスワード (SSLeay または OpenSSL から詳細を確認してください)
このオプションは、SSL サポート付きでコンパイルされた場合にのみ使用できます (
SSLeay または OpenSSL ライブラリと開発ヘッダーが必要です)
-nss_cert_dir $ディレクトリ
NSS (Netscape SSL 実装) 証明書の構成ディレクトリ。 いつもの
~/.netscape (Netscape communicator/navigator で作成) または以下のプロファイル ディレクトリ
~/.mozilla (Mozilla ブラウザで作成)。 ディレクトリには以下が含まれている必要があります 証明書7.db
key3.db ファイル。 Mozilla も Netscape も使用しない場合は、次の方法でこのファイルを作成する必要があります。
NSS ライブラリで配布されるユーティリティ。 Pavuk は証明書データベースのみを開きます
読み取り専用。 このオプションは、pavuk が SSL サポート付きでコンパイルされている場合にのみ使用できます。
Netscape NSS SSL 実装によって提供されます。
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
デフォルトでは、証明書が存在しない SSL サーバーへの接続を pavuk が拒否します。
ローカル証明書データベースに保存されます (によって設定されます -nss_cert_dir オプション)。 絶対です
不明な証明書を持つサーバーへの接続を許可することを pavuk に明示的に強制します。
このオプションは、pavuk が によって提供される SSL サポートでコンパイルされている場合にのみ使用できます。
Netscape NSS SSL の実装。
[-nss_domestic_policy/-nss_export_policy]
米国の輸出規則によって許可/無効化される暗号のセットを選択します。 このオプションは
Netscape NSS SSL によって提供される SSL サポートを使用して pavuk がコンパイルされている場合にのみ使用できます。
インプリメンテーション。
-から $メール
このパラメーターは、匿名 FTP サーバーにパスワードとしてアクセスするときに使用されます。
オプションで挿入 フィールド。 指定されていない場合
からこれを発見 USER 環境変数とサイトのホスト名から。
-send_from/-nosend_from
このオプションは、ユーザー ID の送信を有効または無効にするために使用されます。
入った -から オプション、FTP 匿名ユーザーのパスワードとして、および から: HTTPのフィールド
リクエスト。 デフォルトでは、このオプションはオフです。
-ftp_login_handshake $host $握手
一部の FTP サーバーで非標準のログイン手順を使用する必要がある場合は、次のことができます。
このオプションを使用して、デフォルトの pavuk ログイン手順を変更します。 より柔軟に対応するには、
ログイン手順を一部のサーバーまたはすべてのサーバーに割り当てることができます。 いつ $host is
空の文字列 ("")、添付のログイン手順よりすべてに割り当てられます
独自のログイン手順を割り当てられた FTP サーバー以外の FTP サーバー。 の中に $握手
パラメーターは、FTP コマンドによって指定された正確なログイン手順を指定できます。
バックスラッシュ (\) の文字。
たとえば、これは通常の ftp サーバーにログインするときのデフォルトのログイン手順です。
プロキシサーバーを経由せずに: USER %u\331\パス %p\230。 二つあります
コマンドの後に XNUMX つの応答コードが続きます。 USER コマンド pavuk が FTP を期待した後
応答コード 331 以降 PASS コマンド pavuk はサーバーからの FTP 応答を期待します
コード 230. ftp コマンドでは、次のマクロを使用できます。
それぞれの値:
%u - FTP サーバーへのアクセスに使用するユーザー名
%p - FTP サーバーへのアクセスに使用するパスワード
%U - FTP プロキシ サーバーへのアクセスに使用するユーザー名
%P - FTP プロキシ サーバーへのアクセスに使用するパスワード
%h - FTP サーバーのホスト名
%s - FTP サーバーがリッスンするポート番号
サイト/ドメイン/ポート 制限 オプション
-サイト $list
参照ドキュメントがある許可サイトのコンマ区切りリストを指定します
保存されます。
-dsite $list
許可されていないサイトのコンマ区切りリストを指定します。 前のパラメータが反対です
これに。 両方が使用されている場合は、最後に出現したものが有効になります。
-ドメイン $list
参照ドキュメントがある許可ドメインのコンマ区切りリストを指定します。
保存されます。
-dドメイン $list
許可されないドメインのコンマ区切りリストを指定します。 前のパラメータが反対です
これに。 両方が使用されている場合は、最後に出現したものが有効になります。
-アポート $list
In $list、許可するポートのカンマ区切りのリストを書くことができます
ドキュメントをダウンロードします。
-dポート $list
このオプションは、前のオプションの反対のオプションです。 拒否を指定するために使用されます
ポート。 両方なら -アポート -dポート オプションが使用され、それらの最後のオカレンスは
以前は有効であり、他のすべてのオカレンスは省略されます。
制限 ドキュメント プロパティ
-アミメット $list
コンマ区切りの許可された MIME タイプのリスト。 このオプションでも使用できます
ワイルドカード パターン。
-dmimet $list
コンマで区切られた許可されていない MIME タイプのリスト。 このオプションでも使用できます
ワイルドカード パターン。 前のパラメータはこれと反対です。 両方使う場合
それらの最後の出現が有効であるために使用されます。
-最大サイズ $nr
ドキュメントの最大許容サイズ。 このオプションは、pavuk が可能な場合にのみ適用されます
転送を開始する前に原稿を検出します。 デフォルト値は 0 です。
この制限が適用されないことを意味します。
-最小サイズ $nr
ドキュメントの最小許容サイズ。 このオプションは、pavuk が可能な場合にのみ適用されます
転送を開始する前に原稿を検出します。 デフォルト値は 0 です。
この制限が適用されないことを意味します。
-より新しい $時間
で指定されたよりも新しい変更時刻を持つドキュメントの転送のみを許可する
パラメータ $time. $time の形式は、YYYY.MM.DD.hh:mm です。 このオプションを適用するには pavuk
ドキュメントの変更時刻を検出できる必要があります。
-より古い $時間
で指定されたよりも古い変更時刻を持つドキュメントの転送のみを許可する
パラメータ $time. $time の形式は、YYYY.MM.DD.hh:mm です。 このオプションを適用するには pavuk
ドキュメントの変更時刻を検出できる必要があります。
-CGIなし/-CGI
このスイッチは、動的に生成されたパラメトリック ドキュメントの転送を防止します。
CGI インターフェイス。 これは、 ? URL 内の文字。 デフォルト
pavuk の動作は、クエリ文字列を含む URL の転送を許可することです。
-アラン $list
これにより、優先されるナチュラルの順序付きコンマ区切りリストを指定できます
言語。 このオプションは、HTTP および HTTPS プロトコルでのみ機能します。 承認-
言語: MIME フィールド。
-acharset $list
このオプションを使用すると、次の優先エンコーディングのコンマ区切りリストを入力できます。
転送されたドキュメント。 これは、HTTP および HTTPS の URL でのみ機能し、そのような場合にのみ機能します。
ドキュメントのエンコーディングは宛先サーバーにあります。
例: -acharset iso-8859-2、windows-1250、utf8
制限 ドキュメント 名
-asfx $list
このパラメーターを使用すると、選択を制限するために使用されるサフィックスのセットを指定できます。
処理されるドキュメント。
-dsfx $list
ドキュメントの選択に関する制限を指定するために使用されるサフィックスのセット。
これは前のオプションの逆です。 彼らはお互いを隔離しています。
-接頭辞 $リスト、 -dprefix $list
この XNUMX つのオプションを使用すると、一連の許可または禁止するプレフィックスを指定できます。
ドキュメント。 彼らはお互いを隔離しています。
-パターン $パターン
このオプションを使用すると、ドキュメントのワイルドカード パターンを指定できます。 すべてのドキュメントは
このパターンに一致するかどうかをテストします。
-rパターン $reg_exp
これは前と同じオプションですが、これは正規表現を使用します。 利用可能
サポートされている RE 実装を持つプラットフォームのみ。
-スキップパターン $パターン
このオプションを使用すると、ドキュメントのワイルドカード パターンを指定できます。
スキップしました。 このパターンに一致するかどうか、すべてのドキュメントがテストされます。
-skip_rpattern $reg_exp
これは前と同じオプションですが、これは正規表現を使用します。 利用可能
サポートされている RE 実装を持つプラットフォームのみ。
-url_パターン $パターン
このオプションを使用すると、URL のワイルドカード パターンを指定できます。 次の場合、すべての URL がテストされます。
彼らはこのパターンに一致します。
例:
-url_pattern http://\*.idata.sk:\*/~ondrej/\* . このオプションは、すべての HTTP URL を有効にします
/~ondrej/ の下にあるすべてのポートのドメイン .idata.sk から。
-url_rpattern $reg_exp
これは前と同じオプションですが、これは正規表現を使用します。 利用可能
サポートされている RE 実装を持つプラットフォームのみ。
-skip_url_pattern $パターン
このオプションを使用すると、スキップする URL のワイルドカード パターンを指定できます。
このパターンに一致するかどうか、すべての URL がテストされます。
-skip_url_rpattern $reg_exp
これは前と同じオプションですが、これは正規表現を使用します。 利用可能
サポートされている RE 実装を持つプラットフォームのみ。
-aip_パターン $re
このオプションを使用すると、転送されるドキュメントのセットをサーバー IP アドレスで制限できます。
IPアドレスは正規表現で指定できるので、
XNUMX つの式による IP アドレスのセット。 があるプラットフォームでのみ使用できます。
RE の実装をサポートしました。
-dip_pattern $re
このオプションは前のオプションと似ていますが、許可されていない IP のセットを指定するために使用されます
アドレス。 サポートされている RE 実装を持つプラットフォームでのみ使用できます。
-タグパターン $タグ $属性 $ url
のより強力なバージョン -url_パターン 許可されたのより正確な一致のためのオプション
HTML タグ名パターン、HTML タグ属性名パターン、および URL に基づく URL
パターン。 このオプションの XNUMX つのパラメーターすべてでワイルドカード パターンを使用できます。
何かのようなもの -タグパターン 「*」 「*」 URL_パターン 等しい -url_パターン
URL_パターンを選択します。 $タグ $属性 パラメータは常に大文字に再一致します
文字列。 たとえば、pavuk に通常のリンクのみを無視させたい場合
スタイルシート、画像など、オプションを使用 -タグパターン A Href 「*」.
-tag_rpattern $タグ $属性 $ url
これは上のバリエーションです -タグパターン. 正規表現パターンを使用します
前のオプションで使用されたワイルドカード パターンの代わりにパラメーターを使用します。
制限 プロトコル オプション
-noHTTP/-HTTP
このスイッチは、HTTP プロトコルを介したすべての転送を抑制します。 デフォルトは転送です
トラフ HTTP が有効になっています。
-noSSL/-SSL
このスイッチは、HTTPS プロトコル (HTTP プロトコル経由) を介したすべての転送を抑制します。
SSL) . デフォルトでは、HTTPS 経由の転送が有効になっています。 このオプションは、
SSL サポートを使用してコンパイルした場合 (SSleay または OpenSSL ライブラリと
開発ヘッダー)
-noGopher/-Gopher
Gopher インターネット プロトコルを介したすべての転送を抑制します。 デフォルトは転送です
トラフ Gopher が有効になっています。
-noFTP/-FTP
このスイッチは、すべての FTP サーバーに割り当てられたドキュメントの処理を防ぎます。 デフォルトは
FTP経由での転送が有効になっています。
-noFTPS/-FTPS
このスイッチは、アクセスされるすべての FTP サーバーに割り当てられたドキュメントの処理を防ぎます
SSL経由。 デフォルトでは、FTPS 経由の転送が有効になっています。 このオプションが利用可能です
SSL サポート付きでコンパイルされた場合のみ (SSleay または OpenSSL ライブラリと
開発ヘッダー)
-FTPhtml/-noFTPhtml
オプション -FTPhtml を使用すると、pavuk にダウンロードした HTML ファイルを強制的に処理させることができます。
FTPプロトコルで。 デフォルトでは、pavuk は FTP サーバーからの HTML ファイルを解析しません。
-FTPdir/-noFTPdir
FTP ディレクトリの再帰処理も強制します。 デフォルトでは再帰的です
FTP サーバーからのダウンロードが拒否されました。
-disable_html_tag $TAG,[$ATTRIB][;...]
-enable_html_tag $TAG,[$ATTRIB][;...] 特定の処理を有効または無効にする
HTML タグまたは属性。 デフォルトでは、サポートされているすべての HTML タグが有効になっています。
たとえば、すべての画像を処理したくない場合は、オプションを使用する必要があります
-disable_html_tag 'IMG,SRC;入力,SRC;本文,背景' .
その他 制限 オプション
-サブディレクトリ $ディレクトリ
一部のモードを制限するローカル ツリー ディレクトリのサブディレクトリ {sync,
resumeregets、linkupdate} をそのツリー スキャンで使用します。
-dont_leave_site/-leave_site
(しないでください) スタート地点を離れます。 デフォルトでは、pavuk は再帰時にホストにまたがることができます
WWW ツリー。
-dont_leave_dir/-leave_dir
(しないでください) 開始ディレクトリを離れます。 -dont_leave_dir オプションを使用すると、pavuk が残ります
開始ディレクトリ (独自のサブディレクトリを含む) のみ。 デフォルトでパヴク
開始ディレクトリを離れることができます。
-leave_site_enter_dir/-dont_leave_site_enter_dir
巨大なツリーを持つ複数のホストにまたがる WWW ツリーをダウンロードしている場合、
以下のディレクトリ階層にあるドキュメントのダウンロードを許可したい
各サイトで最初にアクセスしたディレクトリ。 これを取得するには、オプションを使用します
-dont_leave_site_enter_dir. デフォルトでは、pavuk は上位のディレクトリにも移動します
そのサイトのレベル。
-lmax $nr
ツリー トラバースの最大許容レベルを設定します。 デフォルトは 0 に設定されています。つまり、
pavuk は無限に移動できます。 バージョン 0.8pl1 の HTML ページのインライン オブジェクト
親 HTML ページと同じレベルに配置されます。
-leave_level $nr
開始 URL のサイト外のドキュメントの最大レベル。 デフォルトは 0 に設定されています。
0 はチェックが適用されないことを意味します。
-サイトレベル $nr
開始 URL のサイト以外のサイトの最大レベル。 デフォルトは 0 に設定されており、
0 は、チェックが適用されないことを意味します。
-dmax $nr
処理されるドキュメントの最大許容数を設定します。 デフォルト値は 0 です。
つまり、処理されるドキュメントの数に制限はありません。
-singlepage/-nosinglepage
オプションを使用する -シングルページ HTML ページだけを転送することができます。
インライン オブジェクト (画像、音声、フレーム ドキュメントなど)。 デフォルトでは無効になっているため
シングルページ転送。 このオプションにより、 -モード 単一ページ オプションは廃止されました。
-limit_inlines/-dont_limit_inlines
このオプションを使用すると、制限オプションをインラインにも適用するかどうかを制御できます
オブジェクト (写真、音など)。 指定してダウンロードしたい場合に便利です。
制限のないすべてのインライン オプションを含む HTML ページのセット。
-user_condition $ str
ユーザー独自の条件のスクリプトまたはプログラム名。 任意のスクリプトを記述できます。
URL をダウンロードするかどうかを終了値で決定する必要があります。 スクリプトは pavuk から取得します
この意味を持つオプションの数:
-url $ url - 処理された URL
-親 $ url - 任意の数の親 URL
レベル $nr - 開始 URL からのこの URL のレベル
-サイズ $nr - リクエストされた URL のサイズ
-日付 $datenr - 要求された URL の変更時刻 (形式) YYYYMMDDhhmmss
スクリプトまたはプログラムの終了ステータス 0 は、現在の URL を拒否する必要があることを意味します
ゼロ以外の終了ステータスは、URL を受け入れる必要があることを意味します。
警告 : によって引き起こされる大きな速度低下のため、必要な場合にのみユーザー条件を使用してください。
チェックされた各 URL のフォーク スクリプト。
-follow_cmd $ str
このオプションを使用すると、終了ステータスによって実行できるスクリプトまたはプログラムを指定できます
現在の HTML ドキュメントの URL に従うかどうかを決定します。 このスクリプトは
各 HTML ドキュメントのダウンロード後に呼び出されます。 スクリプトは次のオプションを取得します
パラメータとして:
-url $ url - 現在の HTML ドキュメントの URL
-infile $ file - HTML ドキュメントが格納されているローカル ファイル
スクリプトまたはプログラムの終了ステータス 0 は、現在のドキュメントの URL が
許可されない、その他の終了ステータスは、pavuk が現在のリンクをたどることができることを意味します
HTMLドキュメント。
Javascriptを 対応
pavuk での JavaScript や VBScript などのスクリプト言語のサポートは少しハッキリしています。
仕方。 この言語にはインタープリターがないため、すべてが機能するわけではありません。 全体
このスクリプト言語に対する pavuk のサポートは、正規表現に基づいています
ユーザーが指定したパターン。 HTMLのDOMイベント属性でこのパターンをPavuk検索
タグ、javascript:... URL、HTML ドキュメント内のインライン スクリプト内
タグと別の JavaScript ファイルで。 スクリプト言語のサポート
pavuk が適切な正規表現ライブラリでコンパイルされている場合にのみ使用できます
(POSIX/GNU/PCRE)。
-enable_js/-disable_js
このオプションは、HTML の Javascript 部分の処理を有効または無効にするために使用されます
ドキュメント。 JavaScript の処理を使用できるようにするには、このオプションを有効にする必要があります
パターン。
-js_パターン $re
このオプションを使用すると、対象の部分に一致するパターンを指定できます。
URL を抽出するための Javascript。 パラメータは、正確に XNUMX つの RE パターンでなければなりません
URL 部分と完全に一致するサブパターン。 たとえば、次の URL を照合するには
JavaScript 式のタイプ:
document.b1.src='pics/button1_pre.jpg'
このパターンを使用できます
"^document.[a-zA-Z0-9_]*.src[ ]*=[ ]*'(.*)'$"
-js_transform $p $t $h $a
このオプションは前のオプションと似ていますが、カスタム変換ルールを使用できます。
パターンの URL 部分を指定し、正確な HTML タグと属性を指定します。
このパターンを探してください。 の $p の関心のある部分に一致するパターンです。
脚本。 NS $t は URL の変換ルールです。このパラメータでは、 $x 部品は
の x 番目のサブパターンに置き換えられます $p パターン。 ザ・ $h パラメータは正確な HTML です
タグまたは「*」(これが JavaScript に適用される場合): URL または DOM イベント属性または「」(空
string) これが HTML ドキュメントの javascript 本体または別の JS ファイルに適用される場合。
当学校区の $a パラメーターは、このルールの場合、タグの正確な HTML 属性または "" (空の文字列) です。
JavaScript本体に適用されます。
-js_transform2 $p $t $h $a
このオプションは、前のものと非常によく似ています。 すべてのパラメータの意味は同じです。
ただのパターン $p 変換で使用される部分文字列を XNUMX つだけ持つことができます
ルール $t. これは、タグとスクリプトの URL 部分の書き換えを可能にするために必要です。
このオプションは、pavuk に HTML ターグ/属性のペアを強制的に認識させるためにも使用できます。
どのpavukがサポートしていません。
クッキー
-cookie_file $ file
クッキー情報が保存されているファイル。 このファイルは Netscape cookie ファイルにある必要があります
形式 (Netscape Navigator または Communicator で生成...)。
-cookie_send/-nocookie_send
収集した Cookie を HTTP/HTTPS リクエストで使用します。 Pavuk はデフォルトでは送信しません
クッキー。
-cookie_recv/-nocookie_recv
HTTP/HTTPS 応答から受信した Cookie をメモリ Cookie キャッシュに保存します。 で
デフォルトの pavuk は、受信した Cookie を記憶しません。
-cookie_update/-nocookie_update
ディスク上の Cookie ファイルを更新し、同時に行われた変更と同期します。
プロセス。 デフォルトでは、pavuk はディスク上の Cookie ファイルを更新しません。
-cookies_max $nr
メモリー Cookie キャッシュ内の Cookie の最大数。 デフォルト値は 0 であり、
は、Cookie の数に制限がないことを意味します。
-disabled_cookie_domains $list
保存された Cookie の送信が許可されている Cookie ドメインのカンマ区切りのリスト
クッキーキャッシュに
-cookie_check/-nocookie_check
Cookie ドメインがサーバーのドメインと等しいかどうか、Cookie を受信するときに確認します。
このクッキーを送信します。 デフォルトのpavukチェックでは、サーバーがそのためのCookieを設定しています
ドメイン、そしてそれが外部ドメインのクッキーを設定しようとすると、pavuk は文句を言います
そのような Cookie は拒否されます。
HTML 書き換え エンジン チューニング オプション
-noRelocate/-Relocate
このスイッチは、HTML の後、プログラムが相対 URL を絶対 URL に書き換えるのを防ぎます。
ドキュメントが転送されます。 デフォルトの pavuk の動作は、リンクの一貫性を維持することです
HTML ドキュメント。 したがって、常に HTML ドキュメントがダウンロードされると、pavuk はすべてを書き換えます。
ローカル ドキュメントが利用可能な場合は参照する URL、利用できない場合は参照する URL
リモートドキュメントを指します。 ドキュメントが適切にダウンロードされると、pavuk は
このドキュメントを指す HTML ドキュメント内のリンクを更新します。
-all_to_local/-noall_to_local
このオプションは、pavuk が HTML ドキュメント内のすべての URL をローカル URL に変更することを強制します。
ドキュメントのダウンロード直後。 デフォルトでは、このオプションは無効になっています。
-sel_to_local/-nosel_to_local
このオプションは、pavuk がすべての URL を変更することを強制します。
ドキュメントのダウンロード直後に HTML ドキュメント内のローカルにダウンロードします。 私
このオプションを使用することをお勧めします。
問題。 このオプションにより、プロセッサー時間を大幅に節約できます。 デフォルトはこのオプションです
無効にする。
-all_to_remote/-noall_to_remote
このオプションは、pavuk が HTML ドキュメント内のすべての URL をリモート URL に変更することを強制します。
ドキュメントのダウンロード直後。 デフォルトでは、このオプションは無効になっています。
-post_update/-nopost_update
このオプションは、特に許可するように設計されています -fnrules に基づいてルールを実行するオプション
ドキュメントの MIME タイプ。 このオプションは、pavuk に強制的にローカル名を生成させます
ドキュメントは、pavuk がドキュメントの MIME タイプを認識した直後に表示されます。 これは大きい
HTML ドキュメント内のリンクの書き換えエンジンへの影響。 このオプションにより、
リンク書き換えエンジンを制御するための他のオプションの機能不全。 これを使って
あなたが何をしているのかを知っているときだけのオプション:-)
-dont_touch_url_pattern $パット
このオプションは、HTML の特定の URL の書き換えと処理を拒否するのに役立ちます
pavuk HTML 書き換えエンジンによるドキュメント。 このオプションは、ワイルドカード パターンを受け入れます。
そのような URL を指定します。 照合は変更されていない URL に対して行われるため、URL が
相対、絶対の場合は相対 URL に一致するパターンを使用する必要があります。
絶対 URL を使用する必要があります。
-dont_touch_url_rpattern $パット
このオプションは、前のオプションのバリエーションです。 これは通常のパターンを使用します
で使用されるワイルドカード パターンの代わりに URL のマッチング -dont_touch_url_pattern
オプション。 このオプションは、pavuk がサポート付きでコンパイルされている場合にのみ使用できます。
正規表現パターン。
-dont_touch_tag_rpattern $パット
このオプションは前のオプションのバリエーションであり、完全な HTML タグでマッチングが行われるだけです
付属の《》です。 このオプションは、正規表現パターンを受け入れます。 利用できます
pavuk が正規表現パターンをサポートするようにコンパイルされている場合のみ。
ファイル名/URL 変換 オプション
-tr_del_chr $ str
で見つかったすべての文字 $ str ドキュメントのローカル名から削除されます。 $ str
tr コマンドと同様のエスケープ シーケンスを含める必要があります。
\n - 改行
\r - キャリッジリターン
\t - 水平タブ スペース
\0xXX - XNUMX 進数の ASCII 値
[:アッパー:] - すべて大文字
[:低い:] - すべて小文字
[:アルファ:] -すべての文字
[:alnum:] - すべての文字と数字
[:桁:] - すべての数字
[:x桁:] - すべての XNUMX 進数
[:スペース:] - すべての水平および垂直空白
[:空欄:] - すべての水平方向の空白
[:cntrl:] - すべての制御文字
[:print:] - スペースを含むすべての印刷可能な文字
[:nprint:] - すべての非印刷文字
[:punct:] - すべての句読点
[:グラフ:] - スペースを除くすべての印刷可能な文字
-tr_str_str $str1 $str2
String $str1 ドキュメントのローカル名からは次のように置き換えられます $str2.
-tr_chr_chr $chrset1 $chrset2
の登場人物 $chrset1 ドキュメントのローカル名からは次のように置き換えられます
の対応する文字 $chrset2. $charset1 $charset2 同じであるべき
構文として $ str in -tr_del_chr オプションを選択します。
-店舗名 $ str
シングルページで最初にダウンロードしたファイルのローカルファイル名を変更したい場合
モードでは、このオプションを使用する必要があります。
-インデックス名 $ str
このオプションを使用すると、ディレクトリのインデックス名を変更できます。 デフォルトのまま使用 _._.html .
-store_index/-nostore_index
オプション -nostore_index を使用すると、ディレクトリ インデックスの HTML への格納を拒否する必要があります。
ファイル。
-fnrules $t $m $r
これは非常に強力なオプションです。 このオプションは、レイアウトを柔軟に変更するために使用されます
ローカル ドキュメント ツリー。 XNUMX つのパラメーターを受け入れます。 最初のパラメーター $t 言うのに使用されます
次のパターンはどのタイプですか。 F ワイルドカード パターンに使用されます (を使用します fnmatch())
R 正規表現パターンに使用されます (サポートされている任意の RE を使用)
実装)。 XNUMX 番目のパラメーターは、この URL を選択するために使用される一致パターンです。
ルール。 URL がこのパターンに一致する場合、この URL のローカル名が計算されます
第三引数のルールに従います。 XNUMX 番目のパラメーターは、ローカル名の構築です。
ルール。 Pavuk は、XNUMX 種類のローカル名構築規則をサポートするようになりました。 ひとつはシンプル
のみに基づいて シンプルな マクロおよびその他のより複雑な で ルール、これも
いくつかの機能を実行できます。 XNUMX種類のルールの認識
ルールの最初の文字を見ることによって行われます。 最初の文字が
'('、ルールは拡張され、他のすべての場合は単純な種類のルールです。
簡単な拡張で ルール リテラルまたはエスケープされたマクロを含める必要があります。 マクロは % でエスケープされます
文字または $ 文字。
ここに is リスト of 認識 マクロ:
$x - ここで、x は任意の正の数です。 このマクロは x 番目の部分文字列に置き換えられます
RE パターンに一致します。 (これを使うなら RE を理解する必要があります!)
%i - プロトコル ID (http、https、ftp、gopher) に置き換えられます
%p - はパスワードに置き換えられます。 (使える時だけ使う)
%u - はユーザー名に置き換えられます。
%h - はホスト名に置き換えられます。
%m - はドメイン名に置き換えられます。
%r - はポート番号に置き換えられます。
%d - ドキュメントへのパスに置き換えられます。
%n - はドキュメント名に置き換えられます。
%b - ドキュメントのベース名 (拡張子なし) に置き換えられます。
%e - は拡張子に置き換えられます。
%s - は検索文字列に置き換えられます。
%M - ドキュメントの MIME タイプに置き換えられます。 このマクロを使用しているときは、
*必須*も使用 -post_update それ以外のオプションは機能しません。
%E - は、ドキュメントの MIME タイプに割り当てられたデフォルトの拡張子に置き換えられます。 あなたが
このマクロを使用している場合は、これも使用する必要があります -post_update それ以外のオプションは機能しません。
%x - ここで、x は正の数です。 このマクロは x 番目のディレクトリに置き換えられます
最初からドキュメントへのパス。
%-バツ - ここで、x は正の数です。 このマクロは x 番目のディレクトリに置き換えられます
最後からドキュメントへのパス。
これが例です。 ドキュメントを拡張子ごとに単一のディレクトリに配置する場合は、
次の fnrules オプションを使用する必要があります。
-fnrules F 「*」 '/%e/%n'
延長された ルール 文字で始まる ´(´. それはある種の LISP ような
構文。
ここに ベース ルール の 書き込み で ルール : - これのローカルファイル名
種類は戻り値関数
- 各関数は丸括弧で囲みます ()
- 左中括弧の直後の最初のトークンは関数名です
- 各関数にはゼロ以外の固定数のパラメーターがあります
- 各関数は数値または文字列値を返します
- 関数パラメータは任意の数の空白文字で区切られます
- 関数のパラメーターは、文字列、数値、マクロ、またはその他の関数でなければなりません
- 文字列は常に引用符で囲まれています "
- 各数値パラメータは、サポートされている任意のエンコーディングにすることができます strtod() function
(XNUMX 進数、XNUMX 進数、XNUMX 進数など)
- 数値から文字列への暗黙的な変換はありません
- 各マクロの前に % 文字で、長さは XNUMX 文字です
- 各マクロは、現在の URL からの文字列表現に置き換えられます
- 関数パラメータは厳密に型指定されています
- トップレベル関数は文字列値を返す必要があります
拡張ルールは、 % 単純なルールでサポートされるエスケープされたマクロ
さらに、次の XNUMX つの追加マクロ:
%U - URL 文字列
%o - URL のデフォルトのローカル名
ここに is 説明 of を 。 機能
sc - XNUMX つの文字列パラメーターを連結する
- XNUMX つの文字列パラメータを受け入れます
- 文字列値を返します
ss - 部分文字列フォーム文字列
- XNUMX つのパラメーターを受け入れます。
- 最初は、サブパートを切り取りたい文字列です
- 秒は、文字列の開始位置を表す数値です
- XNUMX 番目は、文字列の終了位置を表す数値です
- 文字列値を返します
うーん - 指定された基数を持つ文字列からモジュロ ハッシュ値を計算する
- XNUMX つのパラメーターを受け入れます
- 最初は、ハッシュ値を計算する文字列です
- XNUMX 番目は、モジュロ ハッシュの基数の数値です。
- 数値を返す
md5 - 文字列の MD5 チェックサムを計算する
- XNUMX つの文字列値を受け入れます
- MD5 チェックサムを表す文字列を返します
lo - 文字列内のすべての文字を小文字に変換します
- 文字列値を受け入れます
- 文字列値を返します
up - 文字列内のすべての文字を大文字に変換します
- XNUMX つの文字列値を受け入れます
- 文字列値を返します
ue - 安全でない文字を、文字列に使用されるのと同じエンコーディングでエンコードします
URL 内の安全でない文字のエンコード (%xx) デフォルトではすべての nonascii がエンコードされます
この関数を使用した場合の値。
- XNUMX つの文字列値を受け入れます
- 最初はエンコードしたい文字列です
- XNUMX 番目は、安全でない文字を含む文字列です
- 文字列値を返す
dc - 文字列から不要な文字を削除します (
-tr_del_chr オプション)
- XNUMX つの文字列値を受け入れます
- 最初は削除したい文字列です
- XNUMX 番目は、削除する文字を含む文字列です。
- 文字列値を返します
tc -文字列内の文字を他の文字に置き換えます(同様の機能があります
as -tr_chr_chr オプション)
- XNUMX つの文字列値を受け入れます
- 最初は、文字を置換したい文字列です
- XNUMX 番目は、置き換えたい文字のセットです
- XNUMX 番目は、置換する文字のセットです
- 文字列値を返します
ts - 文字列内の一部の文字列を他の文字列に置き換えます (同様のものを持っています
としての機能 -tr_str_str オプション)
- XNUMX つの文字列値を受け入れます
- 最初は文字列を置き換えたい文字列です
- XNUMX 番目は from 文字列です
- XNUMXつ目はストリングです
- 文字列値を返します
SPN - 指定されたセットのみを含む文字列の初期長を計算します
文字。 (と同じ機能を持っています strspn() libc 関数)
- XNUMX つの文字列値を受け入れます
- 最初は入力文字列です
- XNUMX 番目は許容される文字のセットです
- 数値を返す
cspn - 指定されたセットを含まない文字列の最初の長さを計算します
文字。 (と同じ機能を持っています strcspn() libc 関数)
- XNUMX つの文字列値を受け入れます
- 最初は入力文字列です
- XNUMX 番目は使用できない文字のセットです
- 数値を返す
sl - 文字列の長さを計算する
- XNUMX つの文字列値を受け入れます
- 数値を返す
ns - 数値をフォーマットごとに文字列に変換
- XNUMX つのパラメーターを受け入れます
- 最初のパラメータは for と同じフォーマット文字列です printf() function
- 秒は変換したい数値です
- 文字列値を返します
lc - 文字列内で指定された文字が最後に出現した位置を返す
- XNUMX つの文字列パラメータを受け入れます
- 検索する最初の文字列
- XNUMX 番目の文字列には、探している文字が含まれています
- 数値を返す
+ - XNUMX つの数値を加算
- XNUMX つの数値を受け入れます
- 数値を返す
- - XNUMX つの数値を減算します
- XNUMX つの数値を受け入れます
- 数値を返す
% - モジュロ加算
- XNUMX つの数値を受け入れます
- 数値を返す
* - 複数の XNUMX つの数値
- XNUMX つの数値を受け入れます
- 数値を返す
/ - XNUMX つの数値を除算する
- XNUMX つの数値を受け入れます
- 数値を返す
rmpar - クエリ文字列からパラメータを削除
- XNUMX つの文字列を受け入れます
- 最初の弦は調整中の弦です
- XNUMX 番目のパラメーターは、削除する必要があるパラメーターの名前です
- 調整された文字列を返します
取得 - クエリ文字列パラメータ値を取得
- XNUMX つの文字列を受け入れます
- 最初の文字列は、パラメータを取得するクエリ文字列です
値 (通常 %s)
- XNUMX 番目の文字列は、取得するパラメーターの名前です
値
- パラメータの値または空の文字列を返します
存在しません
シフ - 論理的な決定
- XNUMX つのパラメータを受け入れます
- 最初は数値であり、この決定の結果よりもゼロの場合
は XNUMX 番目のパラメーターの結果、それ以外の場合は XNUMX 番目の結果
パラメーター
- XNUMX 番目のパラメーターは文字列です
- XNUMX 番目のパラメーターは文字列です
- 判定結果を文字列で返す
! - 論理的でない
- XNUMX つの数値パラメーターを受け入れます
- パラメータの否定を返す
& - 論理的および
- XNUMX つの数値パラメータを受け入れます
- パラメータの論理和を返します
| - 論理的または
- XNUMX つの数値パラメータを受け入れます
- パラメータの論理和を返します
取得テキスト - ファイル拡張子を取得
- XNUMX つの文字列 (ファイル名またはパス) を受け入れる
- パラメータの拡張子を含む文字列を返す
seq - XNUMX つの文字列を比較する
- 比較のために XNUMX つの文字列を受け入れます
- 数値を返す 0 - 異なる場合 1 - 等しい場合
JSF - JavaScript 関数の実行
- の名前を保持する XNUMX つの文字列パラメーターを受け入れます
読み込まれたスクリプトで指定された JavaScript 関数
-js_script_file オプションを選択します。
- の戻り値と等しい文字列値を返します
JavaScript関数
- この関数は、pavuk がコンパイルされている場合にのみ使用できます
JavaScript バインディングをサポート
たとえば、膨大な数のインターネット サイトを同じサイトにミラーリングしている場合、
ローカル ディレクトリでは、XNUMX つのディレクトリにエントリが多すぎると、パフォーマンスが低下するはずです
問題。 たとえば、 うーん or md5 追加の XNUMX つを生成する関数
次のオプションのいずれかを使用して、ホスト名に基づくハッシュディレクトリのレベル:
-fnrules F 「*」 '(sc (NC "%02d/" (ふーん %h 100)) %o)'
-fnrules F 「*」 '(sc (ss (MD5 %h) 0 2) %o)'
-base_level $nr
ローカル ツリーで除外するディレクトリ レベルの数。
例えばURLをダウンロードする場合 ftp://ftp.idata.sk/pub/unix/www/pavuk-0.7pl1.tgz
コマンドラインで入力します -base_level 4 ローカルツリーに作成されます
www/pavuk-0.7pl1.tgz は ftp/ftp.idata.sk_21/pub/unix/www/pavuk-0.7pl1.tgz ではありません
正常に。
-default_prefix $ str
ミラーリングされたディレクトリのデフォルトのプレフィックス。 このオプションは、試している場合にのみ使用されます
を使用してダウンロードされたリモート ディレクトリのコンテンツを同期するには -base_level
オプション。 また、URL ベースではなく、ディレクトリ ベースの同期方法を使用する必要があります。
同期方法。 これは、
-remove_old オプションを選択します。
-remove_adv/-noremove_adv
このオプションは、HTML タグの削除のオン/オフを切り替えるために使用されます。
広告バナー。 バナーは HTML ファイルから削除されませんが、
コメントアウトしました。 そのような URL もダウンロードされません。 このオプションは効果があります
オプション使用時のみ -adv_re. デフォルトはオフです。 このオプションは
システムがサポートされている通常のいずれかをサポートしている場合にのみ使用できます
式の実装。
-adv_re $RE
このオプションは、次の URL に一致する正規表現を指定するために使用されます。
広告バナー。 例: -adv_re http://ad.doubleclick.net/。* 使用されている
サーバー ad.doubleclick.net のすべてのファイルに一致します。 このオプションは、
システムにサポートされている正規表現の実装がある場合。
-unique_name/-nounique_name
デフォルトの Pavuk は、常に一意の URL に一意のローカル ファイル名を割り当てようとします。 もしも
この動作は望ましくないため、オプションを使用できます -nounique_name これを無効にします。
その他 オプション
-睡眠 $nr
このオプションを使用すると、プログラムの実行中に秒数を指定できます。
XNUMX 回の転送の間で中断されます。 サーバーの過負荷を防ぐのに役立ちます。 のデフォルト値
このオプションは 0 です。
-rsleep/-norsleep
このオプションが有効な場合、pavuk は転送間のスリープ時間をランダム化します
で指定された値とゼロの間の間隔 -睡眠 オプション。 デフォルトはこれ
オプション無効。
-日 $nr
ドキュメントの変更時刻が $nr 日後にある場合、同期モード pavuk
リモート サーバーからドキュメントの新しいコピーを取得しようとします。 デフォルト値は 0 です。
-remove_old/-noremove_old
不適切なドキュメント (リモート サイトに存在しないドキュメント) を削除します。 このオプション
ディレクトリベースで使用された場合にのみ効果があります sync モード。 URL ベースで使用する場合
同期モードでは、pavuk はドキュメントから除外された古いファイルを削除しません
ツリーであり、どの HTML ドキュメントでも参照されていません。 オプションも使用する必要があります
-サブディレクトリ、pavuk が現在のミラーに属するファイルを検索できるようにします。 デフォルトのパブクとして
古いファイルは削除されません。
-ブラウザ $ str
ブラウザコマンドを設定するために使用されます(URLツリーダイアログで右クリックして
メニューを上げて、実際に選択した URL でブラウザを起動できます)。 これ
このオプションは、GTK GUI でコンパイルされ、URL ツリーがサポートされている場合にのみ使用できます
プレビュー
-debug/-nodebug
デバッグ メッセージの表示をオンにします。 このオプションは、コンパイル時にのみ使用できます
-DDEBUG を使用。 -debug オプションを使用すると、pavuk は詳細な情報を出力します
ドキュメント、全体のプロトコル レベル情報、ロック情報など (依存する
on -debug_level 設定)。 このオプションは、トリガーのように使用して、出力を有効にします。
によって選択されたデバッグ メッセージ -debug_level オプション。 デフォルトでは、デバッグ モードはオフになっています。
-debug_level $レベル
必要なデバッグ情報のレベルを設定します。 $レベル 数値にすることができます
要求されたデバッグ レベルのバイナリ マスク、またはカンマ区切りのリストを表す
サポートされているデバッグ レベル。 現在、pavuk は次のデバッグ レベルをサポートしています。
HTML - HTML パーサーのデバッグ用
PROTOS - サーバー側のプロトコル メッセージを表示するには
プロトコル - クライアント側のプロトコル メッセージを表示するには
procs - いくつかの特別な手続き呼び出しを見る
ロック - ドキュメントのロックのデバッグ用
net - 低レベルのネットワーク関連のデバッグ用
miscの - その他のソートされていないデバッグ メッセージ用
user - 詳細なユーザー レベル メッセージ用
を - 現在サポートされているすべてのデバッグ レベルを要求する
MTロック - マルチスレッド環境でのリソースのロック
ずっと - マルチスレッド環境でのスレッドの起動/弱体化/スリープ/停止
プロトド - POST リクエストのデバッグ用
制限 - 制限オプションのデバッグでは、特定の理由が表示されます。
URL は pavuk によって拒否され、どのオプションが原因でしたか。
SSL - SSL 関連の詳細レポートを有効にします。
-remind_cmd $ str
このオプションは、pavuk を実行している場合にのみ有効です。 リマインダー モード。 命じる
このオプションで指定された pavuk は、実行中のリマインダー モードの結果を送信します。 がある
変更された URL とエラーのある URL をリストします。 デフォルト通知
コマンドは "mailx user@server -s \"pavuk リマインダー結果\"" です。
-nscache_dir $ディレクトリ
Netscape ブラウザのキャッシュ ディレクトリへのパス。 このパスを指定すると、pavuk は試行します。
このキャッシュに URL があるかどうかを調べます。 URL が存在する場合は取得されます。
pavuk はネットからダウンロードします。 キャッシュ ディレクトリ インデックス ファイルには名前を付ける必要があります
インデックス.db キャッシュ ディレクトリに配置する必要があります。 この機能をサポートするには、
pavuk は BerkeleyDB 1.8x とリンクする必要があります。
-mozcache_dir $ディレクトリ
Mozilla ブラウザのキャッシュ ディレクトリへのパス。 以前と同じ機能
オプション、異なるキャッシュ形式の異なるブラウザ用です。 パヴクがサポート
Mozilla ブラウザーのディスク キャッシュの両方の形式 (バージョン <0.9 では古いものであり、
0.9=<)。 古い形式のキャッシュ ディレクトリには、キャッシュ ディレクトリ インデックス データベースが含まれている必要があります
名前付き キャッシュ.db. 次に、新しい形式のキャッシュ ディレクトリにマップ ファイルを含める必要があります
_キャッシュマップ_、および XNUMX つのブロック ファイル _CACHE_001_, _CACHE_002_, _CACHE_003_。 へ
古い Mozilla キャッシュ形式をサポートします。pavuk は BerkeleyDB 1.8x とリンクする必要があります。 新しい
Mozilla キャッシュ形式は、外部ライブラリを必要としません。
-post_cmd $ str
のダウンロードが成功した後に実行される後処理コマンド
資料。 このコマンドは、何らかの方法でドキュメントを処理する場合があります。 走行時間中
このコマンドを実行すると、pavuk は実際のドキュメントをロックしたままにするため、一部のドキュメントがロックされる可能性はありません。
他の pavuk プロセスはドキュメントを変更します。 この後処理コマンドは取得します
pavuk からの XNUMX つの追加パラメーター。
- ドキュメントのローカル名
- 1/0 ドキュメントが HTML ドキュメントの場合は 1、そうでない場合は 0
- このドキュメントの元の URL
-hack_add_index/-nohack_add_index
これは少しハッキーなオプションです。 pavuk を URL キューにもディレクトリに追加するように強制します
キューに入れられたすべてのドキュメントのインデックス。 これにより、pavuk は からより多くのドキュメントをダウンロードできます。
これは、HTML ドキュメントの通常のトラバースで達成できるよりも優れています。 ちょっと汚い
しかし、場合によっては役立ちます。
-js_script_file $ file
Pavuk には、高レベルを許可する組み込みの JavaScript インタープリターがオプションで用意されています。
一部の内部手順のカスタマイズ。 現在、カスタマイズが許可されています
独自の JavaScript 関数を使用して XNUMX つのことを行います。 あなたはそれを使用して正確に設定することができます
オプションを制限するか、ルール内で使用できる独自の関数を作成できます
-fnrules オプション。 このオプションを使用すると、関数を含む JavaScript スクリプトをロードできます
pavuks 内部 JavaScript インタープリターに。 この機能の詳細については、
トップレベルのpavukソースに付属する別のドキュメントjsbind.txtを読んでください
ディレクトリ。 このオプションは、pavuk をサポート付きでコンパイルした場合にのみ使用できます。
JavaScript バインディング用。
EXIT ステータス
バージョン 0.9pl29 以降、pavuk は終了コードによるステータスの表示を変更しました。 以前に
バージョンの終了ステータス 0 はエラーなしで、ゼロ以外の終了ステータスは count のようなものでした
失敗したドキュメントの。 0.0pl29 以降のすべてのバージョンでは、次の終了コードが定義されています。
0 - エラーなし、すべて問題なし
1 - pavuk オプションの構成エラーまたは
設定ファイルのエラー
2 - ドキュメントのダウンロード中にエラーが発生しました
環境 変数
USER 変数は、ユーザーとホスト名から電子メール アドレスを作成するために使用されます
LC_ * or 言語
国際化された環境を設定するために使用されます
PAVUKRC_FILE
この変数を使用すると、pavukrc の別の場所を指定できます
設定ファイル
REQUIRED 外部 プログラム
at スケジューリングに使用されます。
gunzip gzip のデコードまたはエンコードされたドキュメントの圧縮に使用されます。
バグ
見つけた場合は、お知らせください。
onworks.net サービスを使用して pavuk オンラインを使用する