Dies ist der Befehl pavuk, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
pavuk – rekursiver Dokumentenabruf über HTTP, HTTP über SSL, FTP, FTP über SSL und Gopher
Programm
ZUSAMMENFASSUNG
Pavuk [-Modus {normal | wiederaufnehmenregets | einzelne Seite | singlereget | synchronisieren | nicht speichern | ftpdir
| Spiegel}] [-X] [-runX] [-bg/-nobg] [prefs/-noprefs] [-H] [-v] [-progress/-noprogress]
[-stime/-nostime] [-xmaxlog $nr] [-Logdatei $datei] [-slogfile $datei] [-auth_file $datei]
[-msgcat $dir] [-Sprache $str] [-gui_font $font] [-quiet/-verbose [-read_css/-noread_css]
[-cdir $dir] [-scndir $dir] [-Szenario $str] [-dumpscn $Dateiname] [-lmax $nr] [-dmax $nr]
[-leave_level $nr] [-maximale Größe $nr] [-minsize $nr] [-eine Seite $list] [-dsite $list] [-Domäne
$list] [-ddomain $list] [-asfx $list] [-dsfx $list] [-apräfix $list] [-dprefix $list]
[-amimt $list] [-dmimet $list] [-Muster $muster] [-url_pattern $muster] [-rpattern
$regexp] [-url_rpattern $regexp] [-skip_pattern $muster] [-skip_url_pattern $muster]
[-skip_rpattern $regexp] [-skip_url_rpattern $regexp] [-neuer als $Zeit] [-älter als
$Zeit] [-Zeitplan $Zeit] [-neu planen $nr] [-dont_leave_site/-leave_site]
[-dont_leave_dir/-leave_dir] [-HTTP-Proxy $site[:$port]] [-ftp_proxy $site[:$port]]
[-ssl_proxy $site[:$port]] [-gopher_proxy $site[:$port]] [-ftp_httpgw/-noftp_httpgw]
[-ftp_dirtyproxy/-noftp_dirtyproxy] [-gopher_httpgw/-nogopher_httpgw] [-noFTP/-FTP]
[-noHTTP/-HTTP] [-noSSL/-SSL] [-noGopher/-Gopher] [-FTPdir/-noFTPdir] [-noCGI/-CGI]
[-FTPlist/-noFTPlist] [-FTPhtml/-noFTPhtml] [-noRelocate/-Relocate]
[-force_reget/-noforce_reget] [-nocache/-cache] [-check_size/-nocheck_size]
[-noRobots/-Robots] [-noEnc/-Enc] [-auth_name $Benutzer] [-auth_passwd $pass] [-auth_scheme
1/2/3/4/Benutzer/Basic/Digest/NTLM] [-auth_reuse_nonce/-no_auth_reuse_nonce] [-http_proxy_user
$Benutzer] [-http_proxy_pass $pass] [-http_proxy_auth 1/2/3/4/Benutzer/Basic/Digest/NTLM]
[-auth_reuse_proxy_nonce/-no_auth_reuse_proxy_nonce] [-ssl_key_file $datei] [-ssl_cert_file
$datei] [-ssl_cert_passwd $pass] [-aus $email] [-send_from/-nosend_from] [-Identität $str]
[-auto_referer/-noauto_referer] [-referer/-noreferer] [-alang $list] [-acharset $list]
[-wiederholen $nr] [-nregets $nr] [-nredirs $nr] [-rollback $nr] [-schlafen $nr] [-Auszeit $nr]
[-preserve_time/-nopreserve_time] [-preserve_perm/-nopreserve_perm]
[-preserve_slinks/-nopreserve_slinks] [-bufsize $nr] [-Maximale Rate $nr] [-minrate $nr]
[-user_condition $str] [-cookie_file $datei] [-cookie_send/-nocookie_send]
[-cookie_recv/-nocookie_recv] [-cookie_update/-nocookie_update] [-cookies_max $nr]
[-disabled_cookie_domains $list] [-disable_html_tag $TAG,[$ATTRIB][;...]]
[-enable_html_tag $TAG,[$ATTRIB][;...]] [-tr_del_chr $str] [-tr_str_str $str1 $str2]
[-tr_chr_chr $chrset1 $chrset2] [-index_name $str] [-store_index/-nostore_index]
[-store_name $str] [-debug/-nodebug] [-Debug-Ebene $level] [-Browser $str] [-urls_file
$datei] [-file_quota $nr] [-trans_quota $nr] [-fs_quota $nr] [-enable_js/-disable_js]
[-fnrules $t $m $r] [-store_info/-nostore_info] [-all_to_local/-noall_to_local]
[-sel_to_local/-nosel_to_local] [-all_to_remote/-noall_to_remote] [-url_strategie
$strategie] [-remove_adv/-noremove_adv] [-adv_re $RE] [-check_bg/-nocheck_bg]
[-send_if_range/-nosend_if_range] [-sched_cmd $str] [-unique_log/-nounique_log] [-post_cmd
$str] [-ssl_version $v] [-unique_sslid/-nounique_sslid] [-aip_pattern $re] [-dip_pattern
$re] [-use_http11/-nouse_http11] [-local_ip $addr] [-Anfrage $req] [-Formulardaten $req]
[-httppad $str] [-nthreads $nr] [-immesg/-noimmesg] [-dumpfd $nr] [-dump_urlfd $nr]
[-unique_name/-nounique_name] [-leave_site_enter_dir/-dont_leave_site_enter_dir]
[-max_time $nr] [-del_after/-nodel_after] [-singlepage/-nosinglepage]
[-dump_after/-nodump_after] [-dump_response/-nodump_response] [-auth_ntlm_domain $str]
[-auth_proxy_ntlm_domain $str] [-js_pattern $re] [-follow_cmd $str]
[-retrieve_symlink/-noretrieve_symlink] [-js_transform $p $t $h $a] [-js_transform2 $p $t
$h $a] [-ftp_proxy_user $str] [-ftp_proxy_pass $str] [-limit_inlines/-dont_limit_inlines]
[-ftp_list_options $str] [-fix_wuftpd_list/-nofix_wuftpd_list]
[-post_update/-nopost_update] [-info_dir $dir] [-mozcache_dir $dir] [-aport $list] [-dport
$list] [-hack_add_index/-nohack_add_index] [-default_prefix $str] [-rsleep/-norsleep]
[-ftp_login_handshake $ Gastgeber $handshake] [-js_script_file $datei] [-dont_touch_url_pattern
$pat] [-dont_touch_url_rpattern $pat] [-dont_touch_tag_rpattern $pat] [-tag_pattern $tag
$attrib $url] [-tag_rpattern $tag $attrib $url] [-nss_cert_dir $dir]
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
[-nss_domestic_policy/-nss_export_policy] [-[no]bestätigen] [-tlogfile $datei] [-relativ
{Objekt | Programm}] [-transparent_proxy FQDN[:Port]] [-transparent_ssl_proxy FQDN[:Port]]
[-sdemo] [-noencode] [URLs]
Pavuk -Modus {normal | einzelne Seite | singlereget} [-Basis Level $nr]
Pavuk -Modus synchronisieren [-Tage $nr] [-Unterverzeichnis $dir] [-remove_old/-noremove_old]
Pavuk -Modus wiederaufnehmenregets [-Unterverzeichnis $dir]
Pavuk -Modus Linkaktualisierung [-X] [-H] [-v] [-cdir $dir] [-Unterverzeichnis $dir] [-scndir $dir]
[-Szenario $str]
Pavuk -Modus Erinnerung [-remind_cmd $str]
Pavuk -Modus Spiegel [-Unterverzeichnis $dir] [-remove_old/-noremove_old]
[-remove_before_store/-noremove_before_store] [-always_mdtm/-noalways_mdtm]
BESCHREIBUNG
Diese Handbuchseite beschreibt die Verwendung von Pavuk. Pavuk kann zum Spiegeln von Inhalten verwendet werden
Internet-/Intranet-Server zu verwalten und Kopien in einem lokalen Dokumentenbaum zu verwalten. Pavuk
speichert abgerufene Dokumente im lokal zugeordneten Speicherplatz. Die Struktur des lokalen Baums
ist derselbe wie der auf dem Remote-Server. Jeder unterstützte Dienst (Protokoll) hat sein eigenes
Unterverzeichnis im lokalen Baum. Jeder referenzierte Server hat darin ein eigenes Unterverzeichnis
Unterverzeichnisse „Protokolle“; gefolgt von der Portnummer, auf der sich der Dienst befindet,
durch Zeichen getrennte Werte können geändert werden. Mit der Option -fnrules du kannst das ändern
Standardlayout des lokalen Dokumentbaums, ohne dass die Linkkonsistenz verloren geht.
Mit Pavuk Es ist möglich, aktuelle Kopien von Remote-Dokumenten auf der lokalen Festplatte zu haben
Raum.
Ab Version 0.3pl2 kann Pavuk unterbrochene Verbindungen automatisch neu starten und wiederherstellen
Teilinhalt von einem FTP-Server (der das unterstützen muss REST Befehl), von einem ordnungsgemäß
konfigurierter HTTP/1.1-Server oder von einem HTTP/1.0-Server, der dies unterstützt Bereiche.
Ab Version 0.6 ist es möglich, Konfigurationen über sogenannte Szenarien abzuwickeln. Der
Der beste Weg, eine solche Konfigurationsdatei zu erstellen, besteht darin, einfach die X-Window-Schnittstelle zu verwenden
Speichern Sie die erstellte Konfiguration. Die andere Möglichkeit besteht darin, den Schalter -dumpscn zu verwenden.
Ab Version 0.7pl1 ist es möglich, Authentifizierungsinformationen in einer Authinfo zu speichern
Datei, die Pavuk dann analysieren und verwenden kann.
Ab Version 0.8pl4 kann Pavuk Dokumente zur Verwendung auf einem lokalen Proxy-/Cache-Server abrufen
ohne sie im lokalen Dokumentenbaum zu speichern.
Ab Version 0.9pl4 unterstützt Pavuk SOCKS (4 / 5) Proxys, wenn Sie über die erforderlichen verfügen
Bibliotheken.
Ab Version 0.9pl12 kann Pavuk Berechtigungen von Remote-Dateien und symbolischen Links beibehalten,
Daher kann es für eine leistungsstarke FTP-Spiegelung verwendet werden.
Pavuk unterstützt SSL-Verbindungen zu FTP-Servern, wenn Sie stattdessen die URL ftps:// angeben
ftp://.
Pavuk kann Dateinamen mit unsicheren Zeichen für das Dateisystem automatisch verarbeiten. Das ist
ist jedoch nur für die Win32-Plattform implementiert und fest codiert.
Pavuk kann nun nutzen HTTP / 1.1 Protokoll zur Kommunikation mit HTTP-Servern. Es kann verwendet werden
Da es sich um dauerhafte Verbindungen handelt, sollte für die Übertragung mehrerer Dokumente eine TCP-Verbindung verwendet werden
ohne es zu schließen. Diese Funktion spart Netzwerkbandbreite und beschleunigt auch das Netzwerk
Kommunikation.
Pavuk kann konfigurierbar sein jetzt lesen Anfragen an HTTP-Server und unterstützen auch das Hochladen von Dateien
per HTTP-POST-Anfrage.
Pavuk kann gefundene HTML-Formulare automatisch ausfüllen, wenn der Benutzer Daten für seine Felder bereitstellt
vorher mit Option -Formulardaten.
Pavuk kann eine konfigurierbare Anzahl gleichzeitig laufender Download-Threads ausführen
kompiliert mit Multithreading-Unterstützung.
Format of unterstützt URLs
HTTP
http://[[user][:password]@]host[:port][/document]
[[Benutzer][:Passwort]@]Host[:Port][/Dokument]
HTTPS
https://[[user][:password]@]host[:port][/document]
ssl[.domain][:port][/document]
fTP
ftp://[[user][:password]@]host[:port][/relative_path][;type=x]
ftp://[[Benutzer][:Passwort]@]Host[:Port][//absoluter_Pfad][;Typ=x]
ftp[.domain][:port][/document][;type=x]
FTPS
ftps://[[user][:password]@]host[:port][/relative_path][;type=x]
ftps://[[Benutzer][:Passwort]@]Host[:Port][//absoluter_Pfad][;Typ=x]
ftps[.domain][:port][/document][;type=x]
Ziesel
gopher://host[:port][/type[document]]
gopher[.domain][:port][/type[document]]
Standard Mapping of URLs zu aus einer regionalen Dateinamen
HTTP
http://[[user][:password]@]host[:port][/document][?query]
zu
http/host_port/[document][?query]
HTTPS
https://[[user][:password]@]host[:port][/document][?query]
zu
https/host_port/[document][?query]
fTP
ftp://[[Benutzer][:Passwort]@]Host[:Port][/Pfad]
zu
ftp/host_port/[Pfad]
FTPS
ftps://[[Benutzer][:Passwort]@]Host[:Port][/Pfad]
zu
ftps/host_port/[Pfad]
Ziesel
gopher://host[:port][/type[document]]
zu
gopher/host_port/[Typ[Dokument]]
Anmerkungen: Pavuk verwendet die Zeichenfolge, mit der es den Zielserver abfragt, als Namen des
Ergebnisdatei. Dieser Dateiname kann in manchen Fällen Satzzeichen enthalten, z $,?,=,& usw.
Eine solche Zeichensetzung kann zu Problemen führen, wenn Sie versuchen, heruntergeladene Dateien zu durchsuchen
Ihr Browser oder Sie versuchen, heruntergeladene Dateien mit Shell-Skripten zu verarbeiten oder anzuzeigen
Dateien mit Dateiverwaltungsprogrammen, die auf den Namen der Ergebnisdatei verweisen. Wenn du
Glauben Sie, dass dies möglicherweise Probleme für Sie verursacht, dann können Sie alle Satzzeichen entfernen
den Namen der Ergebnisdatei mit der Option: -tr_del_chr [:punkt:] oder mit anderen Optionen für
Dateinamen anpassen.
OPTIONAL
Bei allen Optionen wird die Groß-/Kleinschreibung nicht beachtet.
Liste of Optionen Kapitel
Model
Hilfe
Angeben/Protokollierung/Schnittstelle Optionen
Netli Optionen
Spezial Anfang
Szenario/Aufgabe Optionen
Verzeichnis Optionen
Bewahren Optionen
Proxy Optionen
Proxy Authentification
Protokoll/Download Option
Authentification
Site/Domäne/Port Einschränkung Optionen
Einschränkung Dokument immobilien
Einschränkung Dokument Name
Einschränkung Protokoll Option
Andere Einschränkung Optionen
Javascript Unterstützung
Cookie
HTML Umschreibung Sie Abstimmung Optionen
Dateiname/URL Umwandlung (Conversion) Option
Andere Optionen
Model
-Modus {normal, Linkaktualisierung, synchronisieren, einzelne Seite, Singlereget, Lebenslaufregets}
Betriebsart einstellen.
normal - Ruft rekursive Dokumente ab
Linkaktualisierung - Aktualisieren Sie Remote-URLs in lokalen HTML-Dokumenten auf lokale URLs, wenn diese URLs vorhanden sind
existieren im lokalen Baum
synchronisieren - Remote-Dokumente mit dem lokalen Baum synchronisieren (wenn es sich um eine lokale Kopie eines Dokuments handelt).
älter als remote ist, wird das Dokument erneut abgerufen, sonst passiert nichts)
einzelne Seite - Die URL wird als eine Seite mit allen Inline-Objekten (Bild, Ton) abgerufen
...) Dieser Modus ist mittlerweile veraltet -einzelne Seite .
wiederaufnehmenregets - pavuk durchsucht den lokalen Baum nach Dateien, die nicht vollständig abgerufen wurden
und ruft sie erneut ab (verwendet, wenn möglich, partielles Get)
singlereget - URL abrufen, bis sie vollständig abgerufen ist
nicht speichern - Seite vom Server übertragen, aber nicht im lokalen Baum speichern. Das
Der Modus eignet sich zum Abrufen von Seiten, die auf einem lokalen Proxy-/Cache-Server gespeichert sind.
Erinnerung - wird verwendet, um den Benutzer über geänderte Dokumente zu informieren
ftpdir - Wird zum Auflisten des Inhalts von FTP-Verzeichnissen verwendet
Der Standardbetriebsmodus ist normal Modus arbeiten können.
Hilfe
-h Gibt eine lange, ausführliche Hilfemeldung aus
-v Versionsinformationen und Konfiguration zur Kompilierungszeit anzeigen.
Angeben/Protokollierung/Schnittstelle Optionen
-ruhig Keine Meldungen auf dem Bildschirm anzeigen.
-verbose
Anzeige von Ausgabemeldungen auf dem Bildschirm erzwingen (Standard)
-progress/-noprogress
Abruffortschritt anzeigen, während er im Terminal ausgeführt wird (Standard ist Fortschritt deaktiviert)
-stime/-nostime
Start- und Endzeit der Übertragung anzeigen. (Standardmäßig werden diese Informationen nicht angezeigt)
-xmaxlog $nr
Maximale Anzahl von Protokollzeilen im Protokoll-Widget. 0 bedeutet unbegrenzt. Diese Option ist
Nur verfügbar, wenn mit der GTK+-GUI kompiliert wird. (Standardwert ist 0)
-Logdatei $ file
Datei, in der alle erzeugten Nachrichten gespeichert werden.
-unique_log/-nounique_log
Wenn Protokolldatei wie mit der Option angegeben -Logdatei wird bereits von einem anderen verwendet
Versuchen Sie, einen neuen eindeutigen Namen für die Protokolldatei zu generieren. (Standard ist diese Option
ausgeschaltet)
-slogfile $ file
Datei zum Speichern von Kurzprotokollen. Diese Datei enthält jeweils eine Zeile mit Informationen
verarbeitetes Dokument. Dies soll in Verbindung mit jeder Art von Skript verwendet werden
um Statistiken zu erstellen, Links auf Ihrer Website zu validieren oder zu generieren
einfache Sitemaps. Mehrere Pavuk-Prozesse können diese Datei gleichzeitig verwenden, ohne dass dies erforderlich ist
überschreiben sich gegenseitig die Einträge. Datensatzstruktur:
- PID des Pavuk-Prozesses
- ZEIT- aktuelle Uhrzeit
- COUNTER im Format aktuelle/Gesamtzahl der URLs
- STATUS enthält die Art des Fehlers: FATAL, ERR,
WARN oder OK
- FEHLERCODE ist der Nummerncode des Fehlers
(siehe errcode.h in Pavuk-Quellen)
- URL des Dokuments
- PARENTURL erstes übergeordnetes Dokument dieser URL
(Wenn es kein übergeordnetes Element hat – [keine])
- DATEINAME ist der Name der lokalen Datei
Das Dokument wird unter gespeichert
- GRÖßE Größe des angeforderten Dokuments, falls bekannt
- DOWNLOAD_TIME Zeit, die das Herunterladen davon in Anspruch nimmt
Dokument im Format Sekunden.Mili_Sekunden
- HTTPRESP enthält die erste Zeile des HTTP-Servers
Antwort
-Sprache $str
Muttersprache, die Pavuk für die Kommunikation mit seinem Benutzer verwenden sollte (funktioniert nur).
wenn es einen Nachrichtenkatalog für diese Sprache gibt) GNU gettext Support (für Nachricht
Internationalisierung) muss ebenfalls einkompiliert werden. Die Standardsprache wird von Ihrer übernommen
NLS-Umgebungsvariablen.
-gui_font $ font
Schriftart, die in der GUI-Schnittstelle verwendet wird. Um die verfügbaren X-Schriftarten aufzulisten, verwenden Sie die xlsfonts Befehl.
Diese Option ist nur verfügbar, wenn mit GTK+-GUI-Unterstützung kompiliert wird.
Netli Optionen
-[no]read_css
Aktivieren oder deaktivieren Sie das Abrufen von Objekten, die in Stylesheets erwähnt werden.
-[nein]überprüfen
Aktivieren oder deaktivieren Sie die Überprüfung von Server-CERTS im SSL-Modus.
-tlogfile $ file
Aktivieren Sie die Netli-Protokollierung mit Ausgabe in die angegebene Datei.
-relativ {Objekt | Programm}
Machen Sie Netli-Timings relativ zum Start des ersten Objekts oder Programms.
-transparenter_Proxy FQDN[:Port]
Wenn Sie eine URL verarbeiten, senden Sie das Original, aber senden Sie es an die IP-Adresse unter FQDN
-transparent_ssl_proxy FQDN[:Port]
Wenn Sie eine HTTPS-URL verarbeiten, senden Sie das Original, aber senden Sie es an die IP-Adresse unter FQDN
-sdemo Ausgabe im Sdemo-kompatiblen Format. Dies wird nur von sdemo verwendet. (Im Moment ist es einfach
bedeutet, dass „-1“ anstelle von „*“ ausgegeben wird, wenn die Messungen ungültig sind.)
-noencode
Escapen Sie keine Zeichen, die in URLs „unsicher“ sind.
Spezial Anfang
-X Starten Sie das Programm mit der X-Window-Schnittstelle (sofern mit Unterstützung für GTK+ kompiliert). Pavuk
Standardmäßig startet es ohne GUI und verhält sich wie ein normales Befehlszeilentool.
-runX Bei Verwendung zusammen mit dem -X Option, Pavuk beginnt sofort mit der Verarbeitung von URLs
nachdem das GUI-Fenster gestartet wurde. Ohne das -X gegeben, diese Option ist nicht vorhanden
irgendeine Wirkung. Nur verfügbar, wenn mit GTK+-Unterstützung kompiliert.
-bg/-nobg
Mit dieser Option kann sich Pavuk von seinem Terminal trennen und im Hintergrundmodus laufen.
Pavuk wird dann keine Nachrichten an das Terminal ausgeben. Wenn du sehen willst
Nachrichten müssen Sie verwenden -Logdatei Option zum Angeben einer Datei, in der Nachrichten gespeichert werden
wird geschrieben werden. Standardmäßig wird Pavuk im Vordergrund ausgeführt.
-check_bg/-nocheck_bg
Normalerweise laufen Programme, die nach der Ausführung im Vordergrund in den Hintergrund geschickt werden, weiter
um Meldungen an das Terminal auszugeben. Wenn diese Option aktiviert ist, prüft Pavuk, ob
Es läuft als Hintergrundjob und schreibt keine Nachrichten an das Terminal
dieser Fall. Nachdem es wieder zum Vordergrundjob wird, beginnt es mit dem Schreiben von Nachrichten
auf dem normalen Weg zum Terminal. Diese Option ist nur verfügbar, wenn Ihr System
Unterstützt das Abrufen von Terminalinformationen über tc*() Funktionen.
-prefs/-noprefs
Wenn Sie diese Option aktivieren, behält Pavuk beim Beenden alle Einstellungen bei und
Wenn Sie Pavuk erneut mit der GUI-Schnittstelle ausführen, werden alle Einstellungen wiederhergestellt. Der
Die Einstellungen werden im gespeichert ~./pavuk_prefs Datei. Standard-Pavuk möchte seine wiederherstellen
Option beim Start. Diese Option ist nur verfügbar, wenn mit GTK+ kompiliert wird.
-Zeitplan $ Zeit
Führe Pavuk zu dem als Parameter angegebenen Zeitpunkt aus. Das Format des $time-Parameters
ist JJJJ.MM.TT.hh.mm. Sie benötigen eine ordnungsgemäß konfigurierte Planung mit dem at Befehl
auf Ihrem System, um diese Option nutzen zu können. Wenn die Standardkonfiguration (bei -f %f %t
%d.%m.%Y) des Planungsbefehls auf Ihrem System nicht funktioniert, versuchen Sie es mit anzupassen
-sched_cmd .
-neu planen $nr
Führen Sie Pavuk regelmäßig mit einem Zeitraum von $nr Stunden aus. Sie müssen richtig konfiguriert sein
Terminplanung mit der at Befehl auf Ihrem System, um diese Option zu verwenden.
-sched_cmd $str
Befehl zur Verwendung für die Planung. Pavuk unterstützt ausdrücklich die Planung mit at $str
sollte reguläre Zeichen und Makros enthalten, die mit einem Escapezeichen versehen sind % Charakter. Unterstützt
Makros sind:
%f
- für Skriptdateinamen
%t
- für die Zeit (im Format HH:MM)
- alle von der unterstützten Makros strftime () Funktion
-urls_file $ file
Wenn Sie diese Option verwenden, liest Pavuk vor dem Start URLs aus $file
wird bearbeitet. In dieser Datei muss jede URL in einer separaten Zeile stehen. Nach dem letzten
URL, ein einzelner Punkt . gefolgt von einem LF-Zeichen (Zeilenvorschub) kennzeichnet das Ende. Pavuk
beginnt mit der Verarbeitung, sobald alle URLs gelesen wurden. Wenn $ file ist gegeben als
die - Zeichen wird die Standardeingabe gelesen.
-store_info/-nostore_info
Diese Option bewirkt, dass Pavuk Informationen zu jedem Dokument separat speichert
Datei in das .pavuk_info Verzeichnis. In dieser Datei wird die Original-URL gespeichert
von dem das Dokument heruntergeladen wurde. Für Dateien, die über HTTP oder HTTPS heruntergeladen werden
Bei Protokollen wird dort der gesamte HTTP-Antwortheader gespeichert. Ich empfehle, dies zu verwenden
Option, wenn Sie Optionen verwenden, die das Standardlayout des lokalen ändern
Dokumentbaum, da diese Infodatei Pavuk dabei hilft, den lokalen Dateinamen dem zuzuordnen
URL. Diese Option ist auch sehr nützlich, wenn verschiedene URLs denselben Dateinamen haben
der heimische Baum. Wenn dies auftritt, erkennt Pavuk dies mithilfe von Infodateien und wird dies auch tun
Stellen Sie dem lokalen Namen Zahlen voran. Standardmäßig ist die Speicherung dieses Extras deaktiviert
Informationen.
-info_dir $dir
Mit dieser Option können Sie den Speicherort eines separaten Verzeichnisses zum Speichern von Infodateien festlegen
erstellt, wenn -store_info Option verwendet wird. Dies ist nützlich, wenn Sie nicht mischen möchten
im Zielverzeichnis die Infodateien mit regulären Dokumentdateien. Die Struktur
der Infodateien bleiben erhalten, werden lediglich in einem anderen Verzeichnis gespeichert.
-Anfrage $req
Mit dieser Option können Sie erweiterte Informationen für Start-URLs angeben. Mit
Mit dieser Option können Sie Abfragedaten angeben jetzt lesen or STARTE . Aktuelle Syntax davon
Option ist: URL:["]$url["] [METHODE:["]{GET|POST}["]] [ENCODING:["]{u|m}["]]
[FELD:["]Variable=Wert["]] [DATEI:["]Variable=Dateiname["]
[LNAME:["]local_filename["]]
- URL: Gibt die Anforderungs-URL an
- METHODE: Gibt die Anforderungsmethode für die URL an und ist
eine STARTE or jetzt lesen.
- CODIERUNG: Gibt die Kodierung für die Daten des Anforderungshauptteils an.
m ist für mehrteilige / Formulardaten Codierung
u ist für application / x-www-form-urlencoded
Codierung
- FELD: Gibt das Feld der Anforderungsdaten im Format an
Variable=Wert. Zur Kodierung von Sonderzeichen
in Variable und Wert Sie können dieselbe Codierung verwenden
wie es in verwendet wird application / x-www-form-urlencoded
Codierung.
- DATEI: Gibt ein spezielles Abfragefeld an
Wird verwendet, um die Datei anzugeben jetzt lesen basierten Datei-Upload.
- LNAME: Gibt den lokalen Namen für diese Anfrage an
Wenn Sie es im Inneren verwenden müssen FELD: und DATEI: Felder der Anforderungsspezifikation speziell
Zeichen, sollten Sie die verwenden application / x-www-form-urlencoded Kodierung von Zeichen.
Damit sind alle Nicht-ASCII-Zeichen, Anführungszeichen ("), Leerzeichen () und kaufmännische Und-Zeichen gemeint
Zeichen (&), Prozentzeichen (%) und Gleichheitszeichen (=) sollten im Formular kodiert werden %xx
woher xx ist eine hexadezimale Darstellung des ASCII-Werts eines Zeichens. Also zum Beispiel %
Das Zeichen sollte wie folgt codiert werden %25.
-Formulardaten $req
Mit dieser Option haben Sie die Möglichkeit, Inhalte für gefundene HTML-Formulare anzugeben
Durchlaufen des Dokumentenbaums.
Die aktuelle Syntax dieser Option ist dieselbe wie für -Anfrage Option, aber CODIERUNG: und
METHODE: sind in dieser Optionssemantik bedeutungslos.
In URL: Sie müssen die URL der HTML-Formularaktion angeben, mit der abgeglichen wird
Aktions-URLs, die in verarbeiteten HTML-Dokumenten gefunden werden. Wenn Pavuk die Aktions-URL findet, die
stimmt mit dem gelieferten überein -Formulardaten Option, Pavuk wird konstruieren STARTE or jetzt lesen Anforderung
aus den in dieser Option bereitgestellten Daten und aus den in bereitgestellten Standardformularfeldwerten
HTML-Dokument. In der Befehlszeile angegebene Werte haben Vorrang vor den angegebenen Werten
in einer HTML-Datei.
-n Threads $nr
Mit dieser Option können Sie festlegen, wie viele gleichzeitige Threads heruntergeladen werden
Unterlagen. Standardmäßig führt Pavuk drei gleichzeitige Download-Threads aus. Diese Option ist
Nur verfügbar, wenn Pavuk zur Unterstützung von Multithreading kompiliert ist.
-immesg/-noimmesg
Das Standardverhalten von Pavuks beim Ausführen mehrerer Download-Threads besteht darin, alle zu puffern
Geben Sie Nachrichten im Speicherpuffer aus und leeren Sie die gepufferten Daten genau beim Thread
beendet die Verarbeitung eines Dokuments. Mit dieser Option können Sie dieses Verhalten ändern
um die Nachrichten sofort zu sehen, wenn sie erstellt werden. Es ist nur nutzbar, wenn Sie
Ich möchte einige Besonderheiten in einer Multithreading-Umgebung debuggen. Diese Option ist
Nur verfügbar, wenn Pavuk zur Unterstützung von Multithreading kompiliert ist.
-dumpfd $nr
Für die Skripterstellung ist es manchmal sinnvoll, Dokumente direkt in die Pipe herunterladen zu können
oder Variable, anstatt sie in einer regulären Datei zu speichern. In einem solchen Fall können Sie dies verwenden
Option zum Ausgeben von Daten, beispielsweise nach stdout ($nr = 1).
-dump_after/-nodump_after
Bei der Verwendung von -dumpfd Option in Multithread-Pavuk, es ist erforderlich, das Dokument zu sichern
in einem Moment, da sich Dokumente, die in mehreren Threads heruntergeladen wurden, überschneiden können. Das
Die Option ist auch nützlich, wenn Sie ein Dokument sichern möchten, nachdem Pavuk die Links angepasst hat
in HTML-Dokumenten.
-dump_response/-nodump_response
Diese Option ist nur wirksam, wenn sie mit verwendet wird -dumpfd Möglichkeit. Es wird zum Dumpen von HTTP verwendet
Antwortheader.
-dump_urlfd $nr
Wenn Sie diese Option verwenden, gibt Pavuk alle in HTML-Dokumenten gefundenen URLs aus
zum Dateideskriptor $nr. Mit dieser Option können Sie alle URLs extrahieren und konvertieren
absolut.
Szenario/Aufgabe Optionen
-Szenario $str
Name des Szenarios, das geladen und/oder ausgeführt werden soll. Szenarien sind Dateien mit einer ähnlichen Struktur
zu den .pavukrc Datei. Szenarien enthalten gespeicherte Konfigurationen. Sie können es verwenden für
periodische Spiegelung. Parameter aus Szenarien, die in der Befehlszeile angegeben werden, können
durch Kommandozeilenparameter überschrieben werden. Um diese Option nutzen zu können, benötigen Sie
um das Basisverzeichnis des Szenarios mit der Option anzugeben -scndir.
-dumpscn $Dateiname
Speichern Sie die tatsächliche Konfiguration unter dem Namen in der Szenariodatei $Dateiname. Das ist nützlich
um schnell vorkonfigurierte Szenarien für die manuelle Bearbeitung zu erstellen.
Verzeichnis Optionen
-msgcat $dir
Verzeichnis, das den Nachrichtenkatalog für Pavuk enthält. Wenn du nicht hast
Sie sollten die Berechtigung zum Speichern eines Pavuk-Nachrichtenkatalogs im Systemverzeichnis haben
Erstellen Sie einfach eine ähnliche Verzeichnisstruktur in Ihrem Home-Verzeichnis wie dort
dein System.
Für Beispiel:
Ihre Muttersprache ist Deutsch und Ihr Home-Verzeichnis ist /home/jano.
Anschließend sollten Sie zunächst das Verzeichnis /home/jano/locales/de/LC_MESSAGES/ erstellen
Legen Sie dort das deutsche pavuk.mo ab und setzen Sie -msgcat auf /home/jano/locales/. Wenn Sie haben
Wenn Sie die Umgebungswerte für das Gebietsschema richtig festlegen, wird Pavuk Deutsch sprechen sehen. Das
Die Option ist nur verfügbar, wenn Sie mit Unterstützung für GNU-Gettext-Nachrichten kompiliert haben
Internationalisierung.
-cdir $dir
Verzeichnis, in dem alle abgerufenen Dokumente gespeichert werden. Wenn nicht angegeben, wird die
Das aktuelle Verzeichnis wird verwendet. Wenn das angegebene Verzeichnis nicht existiert, ist es vorhanden
erstellt.
-scndir $dir
Verzeichnis, in dem Ihre Szenarien gespeichert sind. Sie müssen diese Option verwenden, wenn Sie
Szenariodateien laden oder speichern.
Bewahren Optionen
-preserve_time/-nopreserve_time
Speichern Sie das heruntergeladene Dokument mit der gleichen Änderungszeit wie auf der Remote-Site.
Die Änderungszeit wird nur festgelegt, wenn solche Informationen verfügbar sind (einige FTP).
Server unterstützen das nicht MDTM Befehl, und einige Dokumente auf HTTP-Servern sind
online erstellt, sodass Pavuk die Änderungszeit dieses Dokuments nicht abrufen kann). Bei
Die Standardänderungszeit von Dokumenten wird nicht beibehalten.
-preserve_perm/-nopreserve_perm
Speichern Sie das heruntergeladene Dokument mit denselben Berechtigungen wie auf der Remote-Site. Das
Die Option hat nur Auswirkungen, wenn eine Datei über das FTP-Protokoll heruntergeladen wird, und setzt voraus
, dass die -ftplist Option verwendet wird. Standardmäßig bleiben Berechtigungen nicht erhalten.
-preserve_slinks/-nopreserve_slinks
Legen Sie symbolische Links so fest, dass sie genau auf denselben Ort wie auf dem Remote-Server verweisen. nicht
eventuelle Umzüge durchführen. Diese Option ist nur wirksam, wenn die Datei über FTP heruntergeladen wird
Protokoll und geht davon aus, dass die -ftplist Option verwendet wird. Standardmäßige symbolische Links sind
nicht erhalten und werden als reguläre Dokumente mit vollständigem Inhalt abgerufen und verlinkt
Datei.
Nehmen Sie beispielsweise an, dass auf dem FTP-Server ftp.xx.org ein symbolischer Link vorhanden ist
/pub/pavuk/pavuk-current.tgz, das auf /tmp/pub/pavuk-0.9pl11.tgz verweist. Pavuk
erstellt den symbolischen Link ftp/ftp.xx.org_21/pub/pavuk/pavuk-current.tgz
Wenn die Option -preserve_slinks verwendet wird, zeigt dieser symbolische Link auf
/tmp/pub/pavuk-0.9pl11.tgz
Wenn die Option -preserve_slinks verwendet werden soll, zeigt dieser symbolische Link auf
../../tmp/pub/pavuk-0.9pl11.tgz
-retrieve_symlink/-noretrieve_symlink
Rufen Sie Dateien hinter symbolischen Links ab, anstatt symbolische Links im lokalen Baum zu replizieren.
Proxy Optionen
-HTTP-Proxy $site[:$port]
Wenn dieser Parameter verwendet wird, laufen alle HTTP-Anfragen über diesen Proxy
Server. Dies ist nützlich, wenn sich Ihre Site hinter einer Firewall befindet oder Sie dies möchten
Verwenden Sie einen HTTP-Proxy-Cache-Server. Die Standard-Portnummer ist 8080. Pavuk erlaubt Ihnen
um mehrere HTTP-Proxys anzugeben (mithilfe mehrerer -http_proxy-Optionen), und das wird auch so sein
Rotieren Sie Proxys mit Roundrobin-Priorität und deaktivieren Sie Proxys mit Fehlern.
-nocache/-cache
Verwenden Sie diese Option immer dann, wenn Sie das Dokument direkt von der Website abrufen möchten
nicht von Ihrem HTTP-Proxy-Cache-Server. Der Standard-Pavuk ermöglicht die Übertragung von Dokumenten
Kopien aus dem Cache.
-ftp_proxy $site[:$port]
Wenn dieser Parameter verwendet wird, laufen alle FTP-Anfragen über diesen Proxy
Server. Dies ist nützlich, wenn sich Ihre Site hinter einer Firewall befindet oder wenn Sie dies möchten
Verwenden Sie den FTP-Proxy-Cache-Server. Die Standard-Portnummer ist 22. Pavuk unterstützt drei
Verschiedene Arten von Proxys für FTP finden Sie in den Optionen -ftp_httpgw, -ftp_dirtyproxy.
Wird keine der genannten Optionen genutzt, geht pavuk von einem regulären FTP-Proxy aus
mit USER Benutzer@Host Verbindung zum Remote-FTP-Server herstellen.
-ftp_httpgw/-noftp_httpgw
Der angegebene FTP-Proxy ist ein HTTP-Gateway für das FTP-Protokoll. Standard-FTP-Proxy
ist ein regulärer FTP-Proxy.
-ftp_dirtyproxy/-noftp_dirtyproxy
Der angegebene FTP-Proxy ist ein HTTP-Proxy, der a unterstützt FOLGE UNS Anfrage (pavuk
sollte das vollständige FTP-Protokoll verwenden, mit Ausnahme aktiver Datenverbindungen). Standard-FTP
Proxy ist ein regulärer FTP-Proxy. Wenn sowohl -ftp_dirtyproxy als auch -ftp_httpgw angegeben sind,
-ftp_dirtyproxy wird bevorzugt.
-gopher_proxy $site[:$port]
Gopher-Gateway oder Proxy-/Cache-Server.
-gopher_httpgw/-nogopher_httpgw
Der angegebene Gopher-Proxyserver ist ein HTTP-Gateway für das Gopher-Protokoll. Wann
-gopher_proxy ist eingestellt und dies -gopher_httpgw Option wird nicht verwendet, Pavuk verwendet
Proxy als HTTP-Tunnel mit FOLGE UNS Anfrage zum Öffnen von Verbindungen zu Gopher-Servern.
-ssl_proxy $site[:$port]
SSL-Proxy-(Tunnel-)Server [wie der im CERN httpd + Patch oder in Squid] mit
freigegeben FOLGE UNS Anfrage (zumindest auf Port 443). Diese Option ist nur verfügbar, wenn
kompiliert mit SSL-Unterstützung (Sie benötigen die SSleay- oder OpenSSL-Bibliotheken mit
Entwicklungsheader)
Proxy Authentification
-http_proxy_user $ user
Benutzername für die HTTP-Proxy-Authentifizierung.
-http_proxy_pass $ Pass
Passwort für die HTTP-Proxy-Authentifizierung.
-http_proxy_auth {1/2/3/4/user/Basic/Digest/NTLM}
Authentifizierungsschema für den Proxy-Zugriff. Ähnliche Bedeutung wie die -auth_scheme
Option (weitere Informationen finden Sie in der Hilfe zu dieser Option). Der Standardwert ist 2 (Grundschema).
-auth_proxy_ntlm_domain $str
Bei NTLM wird die NT- oder LM-Domäne erneut für die Autorisierung des HTTP-Proxyservers verwendet
Es ist ein Authentifizierungsschema erforderlich. Diese Option ist nur beim Kompilieren verfügbar
mit OpenSSL- oder libdes-Bibliotheken.
-auth_reuse_proxy_nonce/-noauth_reuse_proxy_nonce
Wenn Sie das HTTP-Proxy-Digest-Zugriffsauthentifizierungsschema verwenden, verwenden Sie zuerst den Empfang
Nonce-Wert in mehreren folgenden Anfragen.
-ftp_proxy_user $ user
Benutzername für die FTP-Proxy-Authentifizierung.
-ftp_proxy_pass $ Pass
Passwort für die FTP-Proxy-Authentifizierung.
Protokoll/Download Optionen
-ftp_passive
Verwendet passives FTP beim Herunterladen über FTP.
-ftp_active
Verwendet aktives FTP beim Herunterladen über FTP.
-active_ftp_port_range $min:$max
Mit dieser Option können Sie die Ports angeben, die für aktives FTP verwendet werden. Dies ermöglicht eine einfachere
Firewall-Konfiguration, da der Portbereich eingeschränkt werden kann.
Pavuk wählt bis zur Eröffnung zufällig eine Zahl aus dem angegebenen Bereich aus
Der Port wurde gefunden. Sollten innerhalb des angegebenen Bereichs keine offenen Ports gefunden werden, wird Pavuk dies tun
Standardmäßig ist ein normaler, vom Kernel zugewiesener Port und eine Meldung (Debug-Level-Net) vorhanden
Ausgabe.
Der ausgewählte Portbereich muss im nichtprivilegierten Bereich liegen (z. B. größer als oder).
gleich 1024); Es wird DRINGEND EMPFOHLEN, dass der gewählte Bereich groß genug ist
verarbeiten viele gleichzeitig aktive Verbindungen (z. B. 49152-65534, die IANA-
registrierter kurzlebiger Portbereich).
-always_mdtm/-noalways_mdtm
Erzwingen Sie, dass pavuk immer „MDTM“ verwendet, um den Zeitpunkt der Dateiänderung zu bestimmen, und niemals
verwendet zwischengespeicherte Zeiten, die beim Auflisten der Remote-Dateien ermittelt werden.
-remove_before_store/-noremove_before_store
Erzwingen Sie das Aufheben der Verknüpfung von Dateien, bevor neuer Inhalt in einer Datei gespeichert wird. Das ist hilfreich
wenn die lokalen Dateien fest mit einem anderen Verzeichnis verknüpft sind und nach dem Spiegeln der
Hardlinks werden überprüft. Alle „defekten“ Hardlinks weisen auf eine Dateiaktualisierung hin.
-wiederholen $nr
Legen Sie die Anzahl der Versuche fest, das verarbeitete Dokument zu übertragen. Dies ist standardmäßig auf 1 eingestellt
Das bedeutet, dass Pavuk einmal erneut versucht, Dokumente abzurufen, was beim ersten Versuch fehlgeschlagen ist.
-negets $nr
Legen Sie die Anzahl der zulässigen Regets für ein einzelnes Dokument nach einer unterbrochenen Übertragung fest.
Der Standardwert für diese Option ist 2.
-nredirs $nr
Legen Sie die Anzahl der zulässigen HTTP-Weiterleitungen fest. (Verwenden Sie dies, um Schleifen zu verhindern.) Standard
Der Wert für diese Option ist 5 und entspricht der HTTP-Spezifikation.
-force_reget/-noforce_reget
Erzwingen Sie das erneute Abrufen des gesamten Dokuments nach einer fehlerhaften Übertragung an den Server
unterstützt nicht das Abrufen von Teilinhalten. Das Standardverhalten von Pavuk besteht darin, aufzuhören
Erhalten von Dokumenten, die einen Neustart der Übertragung an der angegebenen Position nicht zulassen.
-Auszeit $nr
Timeout für blockierte Verbindungen in Minuten. Dieser Wert wird auch für die Verbindung verwendet
Auszeiten. Für Zeitüberschreitungen unter einer Minute können Sie Gleitkommazahlen verwenden. Standard
Timeout ist 0, was bedeutet, dass die Timeout-Überprüfung deaktiviert ist.
-noRobots/-Robots
Dieser Schalter unterdrückt die Verwendung von robots.txt Standard, der es gewohnt ist
Beschränken Sie den Zugriff von Web-Robots auf einige Standorte auf dem Webserver. Standard ist
erlaubt die Überprüfung von robots.txt-Dateien auf HTTP-Servern. Aktivieren Sie diese Option immer
wenn Sie riesige Seitenmengen mit unvorhersehbarem Layout herunterladen. Das
verhindert, dass Sie Serveradministratoren verärgern :-).
-noEnc/-Enc
Dieser Schalter unterdrückt die Verwendung von gzip or komprimieren or deflate Kodierung bei der Übertragung. ICH
Ich weiß nicht, ob einige Server kaputt sind oder was, aber sie verbreiten diesen MIME
Geben Sie application/gzip oder application/compress wie codiert ein. Schalten Sie diese Option aus.
wenn Sie keine libz-Unterstützung kompiliert haben und auch gzip welches Programm verwendet wird
um auf diese Weise kodierte Dokumente zu dekodieren. Standardmäßig wird das heruntergeladene Dokument dekodiert
behindert.
-check_size/-nocheck_size
Die Option -nocheck_size sollte verwendet werden, wenn Sie versuchen, Seiten von einem herunterzuladen
HTTP-Server, der eine falsche Nachricht sendet Inhaltslänge: Feld im MIME-Header von
Antwort. Das Standardverhalten von Pavuk besteht darin, dieses Feld zu überprüfen und sich zu beschweren
Irgendwas stimmt nicht.
-Maximale Rate $nr
Wenn Sie nicht Ihre gesamte Übertragungsbandbreite Pavuk überlassen möchten, nutzen Sie diese Option
Legen Sie die maximale Übertragungsrate von Pavuk fest. Diese Option akzeptiert eine Gleitkommazahl
Geben Sie die Übertragungsrate in kB/s an. Wenn Sie optimale Einstellungen erhalten möchten, müssen Sie dies auch tun
mit der Größe des Lesepuffers spielen (Option -bufsize), weil Pavuk es tut
Flusskontrolle nur auf Anwendungsebene. Standardmäßig wird die volle Bandbreite genutzt.
-minrate $nr
Wenn Sie langsame Übertragungsraten hassen, können Sie mit dieser Option die Übertragung unterbrechen
langsame Geschwindigkeit. Sie können die minimale Übertragungsrate festlegen und festlegen, ob die Verbindung hergestellt wird
langsamer als die angegebene Geschwindigkeit, wird die Übertragung gestoppt. Die minimale Übertragungsrate
wird in kB/s angegeben. Standardmäßig überprüft Pavuk dieses Limit nicht.
-bufsize $nr
Mit dieser Option wird die Größe des Lesepuffers angegeben (Standardgröße: 32 KB).
Wenn Sie über eine sehr schnelle Verbindung verfügen, können Sie die Größe des abzurufenden Puffers erhöhen
eine bessere Leseleistung. Wenn Sie die Übertragungsrate verringern müssen, ist dies möglicherweise erforderlich
, um die Größe des Puffers zu verringern und die maximale Übertragungsrate mit einzustellen
-Maximale Rate Möglichkeit. Diese Option akzeptiert die Größe des Puffers in kB.
-fs_quota $nr
Wenn Sie Pavuk auf einem Mehrbenutzersystem ausführen, müssen Sie möglicherweise eine Überlastung vermeiden
Ihr Dateisystem. Mit dieser Option können Sie festlegen, wie viel Speicherplatz frei bleiben muss. Wenn
Pavuk stellt fest, dass der freie Speicherplatz nicht mehr ausreicht, und stoppt den Download von Dateien.
Geben Sie dieses Kontingent in kB an. Der Standardwert ist 0, was bedeutet, dass dies nicht überprüft wird
Quote.
-file_quota $nr
Diese Option ist nützlich, wenn Sie das Herunterladen großer Dateien einschränken möchten, dies aber möchten
Laden Sie mindestens $nr Kilobyte aus großen Dateien herunter. Es wird eine große Datei übertragen,
und wenn die angegebene Größe erreicht ist, wird die Übertragung unterbrochen. Ein solches Dokument wird sein
werden als ordnungsgemäß heruntergeladen verarbeitet. Seien Sie daher vorsichtig, wenn Sie diese Option verwenden. Standardmäßig
Pavuk überträgt Dokumente in voller Größe.
-trans_quota $nr
Wenn Sie wissen, dass Ihre Auswahl eine große Datenmenge umfassen sollte, können Sie dies tun
Verwenden Sie diese Option, um die Menge der übertragenen Daten zu begrenzen. Die Standardeinstellung ist nach Größe
unbegrenzter Transfer.
-max_time $nr
Stellen Sie die maximale Zeitdauer für die Programmausführung ein. Nach Ablauf der Zeit stoppt Pavuk
wird heruntergeladen. Die Zeit wird in Minuten angegeben. Der Standardwert ist 0, und das bedeutet
Die Downloadzeit ist nicht begrenzt.
-url_strategie $Strategie
Mit dieser Option können Sie eine Download-Reihenfolge für URLs im Dokumentbaum festlegen.
Diese Option akzeptiert die folgenden Zeichenfolgen als Parameter:
Grad des - ordnet URLs beim Laden aus HTML-Dateien (Standard)
leveli – wie zuvor, aber die URLs von Inline-Objekten stehen an erster Stelle
vor - fügt beim Start URLs aus dem eigentlichen HTML-Dokument vor anderen ein
prei – wie zuvor, aber die URLs von Inline-Objekten stehen an erster Stelle
-send_if_range/-nosend_if_range
Absenden If-Bereich: Header in HTTP-Anfrage. Ich habe herausgefunden, dass einige HTTP-Server
(Grüße, MS :-)) senden anders ETag: Felder in verschiedenen Antworten für
das gleiche, unveränderte Dokument. Dies führt zu Problemen, wenn Pavuk versucht, a zu regieren
Dokument von einem solchen Server: Pavuk merkt sich den alten ETag-Wert und verwendet ihn
folgende Anfragen für dieses Dokument. Wenn der Server es mit dem neuen ETag überprüft
Wenn der Wert unterschiedlich ist, weigert er sich, nur einen Teil des Dokuments zu senden, und startet
der Download von Grund auf.
-ssl_version $v
Legen Sie die erforderliche SSL-Protokollversion für die SSL-Kommunikation fest. $v ist eines von ssl2, ssl23,
ssl3 oder tls1. Diese Option ist nur verfügbar, wenn mit SSL-Unterstützung kompiliert wird.
Der Standardwert ist ssl23.
-unique_sslid/-nounique_sslid
Diese Option kann verwendet werden, wenn Sie ein Unikat verwenden möchten SSL ID für alle SSL-Sitzungen.
Das Standardverhalten von Pavuk besteht darin, jedes Mal eine neue Sitzungs-ID für jeden auszuhandeln
Verbindung. Diese Option ist nur verfügbar, wenn mit SSL-Unterstützung kompiliert wird.
-use_http11/-nouse_http11
Diese Option wird verwendet, um zwischen dem HTTP/1.0- und dem HTTP/1.1-Protokoll zu wechseln, das mit HTTP verwendet wird
Server. Aufgrund seiner Implementierung ist die Verwendung des HTTP/1.1-Protokolls derzeit nicht standardmäßig
ist sehr frisch und nicht 100% getestet. Auch wenn die Verwendung von HTTP/1.1 sehr ist
empfohlen, da es schneller als HTTP/1.0 ist und weniger Netzwerkbandbreite benötigt
Verbindungen initiieren. In jeder weiteren Version werde ich die Verwendung von HTTP/1.1 aktivieren
default.
-local_ip $ addr
Sie können diese Option verwenden, wenn Sie eine bestimmte Netzwerkschnittstelle verwenden möchten
Kommunikation mit anderen Gastgebern. Diese Option eignet sich für mehrfach vernetzte Hosts mit
mehrere Netzwerkschnittstellen. Die Adresse sollte als normale IP-Adresse oder als eingegeben werden
Hostname.
-Identität $str
Mit dieser Option können Sie den Inhalt angeben User-Agent: Feld der HTTP-Anfrage.
Dies ist nützlich, wenn Skripte auf einem Remote-Server unterschiedliche Dokumente auf demselben zurückgeben
URL für verschiedene Browser oder wenn ein HTTP-Server die Bereitstellung von Dokumenten für das Web verweigert
Roboter wie Pavuk. Standard-Pavuk sendet ein User-Agent: Feld pavuk/$VERSION String.
-auto_referer/-noauto_referer
Diese Option zwingt Pavuk, HTTP zu senden Referent: Header-Feld mit Start-URLs.
Der Inhalt dieses Feldes ist die eigene URL. Die Verwendung dieser Option ist im Remote-Betrieb erforderlich
Der Server überprüft das Feld „Referer:“. Standardmäßig sendet Pavuk kein Referrer:-Feld mit
Start-URLs.
-referer/-noreferer
Mit dieser Option können Sie die Übertragung von HTTP aktivieren und deaktivieren Referent: Kopfzeile
Feld. Standardmäßig sendet Pavuk das Feld „Referer:“.
-httppad $str
In manchen Fällen möchten Sie möglicherweise benutzerdefinierte Felder zu HTTP/HTTPS-Anfragen hinzufügen. Das
Diese Option dient genau diesem Zweck. In $str Sie können den Inhalt direkt angeben
zusätzlicher Header. Wenn Sie nur den Rohheader angeben, wird dieser nur für verwendet
Startanfragen. Wenn Sie diesen Header bei jeder Anfrage verwenden möchten
Crawlen, stellen Sie dem Header ein Präfix voran + Charakter.
-del_after/-nodel_after
Mit dieser Option können Sie DATEIEN beim Herunterladen vom REMOTE-Server löschen
richtig fertig. Standardmäßig ist diese Option deaktiviert.
-FTPlist/-noFTPlist
Wenn die Option -FTPlist verwendet wird, ruft Pavuk den Inhalt von FTP-Verzeichnissen ab
mit FTP-Befehl LISTE statt NST. Es wird also derselbe Eintrag abgerufen wie
mit dem UNIX-Befehl „ls -l“. Diese Option ist erforderlich, wenn Sie eine Konservierung benötigen
Berechtigungen von Remote-Dateien oder Sie müssen symbolische Links beibehalten. Pavuk unterstützt
breite Auflistung auf FTP-Servern mit regelmäßigen BSD or SYSV style „ls -l“-Verzeichnis
Auflistung, auf FTP-Servern mit EPFL Auflistungsformat, VMS Stilauflistung, DOS/Windows
Stilliste und Roman Auflistungsformat. Das Standardverhalten von Pavuk ist die Verwendung von NLST
FTP-Verzeichnislisten.
-ftp_list_options $str
Einige FTP-Server erfordern die Bereitstellung zusätzlicher Optionen für LIST- oder NLST-FTP-Befehle
Alle Dateien und Verzeichnisse ordnungsgemäß anzeigen. Achten Sie jedoch darauf, keine zusätzlichen Optionen zu verwenden
Dadurch kann die Ausgabe der Auflistung neu formatiert werden. Nützlich ist besonders -a Option, die
Erzwingen Sie, dass der FTP-Server auch DOT-Dateien und -Verzeichnisse anzeigt, und zwar mit defektem WuFTP
Servern hilft es auch, vollständige Verzeichnislisten zu erstellen, nicht nur Dateien.
-fix_wuftpd/-nofix_wuftpd
Diese Option ist das Ergebnis mehrerer Versuche, sie ordnungsgemäß zum Laufen zu bringen
-remove_old Option mit WuFTPd-Server, wenn -ftplist Option verwendet wird. Das Problem ist
dass der FTP-Befehl LIST auf WuFTPd nichts dagegen hat, wenn versucht wird, nicht vorhandene aufzulisten
Verzeichnis und zeigt den Erfolg im FTP-Antwortcode an. Wenn Sie dies aktivieren
Option: Pavuk verwendet einen zusätzlichen FTP-Befehl (STAT -d dir), um zu überprüfen, ob das Verzeichnis vorhanden ist
existiert wirklich. Nutzen Sie diese Option erst, wenn Sie sicher sind, dass Sie sie wirklich benötigen!
Authentification
-auth_file $ file
Datei, in der Sie Authentifizierungsinformationen für den Zugriff auf einen Dienst gespeichert haben.
Zur Dateistruktur siehe unten in DATEIEN .
-auth_name $ user
Wenn Sie diesen Parameter verwenden, führt das Programm bei jedem HTTP eine Authentifizierung durch
Zugriff auf das Dokument. Verwenden Sie dies nur, wenn Sie wissen, dass es nur einen HTTP-Server geben kann
abgerufen oder genutzt werden -eine Seite Option zum Angeben der Site, für die Sie die Authentifizierung verwenden.
Andernfalls werden Ihre Authentifizierungsparameter an jeden HTTP-Server gesendet, auf den zugegriffen wird.
-auth_passwd $passwd
Der Wert dieses Parameters wird als Passwort zur Authentifizierung verwendet
-auth_scheme {1/2/3/4/user/Basic/Digest/NTLM}
Dieser Parameter gibt das verwendete Authentifizierungsschema an.
1 or Benutzer Mittel verbinden Benutzer Das Authentifizierungsschema wird wie in HTTP/1.0 definiert verwendet
HTTP/1.1. Passwort und Benutzername werden unverschlüsselt versendet.
2 or Grundlagen Mittel verbinden Grundlagen Das Authentifizierungsschema wird wie in HTTP/1.0 definiert verwendet.
Passwort und Benutzername werden BASE64-kodiert gesendet.
3 or Digest Mittel verbinden Digest Zugriffsauthentifizierungsschema basierend auf MD5-Prüfsummen als
definiert in RFC2069.
4 or NTLM Mittel verbinden NTLM proprietäres Zugriffsauthentifizierungsschema, das von Microsoft verwendet wird
IIS- oder Proxyserver. Wenn Sie dieses Schema verwenden, müssen Sie auch NT oder LM angeben
Domain mit Option -auth_ntlm_domain. Dieses Schema wird nur beim Kompilieren unterstützt
mit OpenSSL- oder libdes-Bibliotheken.
-auth_ntlm_domain $str
NT- oder LM-Domäne, die bei der NTLM-Authentifizierung erneut für die Autorisierung verwendet wird. HTTP-Server
Schema ist erforderlich. Diese Option ist nur verfügbar, wenn mit OpenSSL oder kompiliert wird
libdes-Bibliotheken.
-auth_reuse_nonce/-noauth_reuse_nonce
Verwenden Sie bei Verwendung des HTTP-Digest-Zugriffsauthentifizierungsschemas die zuerst empfangene Nonce
Wert auf weitere folgende Anfragen. Standardmäßig handelt Pavuk Nonce für jede Anfrage aus.
-ssl_key_file $ file
Datei mit öffentlichem Schlüssel für SSL-Zertifikat (weitere Informationen finden Sie unter SSLeay oder OpenSSL).
Dokumentation) Diese Option ist nur verfügbar, wenn sie mit SSL-Unterstützung kompiliert wurde (Sie
benötigen SSleay- oder OpenSSL-Bibliotheken und Entwicklungsheader)
-ssl_cert_file $ file
Zertifikatsdatei im PEM-Format (weitere Informationen finden Sie in der SSLeay- oder OpenSSL-Dokumentation)
Diese Option ist nur verfügbar, wenn mit SSL-Unterstützung kompiliert wurde (Sie benötigen SSleay oder
OpenSSL-Bibliotheken und Entwicklungsheader)
-ssl_cer_passwd $str
Passwort, das zum Generieren des Zertifikats verwendet wird (weitere Informationen finden Sie unter SSLeay oder OpenSSL).
Dokumentation) Diese Option ist nur verfügbar, wenn sie mit SSL-Unterstützung kompiliert wurde (Sie
benötigen SSLeay- oder OpenSSL-Bibliotheken und Entwicklungsheader)
-nss_cert_dir $dir
Konfigurationsverzeichnis für NSS-Zertifikate (Netscape SSL-Implementierung). Normalerweise
~/.netscape (erstellt von Netscape Communicator/Navigator) oder Profilverzeichnis unten
~/.mozilla (erstellt vom Mozilla-Browser). Das Verzeichnis sollte enthalten cert7.db und
key3.db Dateien. Wenn Sie weder Mozilla noch Netscape verwenden, müssen Sie diese Dateien erstellen
Dienstprogramme, die mit NSS-Bibliotheken verteilt werden. Pavuk öffnet nur die Zertifikatsdatenbank
schreibgeschützt. Diese Option ist nur verfügbar, wenn Pavuk mit SSL-Unterstützung kompiliert wird
bereitgestellt durch Netscape NSS SSL-Implementierung.
[-nss_accept_unknown_cert/-nonss_accept_unknown_cert]
Standardmäßig lehnt Pavuk die Verbindung zu einem SSL-Server ab, für den es kein Zertifikat gibt
in der lokalen Zertifikatsdatenbank gespeichert (festgelegt durch -nss_cert_dir Möglichkeit). Du musst
Erzwingen Sie explizit, dass Pavuk Verbindungen zu Servern mit unbekannten Zertifikaten zulässt.
Diese Option ist nur verfügbar, wenn Pavuk mit der von bereitgestellten SSL-Unterstützung kompiliert wird
Netscape NSS SSL-Implementierung.
[-nss_domestic_policy/-nss_export_policy]
Wählt Sätze von Chiffren aus, die gemäß den Exportregeln der USA zulässig/deaktiviert sind. Diese Option ist
Nur verfügbar, wenn Pavuk mit SSL-Unterstützung kompiliert wird, die von Netscape NSS SSL bereitgestellt wird
Umsetzung.
-von $ email
Dieser Parameter wird beim Zugriff auf einen anonymen FTP-Server als Passwort verwendet
optional eingefügt Ab Feld in der HTTP-Anfrage. Wenn nicht angegeben, pavuk
entdeckt dies aus USER Umgebungsvariable und vom Hostnamen der Site.
-send_from/-nosend_from
Diese Option wird verwendet, um das Senden der Benutzeridentifikation zu aktivieren oder zu deaktivieren.
Eingegeben in -von Option, als anonymes FTP-Benutzerpasswort und Ab: Bereich von HTTP
Anfrage. Standardmäßig ist diese Option deaktiviert.
-ftp_login_handshake $ Gastgeber $Handschlag
Wenn Sie für einige FTP-Server ein nicht standardmäßiges Anmeldeverfahren verwenden müssen, können Sie dies tun
Verwenden Sie diese Option, um das standardmäßige Pavuk-Anmeldeverfahren zu ändern. Um mehr Flexibilität zu ermöglichen,
Sie können den Anmeldevorgang einem bestimmten Server oder allen zuweisen. Wann $ Gastgeber is
als leere Zeichenfolge angegeben (""), dann ist die angehängte Anmeldeprozedur allen zugewiesen
Darüber hinaus auch FTP-Server mit eigenen Login-Prozeduren. Im $Handschlag
Mit diesem Parameter können Sie das genaue Anmeldeverfahren angeben, das durch die folgenden FTP-Befehle festgelegt wird
durch erwartete FTP-Antwortcodes, getrennt durch Backslash (\) Zeichen.
Dies ist beispielsweise das Standard-Anmeldeverfahren, wenn Sie sich auf einem regulären FTP-Server anmelden
ohne den Proxyserver zu durchlaufen: USER %u\331\PASS %p\230. Es gibt zwei
Befehle gefolgt von zwei Antwortcodes. Nach dem USER-Befehl erwartet pavuk FTP
Antwortcode 331 und nach dem PASS-Befehl erwartet pavuk eine FTP-Antwort vom Server
Code 230. In FTP-Befehlen können Sie die folgenden Makros verwenden, die durch ersetzt werden
jeweilige Werte:
%u - Benutzername, der für den Zugriff auf den FTP-Server verwendet wird
%p - Passwort für den Zugriff auf den FTP-Server
%U - Benutzername, der für den Zugriff auf den FTP-Proxyserver verwendet wird
%P - Passwort für den Zugriff auf den FTP-Proxyserver
%h - Hostname des FTP-Servers
%s - Portnummer, auf der der FTP-Server lauscht
Site/Domäne/Port Einschränkung Optionen
-eine Seite $liste
Geben Sie eine durch Kommas getrennte Liste zulässiger Websites an, auf denen sich referenzierte Dokumente befinden
gelagert.
-dsite $liste
Geben Sie eine durch Kommas getrennte Liste unzulässiger Websites an. Der vorherige Parameter ist umgekehrt
zu diesem. Wenn beide verwendet werden, gilt das letzte Vorkommen als gültig.
-Domäne $liste
Geben Sie eine durch Kommas getrennte Liste zulässiger Domänen an, in denen sich referenzierte Dokumente befinden
gelagert.
-ddomain $liste
Geben Sie eine durch Kommas getrennte Liste unzulässiger Domänen an. Der vorherige Parameter ist umgekehrt
zu diesem. Wenn beide verwendet werden, gilt das letzte Vorkommen als gültig.
-aport $liste
In $liste, können Sie eine durch Kommas getrennte Liste der Ports schreiben, von denen aus Sie zulassen
Dokumente herunterladen.
-dport $liste
Diese Option ist das Gegenteil der vorherigen Option. Es wird verwendet, um „verweigert“ anzugeben
Häfen. Wenn beides -aport und -dport Optionen werden bei ihrem letzten Vorkommen verwendet
gültig und alle anderen Vorkommen werden weggelassen.
Einschränkung Dokument immobilien
-amimet $liste
Liste der durch Kommas getrennten zulässigen MIME-Typen. Sie können diese Option auch verwenden
Platzhaltermuster.
-dmimet $liste
Liste der durch Kommas getrennten, unzulässigen MIME-Typen. Sie können diese Option auch verwenden
Platzhaltermuster. Der vorherige Parameter ist diesem entgegengesetzt. Wenn beide verwendet werden
Als gültig gilt das jeweils letzte Vorkommen.
-maximale Größe $nr
Maximal zulässige Größe des Dokuments. Diese Option wird nur angewendet, wenn Pavuk dazu in der Lage ist
um das Dokument vor Beginn der Übertragung zu erkennen. Der Standardwert ist 0 und es
bedeutet, dass dieses Limit nicht angewendet wird.
-Mindestgröße $nr
minimal zulässige Größe des Dokuments. Diese Option wird nur angewendet, wenn Pavuk dazu in der Lage ist
um das Dokument vor Beginn der Übertragung zu erkennen. Der Standardwert ist 0 und es
bedeutet, dass dieses Limit nicht angewendet wird.
-neuer als $ Zeit
Erlauben Sie nur die Übertragung von Dokumenten, deren Änderungszeit neuer ist als in angegeben
Parameter $time. Das Format von $time ist: JJJJ.MM.TT.hh:mm. Um diese Option anzuwenden, pavuk
muss in der Lage sein, den Änderungszeitpunkt des Dokuments zu erkennen.
-älter als $ Zeit
Erlauben Sie nur die Übertragung von Dokumenten, deren Änderungszeit älter ist als in angegeben
Parameter $time. Das Format von $time ist: JJJJ.MM.TT.hh:mm. Um diese Option anzuwenden, pavuk
muss in der Lage sein, den Änderungszeitpunkt des Dokuments zu erkennen.
-noCGI/-CGI
Dieser Schalter verhindert die Übertragung dynamisch generierter parametrischer Dokumente
CGI-Schnittstelle. Dies wird beim Auftreten von erkannt ? Zeichen innerhalb der URL. Standard
Das Pavuk-Verhalten besteht darin, die Übertragung von URLs mit Abfragezeichenfolgen zu ermöglichen.
-alang $liste
Auf diese Weise können Sie eine geordnete, durch Kommas getrennte Liste der bevorzugten natürlichen Elemente angeben
Sprachen. Diese Option funktioniert nur mit HTTP- und HTTPS-Protokollen Annehmen-
Sprache: MIME-Feld.
-acharset $liste
Mit dieser Option können Sie eine durch Kommas getrennte Liste der bevorzugten Kodierungen eingeben
übertragene Dokumente. Dies funktioniert nur mit HTTP- und HTTPS-URLs und nur dann, wenn solche vorhanden sind
Dokumentkodierungen befinden sich auf dem Zielserver.
Beispiel: -acharset ISO-8859-2, Windows-1250, UTF8
Einschränkung Dokument Name
-asfx $liste
Mit diesem Parameter können Sie eine Reihe von Suffixen angeben, mit denen die Auswahl eingeschränkt wird
Dokumente, die bearbeitet werden.
-dsfx $liste
Satz von Suffixen, die verwendet werden, um Einschränkungen bei der Auswahl von Dokumenten festzulegen.
Dies ist das Gegenteil der vorherigen Option. Sie trennen sich gegenseitig.
-apräfix $list, -dprefix $liste
Mit diesen beiden Optionen können Sie eine Reihe zulässiger oder nicht zulässiger Präfixe angeben
Unterlagen. Sie trennen sich gegenseitig.
-Muster $ Muster
Mit dieser Option können Sie Platzhaltermuster für Dokumente angeben. Alle Dokumente sind
getestet, ob sie diesem Muster entsprechen.
-rMuster $reg_exp
Dies ist die gleiche Option wie zuvor, verwendet jedoch reguläre Ausdrücke. Verfügbar
Nur auf Plattformen, die über eine unterstützte RE-Implementierung verfügen.
-skip_pattern $ Muster
Mit dieser Option können Sie Platzhaltermuster für Dokumente angeben, die es sein sollen
übersprungen. Alle Dokumente werden getestet, ob sie diesem Muster entsprechen.
-skip_rpattern $reg_exp
Dies ist die gleiche Option wie zuvor, verwendet jedoch reguläre Ausdrücke. Verfügbar
Nur auf Plattformen, die über eine unterstützte RE-Implementierung verfügen.
-url_pattern $ Muster
Mit dieser Option können Sie Platzhaltermuster für URLs angeben. Alle URLs werden getestet, wenn
sie passen zu diesem Muster.
Ejemplo:
-url_pattern http://\*.idata.sk:\*/~ondrej/\* . Diese Option aktiviert alle HTTP-URLs
von der Domain .idata.sk auf allen Ports, die sich unter /~ondrej/ befinden.
-url_rpattern $reg_exp
Dies ist die gleiche Option wie zuvor, verwendet jedoch reguläre Ausdrücke. Verfügbar
Nur auf Plattformen, die über eine unterstützte RE-Implementierung verfügen.
-skip_url_pattern $ Muster
Mit dieser Option können Sie Platzhaltermuster für URLs angeben, die übersprungen werden sollen.
Alle URLs werden getestet, ob sie diesem Muster entsprechen.
-skip_url_rpattern $reg_exp
Dies ist die gleiche Option wie zuvor, verwendet jedoch reguläre Ausdrücke. Verfügbar
Nur auf Plattformen, die über eine unterstützte RE-Implementierung verfügen.
-aip_pattern $re
Mit dieser Option können Sie die Anzahl der übertragenen Dokumente nach Server-IP-Adresse einschränken.
Die IP-Adresse kann als regulärer Ausdruck angegeben werden, sodass eine Angabe möglich ist
Satz von IP-Adressen durch einen Ausdruck. Nur auf Plattformen verfügbar, die über welche verfügen
unterstützte die RE-Implementierung.
-dip_pattern $re
Diese Option ähnelt der vorherigen Option, wird jedoch verwendet, um eine Reihe unzulässiger IP-Adressen anzugeben
Adressen. Nur auf Plattformen verfügbar, die über eine unterstützte RE-Implementierung verfügen.
-tag_pattern $tag $attrib $ url
Leistungsstärkere Version von -url_pattern Option für eine genauere Übereinstimmung der zulässigen Werte
URLs basierend auf dem HTML-Tag-Namensmuster, dem HTML-Tag-Attributnamensmuster und der URL
Muster. Sie können also in allen drei Parametern dieser Option Platzhaltermuster verwenden
etwas wie -tag_pattern '*' '*' URL-Muster entspricht -url_pattern
URL-Musterdem „Vermischten Geschmack“. Seine $tag und $attrib Parameter werden immer wieder in Großbuchstaben abgeglichen
Saiten. Wenn Sie beispielsweise möchten, dass Pavuk einfach nur regulären Links folgt und diese ignoriert
Alle Stylesheets, Bilder usw. verwenden Sie die Option -tag_pattern A Href '*'.
-tag_rpattern $tag $attrib $ url
Dies ist eine Variation davon -tag_pattern. Es verwendet reguläre Ausdrucksmuster in
Parameter anstelle der in der vorherigen Option verwendeten Platzhaltermuster.
Einschränkung Protokoll Option
-noHTTP/-HTTP
Dieser Schalter unterdrückt alle Übertragungen über das HTTP-Protokoll. Standard ist Übertragung
über HTTP aktiviert.
-noSSL/-SSL
Dieser Schalter unterdrückt alle Übertragungen über das HTTPS-Protokoll (HTTP-Protokoll).
SSL). Standardmäßig ist die Übertragung über HTTPS aktiviert. Diese Option ist nur verfügbar
wenn mit SSL-Unterstützung kompiliert (Sie benötigen SSleay- oder OpenSSL-Bibliotheken und
Entwicklungsheader)
-noGopher/-Gopher
Unterdrücken Sie alle Übertragungen über das Gopher-Internetprotokoll. Standard ist Übertragung
durch Gopher aktiviert.
-noFTP/-FTP
Dieser Schalter verhindert die Verarbeitung von Dokumenten, die auf allen FTP-Servern zugewiesen sind. Standard ist
Übertragung über FTP aktiviert.
-noFTPS/-FTPS
Dieser Schalter verhindert die Verarbeitung von Dokumenten, die auf allen FTP-Servern verfügbar sind, auf die zugegriffen wird
über SSL. Standardmäßig ist die Übertragung über FTPS aktiviert. Diese Option ist verfügbar
nur bei Kompilierung mit SSL-Unterstützung (Sie benötigen SSleay- oder OpenSSL-Bibliotheken und
Entwicklungsheader)
-FTPhtml/-noFTPhtml
Durch die Verwendung der Option -FTPhtml können Sie Pavuk zwingen, heruntergeladene HTML-Dateien zu verarbeiten
mit FTP-Protokoll. Standardmäßig analysiert Pavuk keine HTML-Dateien von FTP-Servern.
-FTPdir/-noFTPdir
Erzwingen Sie auch die rekursive Verarbeitung von FTP-Verzeichnissen. Standardmäßig ist rekursiv
Download von FTP-Servern verweigert.
-disable_html_tag $TAG,[$ATTRIB][;...]
-enable_html_tag $TAG,[$ATTRIB][;...] Aktivieren oder deaktivieren Sie die Verarbeitung bestimmter Daten
HTML-Tags oder -Attribute. Standardmäßig sind alle unterstützten HTML-Tags aktiviert.
Wenn Sie beispielsweise nicht alle Bilder verarbeiten möchten, sollten Sie die Option verwenden
-disable_html_tag 'IMG,SRC;INPUT,SRC;KÖRPER,HINTERGRUND' .
Andere Einschränkung Optionen
-Unterverzeichnis $dir
Unterverzeichnis des lokalen Baumverzeichnisses, um einige der Modi {sync,
resumeregets, linkupdate} in seinem Baumscan.
-dont_leave_site/-leave_site
(Nicht) den Startplatz verlassen. Standardmäßig kann sich Pavuk bei der Rekursion über den gesamten Host erstrecken
WWW-Baum.
-dont_leave_dir/-leave_dir
(Nicht) das Startverzeichnis verlassen. Wenn die Option -dont_leave_dir verwendet wird, bleibt Pavuk bestehen
nur im Startverzeichnis (einschließlich seiner eigenen Unterverzeichnisse). Standardmäßig Pavuk
kann Startverzeichnisse verlassen.
-leave_site_enter_dir/-dont_leave_site_enter_dir
Wenn Sie einen WWW-Baum herunterladen, der sich über mehrere Hosts mit riesigen Bäumen erstreckt, ist dies möglicherweise der Fall
Ich möchte das Herunterladen von Dokumenten zulassen, die sich in der Verzeichnishierarchie unten befinden
Verzeichnis, das wir als erstes auf jeder Seite besucht haben. Um dies zu erhalten, verwenden Sie die Option
-dont_leave_site_enter_dir. Standardmäßig wird Pavuk auch in ein höheres Verzeichnis verschoben
Ebenen auf dieser Website.
-lmax $nr
Legen Sie den maximal zulässigen Grad der Baumdurchquerung fest. Der Standardwert ist auf 0 gesetzt, was das bedeutet
Pavuk kann unendlich weit reisen. Ab Version 0.8pl1 Inline-Objekte von HTML-Seiten
werden auf derselben Ebene wie die übergeordnete HTML-Seite platziert.
-leave_level $nr
Maximale Anzahl von Dokumenten außerhalb der Website der Start-URL. Der Standardwert ist auf 0 eingestellt.
und 0 bedeutet, dass die Prüfung nicht angewendet wird.
-site_level $nr
Maximale Anzahl von Websites außerhalb der Website der Start-URL. Der Standardwert ist 0 und
0 bedeutet, dass keine Prüfung erfolgt.
-dmax $nr
Legen Sie die maximal zulässige Anzahl der verarbeiteten Dokumente fest. Der Standardwert ist 0.
Das bedeutet, dass es keine Beschränkungen hinsichtlich der Anzahl der verarbeiteten Dokumente gibt.
-singlepage/-nosinglepage
Option verwenden -einzelne Seite ermöglicht es Ihnen, nur HTML-Seiten mit all ihren Inhalten zu übertragen
Eingebundene Objekte (Bilder, Töne, Rahmendokumente, ...). Standardmäßig ist deaktiviert
Einzelseitenübertragung. Diese Option macht -Modus einzelne Seite Option veraltet.
-limit_inlines/-dont_limit_inlines
Mit dieser Option können Sie steuern, ob die Einschränkungsoptionen auch für Inline gelten
Objekte (Bilder, Töne, ...). Dies ist nützlich, wenn Sie bestimmte Dateien herunterladen möchten
Satz von HTML-Seiten mit allen Inline-Optionen ohne Einschränkungen.
-user_condition $str
Skript- oder Programmname für eigene Bedingungen des Benutzers. Sie können jedes Skript schreiben, das
Mit dem Exit-Wert sollte entschieden werden, ob die URL heruntergeladen werden soll oder nicht. Skript erhält von Pavuk irgendein
Anzahl der Optionen, mit dieser Bedeutung:
-URL $ url - verarbeitete URL
-Elternteil $ url - Beliebig viele übergeordnete URLs
-Ebene $nr - Ebene dieser URL ab der Start-URL
-Größe $nr - Größe der angeforderten URL
-Datum $datenr - Änderungszeit der angeforderten URL im Format JJJJMMTThhmmss
Der Exit-Status 0 des Skripts oder Programms bedeutet, dass die aktuelle URL abgelehnt werden sollte
und ein Exit-Status ungleich Null bedeutet, dass die URL akzeptiert werden sollte.
Warnung : Verwenden Sie Benutzerbedingungen nur, wenn dies aufgrund großer Verlangsamungen erforderlich ist
Forking-Skripte für jede überprüfte URL.
-follow_cmd $str
Mit dieser Option können Sie ein Skript oder Programm angeben, das anhand seines Exit-Status angezeigt werden soll
Entscheiden Sie, ob URLs aus dem aktuellen HTML-Dokument verfolgt werden sollen. Dieses Skript wird sein
wird nach dem Download jedes HTML-Dokuments aufgerufen. Das Skript erhält folgende Optionen
als Parameter:
-URL $ url - URL des aktuellen HTML-Dokuments
-im Ordner $ file - lokale Datei, in der das HTML-Dokument gespeichert ist
Der Exit-Status 0 des Skripts oder Programms bedeutet, dass URLs aus dem aktuellen Dokument dies tun
nicht zulässig sein, ein anderer Exit-Status bedeutet, dass Pavuk Links von aktuell folgen kann
HTML-Dokument.
Javascript Unterstützung
Die Unterstützung für Skriptsprachen wie JavaScript oder VBScript in Pavuk ist etwas schwierig
Weg. Für diese Sprachen gibt es keinen Dolmetscher, daher funktionieren nicht alle Dinge. Ganz
Die Unterstützung, die Pavuk für diese Skriptsprachen bietet, basiert auf regulären Ausdrücken
Vom Benutzer angegebene Muster. Pavuk sucht nach diesen Mustern in DOM-Ereignisattributen von HTML
Tags, in Javascript:... URLs, in Inline-Skripten in dazwischen eingeschlossenen HTML-Dokumenten
Tags und in separaten Javascript-Dateien. Unterstützung für Skriptsprachen
ist nur verfügbar, wenn Pavuk mit der richtigen Bibliothek für reguläre Ausdrücke kompiliert wird
(POSIX/GNU/PCRE).
-enable_js/-disable_js
Diese Optionen werden verwendet, um die Verarbeitung von Javascript-Teilen von HTML zu aktivieren oder zu deaktivieren
Unterlagen. Sie müssen diese Option aktivieren, um die Verarbeitung von Javascript nutzen zu können
Muster.
-js_pattern $re
Mit dieser Option geben Sie an, welche Muster mit den gewünschten Teilen übereinstimmen
Javascript zum Extrahieren von URLs. Der Parameter muss ein RE-Muster mit genau einem sein
Untermuster, das genau mit dem URL-Teil übereinstimmt. Zum Beispiel, um die folgende URL abzugleichen
Art der Javascript-Ausdrücke:
document.b1.src='pics/button1_pre.jpg'
Sie können dieses Muster verwenden
"^document.[a-zA-Z0-9_]*.src[ ]*=[ ]*'(.*)'$"
-js_transform $p $t $h $a
Diese Option ähnelt der vorherigen, Sie können jedoch benutzerdefinierte Transformationsregeln für verwenden
URL-Teile von Mustern und geben Sie auch den genauen HTML-Tag und das Attribut an, wo sie hin sollen
Suchen Sie nach diesem Muster. Der $p ist das Muster, das dem interessierten Teil entspricht
Skript. Die $t ist eine Transformationsregel für die URL, in diesem Parameter die $x Teile werden
durch das x-te Teilmuster des ersetzt werden $p Muster. Das $h Parameter ist exaktes HTML
Tag oder „*“, wenn dies auf Javascript zutrifft: URLs oder DOM-Ereignisattribute oder „“ (leer).
string), wenn dies für den Javascript-Körper eines HTML-Dokuments oder einer separaten JS-Datei gilt.
Die $a Der Parameter ist das genaue HTML-Attribut des Tags oder „“ (leerer String), wenn diese Regel gilt
Auf den Javascript-Körper anwenden.
-js_transform2 $p $t $h $a
Diese Option ist der vorherigen sehr ähnlich. Die Bedeutung aller Parameter ist gleich,
nur das Muster $p kann nur einen Teilstring haben, der in der Transformation verwendet wird
regieren $t. Dies ist erforderlich, um das Umschreiben von URL-Teilen der Tags und Skripte zu ermöglichen.
Diese Option kann auch verwendet werden, um Pavuk zu zwingen, HTML-Ziel/Attribut-Paare zu erkennen
was Pavuk nicht unterstützt.
Cookie
-cookie_file $ file
Datei, in der Cookie-Informationen gespeichert werden. Diese Datei muss sich in der Netscape-Cookie-Datei befinden
Format (generiert mit Netscape Navigator oder Communicator ...).
-cookie_send/-nocookie_send
Verwenden Sie gesammelte Cookies in HTTP/HTTPS-Anfragen. Pavuk sendet standardmäßig nicht
Cookies.
-cookie_recv/-nocookie_recv
Speichern Sie empfangene Cookies von HTTP/HTTPS-Antworten im Speicher-Cookie-Cache. Bei
Standardmäßig speichert Pavuk keine empfangenen Cookies.
-cookie_update/-nocookie_update
Aktualisieren Sie die Cookie-Datei auf der Festplatte und synchronisieren Sie sie mit den von anderen Benutzern vorgenommenen Änderungen
Prozesse. Standardmäßig aktualisiert Pavuk die Cookie-Datei auf der Festplatte nicht.
-cookies_max $nr
Maximale Anzahl von Cookies im Speicher-Cookie-Cache. Der Standardwert ist 0, und das
bedeutet, dass es keine Einschränkungen für die Anzahl der Cookies gibt.
-disabled_cookie_domains $liste
Durch Kommas getrennte Liste der Cookie-Domains, die gespeicherte Cookies senden dürfen
in den Cookie-Cache
-cookie_check/-nocookie_check
Überprüfen Sie beim Empfang des Cookies, ob die Cookie-Domäne mit der Domäne des Servers übereinstimmt
sendet dieses Cookie. Standardmäßig setzt Pavuk Check, dass der Server Cookies für ihn setzt
Domäne, und wenn es versucht, ein Cookie für eine fremde Domäne zu setzen, wird sich Pavuk darüber beschweren
das und wird ein solches Cookie ablehnen.
HTML Umschreibung Sie Abstimmung Optionen
-noRelocate/-Relocate
Dieser Schalter verhindert, dass das Programm relative URLs nach HTML in absolute umschreibt
Dokument wird übertragen. Das Standardverhalten von Pavuk besteht darin, die Linkkonsistenz aufrechtzuerhalten
HTML-Dokumente. Wenn also ein HTML-Dokument heruntergeladen wird, schreibt Pavuk immer alles neu
URLs, die auf das lokale Dokument verweisen, wenn es verfügbar ist, und wenn es nicht verfügbar ist
zeigt auf ein Remote-Dokument. Nachdem das Dokument ordnungsgemäß heruntergeladen wurde, wird Pavuk dies tun
Aktualisieren Sie Links in HTML-Dokumenten, die auf dieses Dokument verweisen.
-all_to_local/-noall_to_local
Diese Option zwingt Pavuk dazu, alle URLs im HTML-Dokument in lokale URLs zu ändern
unmittelbar nach dem Herunterladen des Dokuments. Standardmäßig ist diese Option deaktiviert.
-sel_to_local/-nosel_to_local
Diese Option zwingt Pavuk dazu, alle URLs zu ändern, die die Bedingungen dafür erfüllen
Herunterladen, direkt nach dem Herunterladen des Dokuments lokal im HTML-Dokument. ICH
Wir empfehlen Ihnen, diese Option zu verwenden, wenn Sie sicher sind, dass die Übertragung reibungslos verläuft
Probleme. Diese Option kann viel Prozessorzeit sparen. Standardmäßig ist diese Option
behindert.
-all_to_remote/-noall_to_remote
Diese Option zwingt Pavuk dazu, alle URLs im HTML-Dokument in Remote-URLs zu ändern
unmittelbar nach dem Herunterladen des Dokuments. Standardmäßig ist diese Option deaktiviert.
-post_update/-nopost_update
Diese Option ist speziell dafür konzipiert, den Zutritt zu ermöglichen -fnrules Option, die auf Regeln basiert
MIME-Dokumenttyp. Diese Option zwingt Pavuk dazu, lokale Namen für zu generieren
Dokumente, nachdem Pavuk weiß, was der MIME-Typ des Dokuments ist. Das ist groß
Auswirkungen auf die Rewriting-Engine von Links in HTML-Dokumenten. Diese Option bewirkt
Ausfall anderer Optionen zur Steuerung der Link-Rewriting-Engine. Benutze das
Option nur, wenn Sie wissen, was Sie tun :-)
-dont_touch_url_pattern $pat
Diese Option dient dazu, das Umschreiben und Verarbeiten bestimmter URLs in HTML zu verhindern
Dokumente von pavuk HTML-Rewriting-Engine. Diese Option akzeptiert Platzhaltermuster
Geben Sie solche URLs an. Der Abgleich erfolgt mit unberührten URLs, also wenn die URL vorhanden ist
relativ, Sie müssen ein Muster verwenden, das mit der relativen URL übereinstimmt, wenn es absolut ist,
Sie müssen eine absolute URL verwenden.
-dont_touch_url_rpattern $pat
Diese Option ist eine Variation der vorherigen Option. Dieser verwendet regelmäßige Muster für
Abgleich von URLs anstelle der von verwendeten Platzhaltermuster -dont_touch_url_pattern
Möglichkeit. Diese Option ist nur verfügbar, wenn Pavuk mit Unterstützung für kompiliert wird
reguläre Ausdrucksmuster.
-dont_touch_tag_rpattern $pat
Diese Option ist eine Variation der vorherigen Option, der Abgleich erfolgt lediglich für das vollständige HTML-Tag
mit enthaltenem <>. Diese Option akzeptiert reguläre Ausdrucksmuster. Es ist verfügbar
nur, wenn Pavuk mit Unterstützung für reguläre Ausdrucksmuster kompiliert wird.
Dateiname/URL Umwandlung (Conversion) Option
-tr_del_chr $str
Alle Charaktere gefunden in $str wird aus dem lokalen Namen des Dokuments gelöscht. $str
sollte Escape-Sequenzen ähnlich wie im tr-Befehl enthalten:
\n - Neue Zeile
\r - Wagenrücklauf
\t - Horizontaler Tabulatorbereich
\0xXX - Hexadezimaler ASCII-Wert
[:Oberer, höher:] - alle Großbuchstaben
[:untere:] - alle Kleinbuchstaben
[:Alpha:] - alle Buchstaben
[:alnum:] - alle Buchstaben und Ziffern
[:Ziffer:] - alle Ziffern
[:xStelle:] - alle hexadezimalen Ziffern
[:Platz:] - alle horizontalen und vertikalen Leerzeichen
[:leer:] - alles horizontale Leerzeichen
[:Strg:] - alle Steuerzeichen
[:drucken:] - alle druckbaren Zeichen inklusive Leerzeichen
[:nprint:] - alle nicht druckbaren Zeichen
[:punkt:] - alle Satzzeichen
[:Graph:] - alle druckbaren Zeichen außer Leerzeichen
-tr_str_str $str1 $str2
Schnur $str1 aus dem lokalen Namen des Dokuments wird ersetzt durch $str2.
-tr_chr_chr $chrset1 $chrset2
Charaktere aus $chrset1 aus dem lokalen Namen des Dokuments wird ersetzt durch
entsprechendes Zeichen aus $chrset2. $charset1 und $charset2 sollte dasselbe haben
Syntax als $str in -tr_del_chr .
-store_name $str
Wenn Sie den lokalen Dateinamen der ersten mit Singlepage heruntergeladenen Datei ändern möchten
Modus sollten Sie diese Option nutzen.
-index_name $str
Mit dieser Option können Sie den Verzeichnisindexnamen ändern. Als Standard wird verwendet _._.html .
-store_index/-nostore_index
Mit der Option -nostore_index sollten Sie das Speichern von Verzeichnisindizes in HTML verbieten
Dateien.
-fnrules $t $m $r
Dies ist eine sehr leistungsstarke Option! Diese Option dient zur flexiblen Änderung des Layouts von
Lokaler Dokumentenbaum. Es akzeptiert drei Parameter. Erster Parameter $t wird verwendet, um zu sagen
Welcher Typ folgt dem Muster? F wird für Platzhaltermuster verwendet (verwendet fnmatch ())
und R wird für reguläre Ausdrucksmuster verwendet (unter Verwendung eines beliebigen unterstützten RE
Implementierung). Der zweite Parameter ist ein Übereinstimmungsmuster, das zur Auswahl der URLs hierfür verwendet wird
Regel. Wenn die URL diesem Muster entspricht, wird der lokale Name für diese URL berechnet
Befolgen Sie die Regeln des dritten Parameters. Und der dritte Parameter ist die lokale Namensbildung
Regel. Pavuk unterstützt jetzt zwei Arten lokaler Namensbildungsregeln. Eines ist einfach
basiert nur auf einfach Makros und andere kompliziertere verlängert Regel, die auch
ermöglicht die Ausführung mehrerer Funktionen. Anerkennung zwischen diesen beiden Arten von Regeln
erfolgt durch Betrachtung des ersten Zeichens der Regel. Falls das erste Zeichen ist
'(', Regel ist erweitert und in allen anderen Fällen handelt es sich um die einfache Art von Regel.
Einfacher regieren sollte Literale oder maskierte Makros enthalten. Makros werden mit % maskiert
Zeichen oder durch $-Zeichen.
Hier is Liste of anerkannt Makros:
$x - wobei x eine beliebige positive Zahl ist. Dieses Makro wird durch den x-ten Teilstring ersetzt
abgestimmt auf das RE-Muster. (Wenn Sie dies verwenden, müssen Sie RE verstehen!)
%i - wird durch die Protokoll-ID (http, https, ftp, gopher) ersetzt
%p - wird durch Passwort ersetzt. (Verwenden Sie dies nur, wenn es verwendbar ist)
%u - wird durch Benutzernamen ersetzt.
%h - wird durch den Hostnamen ersetzt.
%m - wird durch den Domänennamen ersetzt.
%r - wird durch die Portnummer ersetzt.
%d - wird durch den Pfad zum Dokument ersetzt.
%n - wird durch den Dokumentnamen ersetzt.
%b - wird durch den Basisnamen des Dokuments (ohne Erweiterung) ersetzt.
%e - wird durch Erweiterung ersetzt.
%s - wird durch Suchzeichenfolge ersetzt.
%M - wird durch den MIME-Dokumenttyp ersetzt. Wenn Sie dieses Makro verwenden, können Sie
*muss* auch verwenden -post_update Option, sonst funktioniert es nicht.
%E – wird durch die Standarderweiterung ersetzt, die dem MIME-Dokumenttyp zugewiesen ist. Wenn du
Wenn Sie dieses Makro verwenden, *müssen* Sie es auch verwenden -post_update Option, sonst funktioniert es nicht.
%x - wobei x eine positive Zahl ist. Dieses Makro wird durch das x-te Verzeichnis ersetzt
Pfad zum Dokument von Anfang an.
%-X - wobei x eine positive Zahl ist. Dieses Makro wird durch das x-te Verzeichnis ersetzt
Pfad zum Dokument vom Ende.
Hier ist ein Beispiel. Wenn Sie Dokumente per Erweiterung in einzelnen Verzeichnissen ablegen möchten,
Sie sollten die folgende Fnrules-Option verwenden:
-fnrules F '*' '/%e/%n'
Verlängert regieren beginnt immer mit dem Charakter ´('. Es verwendet eine Art LISPELN Google Trends, Amazons Bestseller
Syntax.
Hier sind Base Regeln für Schreiben verlängert Regeln : - der lokale Dateiname davon
Art ist eine Rückgabewertfunktion
- Jede Funktion ist in runde Klammern eingeschlossen ()
- Das erste Token direkt nach dem Öffnen der geschweiften Klammer ist der Funktionsname
- Jede Funktion hat eine feste Anzahl ungleich Null von Parametern
– Jede Funktion gibt einen numerischen oder Zeichenfolgenwert zurück
- Funktionsparameter werden durch beliebig viele Leerzeichen getrennt
- Parameter der Funktion sollten eine Zeichenfolge, eine Zahl, ein Makro oder eine andere Funktion sein
- string wird jemals in Anführungszeichen gesetzt "
- Jeder numerische Parameter kann in jeder von unterstützten Kodierung vorliegen strtod() Funktion
(oktal, dezimal, hexadezimal, ...)
- Es gibt keine implizite Konvertierung von Zahl in Zeichenfolge
- Jedem Makro wird ein vorangestellt % Zeichen und ist ein Zeichen lang
– Jedes Makro wird durch seine Zeichenfolgendarstellung aus der aktuellen URL ersetzt
- Funktionsparameter werden streng typisiert
- Die Funktion der obersten Ebene muss einen Zeichenfolgenwert zurückgeben
Die erweiterte Regel unterstützt den gesamten Satz von % Escape-Makros, unterstützt durch einfache Regeln,
plus zwei folgende Additionsmakros:
%U - URL-Zeichenfolge
%o - Standard-Lokalname für URL
Hier is Beschreibung of alle unterstützt Funktionen
sc - Zwei String-Parameter verketten
- akzeptiert zwei String-Parameter
- gibt einen String-Wert zurück
ss - Teilzeichenfolge-Formularzeichenfolge
- akzeptiert drei Parameter.
- Zuerst ist die Zeichenfolge, aus der wir einen Teil ausschneiden möchten
- Sekunde ist eine Zahl, die die Startposition in der Zeichenfolge darstellt
- Dritte ist eine Zahl, die die Endposition in der Zeichenfolge darstellt
- gibt einen String-Wert zurück
hsh - Berechnen Sie den Modulo-Hash-Wert aus der Zeichenfolge mit der angegebenen Basis
- akzeptiert zwei Parameter
- Zuerst ist die Zeichenfolge, für die wir den Hash-Wert berechnen
– Sekunde ist ein numerischer Wert für die Basis des Modulo-Hashs
- gibt einen numerischen Wert zurück
md5 - Berechnen Sie die MD5-Prüfsumme für die Zeichenfolge
- akzeptiert einen String-Wert
– gibt eine Zeichenfolge zurück, die die MD5-Prüfsumme darstellt
lo - Konvertieren Sie alle Zeichen in der Zeichenfolge in Kleinbuchstaben
- akzeptiert einen String-Wert
- gibt einen String-Wert zurück
up - Konvertieren Sie alle Zeichen in der Zeichenfolge in Großbuchstaben
- akzeptiert einen String-Wert
- gibt einen String-Wert zurück
ue - Codieren Sie unsichere Zeichen in einer Zeichenfolge mit derselben Codierung, die auch für verwendet wird
Codierung unsicherer Zeichen innerhalb der URL (%xx) Standardmäßig sind alle Nonascii kodiert
Werte, wenn diese Funktion verwendet wird.
- akzeptiert zwei String-Werte
- Zuerst ist die Zeichenfolge, die wir codieren möchten
- Zweitens ist eine Zeichenfolge, die unsichere Zeichen enthält
- String-Wert zurückgeben
dc - Löschen Sie unerwünschte Zeichen aus der Zeichenfolge (haben ähnliche Funktionen wie
-tr_del_chr Option)
- akzeptiert zwei String-Werte
- Zuerst ist die Zeichenfolge, aus der wir löschen möchten
- Die zweite ist eine Zeichenfolge, die Zeichen enthält, die wir löschen möchten.
- gibt einen String-Wert zurück
tc - Ersetzen Sie das Zeichen durch ein anderes Zeichen in der Zeichenfolge (haben Sie eine ähnliche Funktionalität).
as -tr_chr_chr Option)
– akzeptiert drei String-Werte
- Zuerst ist die Zeichenfolge, in der wir Zeichen ersetzen möchten
- Zweitens ist der Zeichensatz, den wir ersetzen möchten
- Der dritte ist der Zeichensatz, durch den wir ersetzen
- gibt einen String-Wert zurück
ts - Ersetzen Sie eine Zeichenfolge innerhalb der Zeichenfolge durch eine andere Zeichenfolge (mit ähnlicher Zeichenfolge).
Funktionalität als -tr_str_str Option)
– akzeptiert drei String-Werte
- Zuerst ist die Zeichenfolge, in der wir die Zeichenfolge ersetzen möchten
- Zweitens ist die From-Zeichenfolge
- Drittens ist das Bespannen
- gibt einen String-Wert zurück
spn - Berechnen Sie die Anfangslänge der Zeichenfolge, die nur die angegebene Menge enthält
Figuren. (haben die gleiche Funktionalität wie strspn() libc-Funktion)
- akzeptiert zwei String-Werte
- Zuerst ist die Eingabezeichenfolge
- Zweitens ist ein Satz akzeptabler Zeichen enthalten
- gibt einen numerischen Wert zurück
cspn - Berechnen Sie die Anfangslänge der Zeichenfolge, die die angegebene Menge nicht enthält
Figuren. (haben die gleiche Funktionalität wie strcspn() libc-Funktion)
- akzeptiert zwei String-Werte
- Zuerst ist die Eingabezeichenfolge
- Zweitens ist ein Satz inakzeptabler Zeichen enthalten
- gibt einen numerischen Wert zurück
sl - Länge der Zeichenfolge berechnen
- akzeptiert einen String-Wert
- gibt einen numerischen Wert zurück
ns - Konvertieren Sie die Zahl nach Format in eine Zeichenfolge
- akzeptiert zwei Parameter
- Der erste Parameter ist die gleiche Formatzeichenfolge wie für printf () Funktion
- Die zweite ist die Zahl, die wir konvertieren möchten
- gibt einen String-Wert zurück
lc – Gibt die Position des letzten Vorkommens des angegebenen Zeichens innerhalb der Zeichenfolge zurück
- akzeptiert zwei String-Parameter
- erste Zeichenfolge, in der wir suchen
- Die zweite Zeichenfolge enthält das gesuchte Zeichen
- gibt einen numerischen Wert zurück
+ - Fügen Sie zwei numerische Werte hinzu
- akzeptiert zwei numerische Werte
- gibt einen numerischen Wert zurück
- - Subtrahieren Sie zwei numerische Werte
- akzeptiert zwei numerische Werte
- gibt einen numerischen Wert zurück
% - Modulo-Addition
- akzeptiert zwei numerische Werte
- gibt einen numerischen Wert zurück
* - Mehrere zwei numerische Werte
- akzeptiert zwei numerische Werte
- gibt einen numerischen Wert zurück
/ - Dividieren Sie zwei numerische Werte
- akzeptiert zwei numerische Werte
- gibt einen numerischen Wert zurück
rmpar - Parameter aus der Abfragezeichenfolge entfernen
- akzeptiert zwei Zeichenfolgen
- Die erste Zeichenfolge ist die Zeichenfolge, die wir anpassen
- Der zweite Parameter ist der Name des Parameters, der entfernt werden soll
- Gibt die angepasste Zeichenfolge zurück
Getval - Parameterwert der Abfragezeichenfolge abrufen
- akzeptiert zwei Zeichenfolgen
– Die erste Zeichenfolge ist die Abfragezeichenfolge, aus der der Parameter abgerufen werden soll
Wert (normalerweise %s)
- Die zweite Zeichenfolge ist der Name des Parameters, den wir abrufen möchten
der Wert
- Gibt den Wert des Parameters oder eine leere Zeichenfolge zurück, wenn der Parameter
existiert nicht
sif - logische Entscheidung
- akzeptiert drei Parameter
- Erstens ist es numerisch und wann ist es Null, dann ist das Ergebnis dieser Entscheidung
ist das Ergebnis des zweiten Parameters, andernfalls ist das Ergebnis das Ergebnis des dritten
Parameter
- Zweiter Parameter ist eine Zeichenfolge
- Der dritte Parameter ist eine Zeichenfolge
– gibt das String-Ergebnis der Entscheidung zurück
! - logisch nicht
- akzeptiert einen numerischen Parameter
- gibt die Negation des Parameters zurück
& - logisch und
- Akzeptieren Sie zwei numerische Parameter
- Gibt logische Parameter zurück
| - logisch oder
- Akzeptieren Sie zwei numerische Parameter
- Gibt logische oder Parameter zurück
getext - Dateierweiterung abrufen
- Akzeptiere einen String (Dateiname oder Pfad)
– Gibt eine Zeichenfolge zurück, die die Erweiterung des Parameters enthält
ff - Vergleichen Sie zwei Zeichenfolgen
- akzeptiert zwei Zeichenfolgen zum Vergleich
- gibt den numerischen Wert 0 zurück, wenn unterschiedlich, 1, wenn gleich
jsf - JavaScript-Funktion ausführen
- akzeptiert einen String-Parameter, der den Namen enthält
In dem mit geladenen Skript angegebene JavaScript-Funktion
-js_script_file .
- Gibt einen String-Wert zurück, der dem Rückgabewert von entspricht
JavaScript-Funktion
– Diese Funktion ist nur verfügbar, wenn Pavuk kompiliert ist
mit Unterstützung für JavaScript-Bindungen
Zum Beispiel, wenn Sie eine sehr große Anzahl von Internetseiten auf dieselben spiegeln
lokales Verzeichnis, zu viele Einträge in einem Verzeichnis sollten die Leistung beeinträchtigen
Probleme. Sie können zum Beispiel verwenden hsh or md5 Funktionen, um eine weitere zu generieren
Ebene der Hash-Verzeichnisse basierend auf dem Hostnamen mit einer der folgenden Optionen:
-fnrules F '*' '(sc (nc „%02d/“ (hsh %h 100)) %Ö)'
-fnrules F '*' '(sc (ss (md5 %H) 0 2) %Ö)'
-Basis Level $nr
Anzahl der Verzeichnisebenen, die im lokalen Baum ausgelassen werden sollen.
Zum Beispiel beim Herunterladen einer URL ftp://ftp.idata.sk/pub/unix/www/pavuk-0.7pl1.tgz
Sie geben es in der Befehlszeile ein -Basis Level 4 im lokalen Baum wird erstellt
www/pavuk-0.7pl1.tgz nicht ftp/ftp.idata.sk_21/pub/unix/www/pavuk-0.7pl1.tgz als
normalerweise.
-default_prefix $str
Standardpräfix des gespiegelten Verzeichnisses. Diese Option wird nur verwendet, wenn Sie es versuchen
um den Inhalt des Remote-Verzeichnisses zu synchronisieren, das mit heruntergeladen wurde -Basis Level
Möglichkeit. Außerdem müssen Sie eine verzeichnisbasierte Synchronisierungsmethode verwenden, nicht eine URL-basierte
Synchronisationsmethode. Dies ist besonders nützlich, wenn es in Verbindung mit verwendet wird
-remove_old .
-remove_adv/-noremove_adv
Mit dieser Option wird das Entfernen von HTML-Tags, die enthalten, aktiviert/deaktiviert
Werbebanner. Die Banner werden nicht aus der HTML-Datei entfernt, werden aber entfernt
auskommentiert. Auch solche URLs werden nicht heruntergeladen. Diese Option ist wirksam
nur bei Verwendung mit Option -adv_re. Die Standardeinstellung ist deaktiviert. Diese Option ist
Nur verfügbar, wenn Ihr System eine der unterstützten regulären Versionen unterstützt
Implementierung von Ausdrücken.
-adv_re $RE
Diese Option wird verwendet, um reguläre Ausdrücke für übereinstimmende URLs von anzugeben
Werbebanner. Zum Beispiel: -adv_re http://ad.doubleclick.net/.* wird eingesetzt
um alle Dateien vom Server ad.doubleclick.net abzugleichen. Diese Option ist nur verfügbar
wenn Ihr System über eine unterstützte Implementierung regulärer Ausdrücke verfügt.
-unique_name/-nounique_name
Pavuk versucht standardmäßig immer, einer eindeutigen URL einen eindeutigen lokalen Dateinamen zuzuweisen. Wenn
Dieses Verhalten ist nicht erwünscht, Sie können die Option verwenden -nounique_name um dies zu deaktivieren.
Andere Optionen
-Schlaf $nr
Mit dieser Option können Sie die Anzahl der Sekunden angeben, die das Programm dauern soll
zwischen zwei Transfers gesperrt. Nützlich, um eine Serverüberlastung zu verhindern. Standardwert für
diese Option ist 0.
-rsleep/-norsleep
Wenn diese Option aktiv ist, randomisiert Pavuk die Ruhezeit zwischen den Übertragungen
im Intervall zwischen Null und dem mit angegebenen Wert -Schlaf Möglichkeit. Standardmäßig ist dies der Fall
Option inaktiv.
-Tage $nr
Wenn das Dokument eine Änderungszeit von mehr als $nr Tagen hat, dann im Synchronisierungsmodus pavuk
versucht, eine neuere Kopie des Dokuments vom Remote-Server abzurufen. Der Standardwert ist 0.
-remove_old/-noremove_old
Entfernen Sie unzulässige Dokumente (die auf der Remote-Site nicht vorhanden sind). Diese Option
haben nur Wirkung, wenn sie verzeichnisbasiert verwendet werden synchronisieren Modus. Bei Verwendung mit URL-basiert
Im Synchronisierungsmodus entfernt Pavuk keine alten Dateien, die aus dem Dokument ausgeschlossen wurden
Baum und werden in keinem HTML-Dokument referenziert. Sie müssen auch die Option verwenden
-Unterverzeichnis, damit Pavuk Dateien finden kann, die zum aktuellen Spiegel gehören. Als Standard Pavuk
entfernt keine alten Dateien.
-Browser $str
wird verwendet, um Ihren Browserbefehl festzulegen (im URL-Baumdialog können Sie mit der rechten Maustaste darauf klicken).
Öffnen Sie das Menü, von dem aus Sie den Browser unter der aktuell ausgewählten URL starten können. Das
Die Option ist nur verfügbar, wenn sie mit der GTK-GUI kompiliert wird und den URL-Baum unterstützt
Vorschau.
-debug/-nodebug
Aktiviert die Anzeige von Debug-Meldungen. Diese Option ist nur beim Kompilieren verfügbar
mit -DDEBUG. Wenn die Option -debug verwendet wird, gibt Pavuk ausführliche Informationen darüber aus
Dokumente, Informationen auf gesamter Protokollebene, Sperrinformationen und mehr (abhängig davon).
on -Debug-Ebene aufstellen). Diese Option wird wie ein Trigger verwendet, um die Ausgabe zu aktivieren
Debug-Meldungen ausgewählt von -Debug-Ebene Möglichkeit. Standardmäßig ist der Debug-Modus deaktiviert.
-Debug-Ebene $-Ebene
Legen Sie die Ebene der erforderlichen Debug-Informationen fest. $-Ebene kann ein numerischer Wert sein, der
Stellt eine Binärmaske für angeforderte Debugstufen oder eine durch Kommas getrennte Liste dar
unterstützte Debug-Level. Derzeit unterstützt Pavuk folgende Debug-Level:
html - für das HTML-Parser-Debugging
Protos - um serverseitige Protokollnachrichten anzuzeigen
Protokoll - um clientseitige Protokollnachrichten anzuzeigen
procs - um einige spezielle Prozeduraufrufe zu sehen
Schlösser - zum Debuggen der Dokumentensperre
Netto- - zum Debuggen einiger Low-Level-Netzwerk-Sachen
misc - für verschiedene unsortierte Debug-Meldungen
Benutzer – für ausführliche Nachrichten auf Benutzerebene
alle - Fordern Sie alle derzeit unterstützten Debug-Level an
mtlock - Sperren von Ressourcen in einer Multithreading-Umgebung
mtthr - Starten/Schwächen/Rufen/Stoppen von Threads in Multithread-Umgebungen
protod - zum DEBUGGING von POST-Anfragen
Grenzen - Beim Debuggen von einschränkenden Optionen sehen Sie den Grund dafür
URLs werden von Pavuk abgelehnt und welche Option hat dies verursacht.
ssl – um eine ausführliche Berichterstattung über SSL-bezogene Dinge zu ermöglichen.
-remind_cmd $str
Diese Option ist nur wirksam, wenn Pavuk ausgeführt wird Erinnerung Modus. Befehlen
Mit dieser Option angegeben, sendet pavuk das Ergebnis des laufenden Erinnerungsmodus. Es gibt
aufgelistete URLs, die geändert wurden, und URLs, die Fehler aufweisen. Standarderinnerung
Der Befehl lautet „mailx user@server -s \“pavuk Reminder Result\“ .
-nscache_dir $dir
Pfad zum Netscape-Browser-Cache-Verzeichnis. Wenn Sie diesen Pfad angeben, versucht Pavuk
um herauszufinden, ob sich in diesem Cache eine URL befindet. Wenn die URL vorhanden ist, wird sie andernfalls abgerufen
Pavuk wird es aus dem Internet herunterladen. Die Indexdatei des Cache-Verzeichnisses muss benannt werden
index.db und muss sich im Cache-Verzeichnis befinden. Um diese Funktion zu unterstützen,
pavuk muss mit BerkeleyDB 1.8x verknüpft werden.
-mozcache_dir $dir
Pfad zum Mozilla-Browser-Cache-Verzeichnis. Gleiche Funktionalität wie beim Vorgänger
Option, nur für verschiedene Browser mit unterschiedlichen Cache-Formaten. Pavuk unterstützt
beide Formate des Mozilla-Browser-Festplattencaches (alt für Versionen <0.9 und neu verwendet in
0.9=<). Das Cache-Verzeichnis im alten Format muss die Indexdatenbank des Cache-Verzeichnisses enthalten
mit name Cache.db. Dann muss das Cache-Verzeichnis im neuen Format eine Kartendatei enthalten
_CACHE_MAP_und drei Blockdateien _CACHE_001_, _CACHE_002_, _CACHE_003_. Nach
unterstützt das alte Mozilla-Cache-Format, Pavuk muss mit BerkeleyDB 1.8x verknüpft werden. Neu
Das Mozilla-Cache-Format erfordert keine externe Bibliothek.
-post_cmd $str
Nachbearbeitungsbefehl, der nach erfolgreichem Download von ausgeführt wird
dokumentieren. Dieser Befehl kann irgendwie mit dem Dokument umgehen. Während der Laufzeit
Mit diesem Befehl lässt Pavuk das eigentliche Dokument gesperrt, sodass keine Chance besteht, dass einige
Ein anderer Pavuk-Prozess ändert das Dokument. Dieser Nachbearbeitungsbefehl wird abgerufen
drei zusätzliche Parameter von Pavuk.
- Lokaler Name des Dokuments
- 1/0 1, wenn das Dokument ein HTML-Dokument ist, 0, wenn nicht
- Original-URL dieses Dokuments
-hack_add_index/-nohack_add_index
Das ist eine etwas knifflige Option. Dadurch wird Pavuk gezwungen, auch ein Verzeichnis zur URL-Warteschlange hinzuzufügen
Indizes aller in der Warteschlange befindlichen Dokumente. Dadurch kann Pavuk weitere Dokumente herunterladen
Site, als sie beim normalen Durchlaufen von HTML-Dokumenten erreichen kann. Etwas schmutzig
aber in manchen Fällen nützlich.
-js_script_file $ file
Pavuk verfügt optional über einen integrierten JavaScript-Interpreter, um ein hohes Niveau zu ermöglichen
Anpassung einiger interner Verfahren. Derzeit sind Anpassungen möglich
Mit Ihren eigenen JavaScript-Funktionen zwei Dinge. Damit können Sie präzise einstellen
einschränkende Optionen, oder Sie können eigene Funktionen schreiben, die innerhalb von Regeln verwendet werden können
-fnrules Möglichkeit. Mit dieser Option können Sie JavaScript-Skripte mit Funktionen laden
in pavuks internen JavaScript-Interpreter. Erfahren Sie mehr über diese Funktionen
Lesen Sie das separate Dokument jsbind.txt, das Pavuk-Quellen auf oberster Ebene enthält
Verzeichnis. Diese Option ist nur verfügbar, wenn Sie Pavuk mit Unterstützung kompiliert haben
für JavaScript-Bindungen.
EXIT STATUS
Ab Version 0.9pl29 hat Pavuk die Statusanzeige durch Exit-Codes geändert. Früher
Der Exit-Status 0 der Versionen bedeutete „kein Fehler“ und der Exit-Status ungleich Null war so etwas wie „count“.
von fehlgeschlagenen Dokumenten. In allen Versionen nach 0.0pl29 sind folgende Exit-Codes definiert:
0 - kein Fehler, alles ist in Ordnung
1 – Fehler in der Konfiguration der Pavuk-Optionen oder
Fehler in den Konfigurationsdateien
2 – Beim Herunterladen von Dokumenten ist ein Fehler aufgetreten
UMGEBUNGSBEDINGUNG VARIABLEN
USER Die Variable wird verwendet, um eine E-Mail-Adresse aus Benutzer- und Hostnamen zu erstellen
LC_ * or SPRACHE
Wird verwendet, um eine internationalisierte Umgebung einzurichten
PAVUKRC_FILE
Mit dieser Variablen können Sie einen alternativen Speicherort für Ihr Pavukrc angeben
Konfigurationsdatei.
ERFORDERLICH EXTERNAL PROGRAMME
at dient der Terminplanung.
gunzip wird verwendet, um gzip zu dekodieren oder kodierte Dokumente zu komprimieren.
Fehler
Wenn Sie welche finden, lassen Sie es mich bitte wissen.
Nutzen Sie Pavuk online über die Dienste von onworks.net