checkbotp - Online în cloud

Aceasta este comanda checkbotp care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS

PROGRAM:

NUME


Checkbot - Verificator de legături WWW

REZUMAT


checkbot [--cookie-uri] [--depanare] [--fişier nume de fișier] [--Ajutor]
[--mailto adrese de email] [--noproxy lista de domenii]
[--verbos]
[--url URL de pornire]
[--Meci potrivește șir] [--exclude exclude șirul]
[--proxy URL proxy] [--doar intern]
[--ignora ignora șirul]
[--filtru expresie regulată de substituție]
[--stil URL fișier de stil]
[--Notă Notă] [--dormi secunde] [--pauză pauză]
[--interval secunde] [--nu avertiza coduri de răspuns HTTP]
[--enable-virtual]
[--limba cod de limbă]
[--suprima fișier de suprimare]
[adrese URL de pornire]

DESCRIERE


Checkbot verifică legăturile dintr-o anumită porțiune a World Wide Web. Acesta creează HTML
pagini cu diagnosticare.

Checkbot folosește LWP pentru a găsi adrese URL pe pagini și pentru a le verifica. Acceptă aceleași scheme ca și
LWP face și găsește aceleași link-uri pe care le va găsi HTML::LinkExtor.

Checkbot consideră că linkurile sunt fie „interne”, fie „externe”. Link-urile interne sunt link-uri
în spațiul web care trebuie verificat. Dacă un link intern indică către un web
document, acest document este preluat, iar linkurile sale sunt extrase și procesate. Extern
link-urile sunt verificate doar ca să funcționeze. Checkbot verifică linkurile pe măsură ce le găsește, deci interne
și link-urile externe sunt verificate în același timp, chiar dacă sunt tratate diferit.

Opțiunile pentru Checkbot sunt:

--cookie-uri
Acceptați cookie-uri de pe server și oferiți-le din nou la solicitări ulterioare. Aceasta ar putea fi
util pentru serverele care folosesc cookie-uri pentru a gestiona sesiunile. În mod implicit, Checkbot nu o face
accepta orice cookie-uri.

--depanare
Activați modul de depanare. Nu mai este acceptat, dar va păstra unele fișiere
în jurul că altfel ar fi șterse.

--fişier
Utilizați fișierul fişier nume ca bază pentru numele fișierelor rezumate. Pagina de rezumat va
obţine fişier nume dat, iar paginile serverului se bazează pe fişier nume fara
extensia .html. De exemplu, setarea acestei opțiuni la „index.html” va crea un
pagina de rezumat numită index.html și paginile server numite index-server1.html și
index-server2.html.

Valoarea implicită pentru această opțiune este „checkbot.html”.

--Ajutor
Afișează un scurt mesaj de ajutor pe ieșirea standard.

--mailto [, ]
Trimite e-mail la e-mail adresa când Checkbot a terminat verificarea. Poti da mai mult decat
o adresă separată prin virgulă. E-mailul de notificare include un mic rezumat al
rezultatele. Începând cu Checkbot 1.76, e-mailul este trimis numai dacă au fost găsite probleme în timpul
rularea Checkbot.

--noproxy
Nu trimiteți cereri proxy către domeniile date. Lista de domenii trebuie să fie o virgulă
listă separată. De exemplu, evitați deci să utilizați proxy-ul pentru localhost și
someserver.xyz, puteți folosi „--noproxy localhost,someserver.xyz”.

--verbos
Afișați o ieșire detaliate în timpul rulării. Include toate linkurile verificate, rezultatele din
verificări etc.

--url
Setați adresa URL de pornire. Checkbot începe să verifice la această adresă URL, apoi verifică recursiv
toate linkurile gasite pe aceasta pagina. Adresa URL de pornire are prioritate față de adresele URL suplimentare
specificate pe linia de comandă.

Dacă nu este specificată nicio schemă pentru adresa URL, se presupune protocolul fișierului.

--Meci
Această opțiune selectează paginile pe care Checkbot le consideră locale. Dacă Meci şir is
conținute în adresa URL, apoi Checkbot consideră pagina locală, o preia și
va verifica toate legăturile conținute pe acesta. În caz contrar pagina este considerată externă
și se verifică doar cu o solicitare HEAD.

Dacă nu este explicit Meci şir este dat, vor fi utilizate adresele URL de pornire (vezi opțiunea „--url”)
în schimb ca șir de potrivire. În acest caz, numele ultimei pagini, dacă există, va fi tăiat.
De exemplu, o adresă URL de pornire precum „http://some.site/index.html" va avea ca rezultat un implicit
Meci şir de "http://some.site/".

Meci şir poate fi o expresie regulată perl. De exemplu, pentru a verifica principalul
pagina serverului și toate paginile HTML de sub aceasta, dar nu și paginile HTML din
subdirectoarele serverului, the Meci şir va fi
„www.someserver.xyz/($|[^/]+.html)”.

--exclude
URL-uri care se potrivesc cu exclude şir sunt considerate a fi externe, chiar dacă se întâmplă
se potrivesc Meci şir (Vezi opțiunea „--match”). Adresele URL care se potrivesc cu șirul --exclude sunt
încă se verifică și vor fi raportate dacă se găsesc probleme, dar nu vor fi
a verificat pentru mai multe link-uri către site.

exclude şir poate fi o expresie regulată perl. De exemplu, pentru a lua în considerare toate adresele URL
cu un șir de interogare extern, utilizați „[=\?]”. Acest lucru poate fi util atunci când o adresă URL cu o interogare
string deblochează calea către o bază de date uriașă care va fi verificată.

--filtru
Această opțiune definește a filtru şir, care este o expresie regulată perl. Acest filtru
este rulat pe fiecare URL găsită, rescriind astfel adresa URL înainte de a intra în coada de așteptare
verificat. Poate fi folosit pentru a elimina elemente dintr-o adresă URL. Această opțiune poate fi utilă atunci când
legăturile simbolice indică același director sau când se adaugă un sistem de management al conținutului
ID-urile de sesiune la URL-uri.

De exemplu, „/vechi/nou/” ar înlocui aparițiile lui „vechi” cu „nou” în fiecare adresă URL.

--ignora
URL-uri care se potrivesc cu ignora şir nu sunt verificate deloc, sunt complet ignorate de
Checkbot. Acest lucru poate fi util pentru a ignora link-urile cu probleme cunoscute sau pentru a ignora link-urile care conduc
în baze de date. The ignora şir este potrivit după filtru şir a fost aplicat.

ignora şir poate fi o expresie regulată perl.

De exemplu, „www.server.com\/(unu|două)” ar corespunde tuturor adreselor URL care încep cu oricare
www.server.com/one sau www.server.com/two.

--proxy
Acest atribut specifică adresa URL a unui server proxy. Doar solicitările HTTP și FTP
va fi trimis la acel server proxy.

--doar intern
Omiteți verificarea legăturilor externe la sfârșitul rulării Checkbot. Doar potrivire
link-urile sunt verificate. Rețineți că unele redirecționări pot cauza totuși link-uri externe
verificate.

--Notă
nota este inclusă textual în mesajul de e-mail (vezi opțiunea „--mailto”). Acesta poate fi
util pentru a include adresa URL a paginii HTML rezumat pentru o referință ușoară, de exemplu.

Numai semnificativ în combinație cu opțiunea „--mailto”.

--dormi
Un numar de secunde să dormi între cereri. Implicit este 0 secunde, adică nu
dormi deloc între cereri. Setarea acestei opțiuni poate fi utilă pentru a menține sarcina
serverul web este oprit în timp ce rulați Checkbot. Această opțiune poate fi setată și la a
număr fracționar, adică o valoare de 0.1 va dormi o zecime de secundă între ele
solicitări.

--pauză
Timeout implicit pentru cereri, specificat în secunde. Valoarea implicită este de 2 minute.

--interval
Intervalul maxim dintre actualizările paginilor web cu rezultate în secunde. Implicit este 3
ore (10800 secunde). Checkbot va începe intervalul la un minut și treptat
extinde-l spre intervalul maxim.

--stil
Când se utilizează această opțiune, Checkbot încorporează această adresă URL ca link către un fișier de stil pe fiecare
pagina pe care o scrie. Acest lucru facilitează personalizarea aspectului paginilor generate de
Checkbot.

--nu avertiza
Nu includeți avertismente pe paginile de rezultate pentru acele coduri de răspuns HTTP care se potrivesc
expresia regulată. De exemplu, --dontwarn „(301|404)” nu ar include 301 și
404 coduri de răspuns.

Checkbot folosește codurile de răspuns generate de server, chiar dacă acest cod de răspuns
nu este definit în RFC 2616 (HTTP/1.1). Pe lângă codul normal de răspuns HTTP,
Checkbot definește câteva coduri de răspuns pentru situații care nu sunt din punct de vedere tehnic a
problemă, dar care oricum provoacă probleme în multe cazuri. Aceste coduri sunt:

901 Numele gazdei așteptat, dar nu a fost găsit
În acest caz, adresa URL acceptă un nume de gazdă, dar nu a fost găsit
în adresa URL. Acest lucru indică de obicei o greșeală în adresa URL. Un
excepția este că această verificare nu se aplică știrilor: URL-uri.

902 Nume gazdă necalificat găsit
În acest caz, numele gazdei nu conține partea de domeniu.
Acest lucru înseamnă de obicei că paginile funcționează bine atunci când sunt vizualizate în interior
domeniul original, dar nu atunci când este privit din afara acestuia.

903 Bară oblică dublă în calea URL
URL-ul are o bară oblică dublă. Acest lucru este legal, dar ceva web
serverele nu se pot descurca foarte bine și pot cauza Checkbot
fugi. Vezi și comentariile de mai jos.

904 Schemă necunoscută în URL
Adresa URL începe cu o schemă pe care Checkbot nu o cunoaște
despre. Acest lucru este adesea cauzat de introducerea greșită a schemei URL-ului,
dar schema poate fi și una legală. În acest caz, vă rugăm să lăsați
știu ca să poată fi adăugat la Checkbot.

--enable-virtual
Această opțiune permite gestionarea serverelor virtuale. Checkbot presupune apoi că toate
numele de gazdă pentru serverele interne sunt unice, chiar dacă adresele lor IP pot fi
la fel. În mod normal, Checkbot utilizează adresa IP pentru a distinge serverele. Aceasta are
avantajul că, dacă un server are două nume (ex. www și bamboozle) paginile sale primesc doar
verificat o dată. Când doriți să verificați mai multe servere virtuale, acest lucru cauzează probleme,
pe care această caracteristică funcționează folosind numele de gazdă pentru a distinge serverul.

--limba
Argumentul pentru această opțiune este un cod de limbă din două litere. Checkbot va folosi limbajul
negociere pentru a solicita dosare în limba respectivă. Implicit este să solicitați limba engleză
limba (codul de limbă „ro”).

--suprima
Argumentul pentru această opțiune este un fișier care conține combinații de coduri de eroare și
URL-uri pentru care să suprimați avertismentele. Acest lucru poate fi folosit pentru a evita raportarea cunoscute și
erori sau avertismente URL nereparabile.

Formatul fișierului de suprimare este un format simplu delimitat de spații albe, mai întâi
listând codul de eroare urmat de adresa URL. Fiecare combinație de cod de eroare și adresă URL este
listate pe o linie nouă. Comentariile pot fi adăugate la fișier pornind rândul cu a
"#" caracter.

# 301 mutat permanent
301 http://www.w3.org/P3P

# 403 Interzis
403 http://www.herring.com/

Pentru mai multă flexibilitate, o expresie regulată poate fi folosită în locul unui URL normal. The
expresia regulată trebuie să fie închisă cu bare oblice. De exemplu, pentru a suprima totul
403 erori pe wikipedia:

403 /http:\/\/wikipedia.org/.*/

Opțiuni învechite care vor dispărea într-o versiune viitoare:

--allow-simple-hosts (învechit)
Această opțiune dezactivează avertismentele despre adresele URL care conțin nume de gazdă necalificate. Acest
este util pentru site-urile intranet care folosesc adesea doar un simplu nume de gazdă sau chiar
„localhost” în linkurile lor.

Utilizarea acestei opțiuni este depreciată. Vă rugăm să utilizați mecanismul --dontwarn pentru eroarea 902
in schimb.

SUGESTII AND SFATURI


Probleme cu verificarea legăturilor FTP
Unii utilizatori pot întâmpina probleme consistente la verificarea legăturilor FTP. În aceste cazuri
poate fi util să instruiți Net::FTP să folosească modul FTP pasiv pentru a verifica fișierele. Acesta poate
se realizează prin setarea variabilei de mediu FTP_PASSIVE la 1. De exemplu, folosind
shell bash: „FTP_PASSIVE=1 checkbot...”. Consultați documentația Net::FTP pentru mai multe
Detalii.

Checkbot fugar
În unele cazuri, Checkbot durează o veșnicie să se termine. Există două cauze comune
pentru aceasta problema.

În primul rând, ar putea exista o aplicație de bază de date ca parte a site-ului web care generează a
pagină nouă bazată pe link-uri de pe altă pagină. Din moment ce Checkbot încearcă să călătorească prin toate
link-uri, aceasta va crea un număr infinit de pagini. Acest tip de efect de fuga este
de obicei previzibile. Poate fi evitat folosind opțiunea --exclude.

În al doilea rând, o problemă de configurare a serverului poate provoca o buclă în generarea adreselor URL pentru pagini
care chiar nu există. Acest lucru va avea ca rezultat adrese URL ale formularului
http://some.server/images/images/images/logo.png, cu tot mai multe „imagini” incluse.
Checkbot nu poate verifica acest lucru deoarece serverul ar fi trebuit să indice că
paginile solicitate nu există. Nu există nicio modalitate ușoară de a rezolva acest lucru în afară de remedierea
server web ofensator sau link-uri rupte.

Probleme cu linkurile https://
Mesajul de eroare

Nu se poate găsi metoda obiectului „nou” prin pachetul „LWP::Protocol::https::Socket”

de obicei înseamnă că instalarea curentă a LWP nu acceptă verificarea SSL
link-uri (adică link-uri care încep cu https://). Această problemă poate fi rezolvată prin instalare
modulul Crypt::SSLeay.

EXEMPLE


Cea mai simplă utilizare a Checkbot este verificarea unui set de pagini de pe un server. Pentru a-mi verifica
pagini de checkbot pe care le-aș folosi:

checkbot http://degraaff.org/checkbot/

Executarea Checkbot poate dura ceva timp, astfel încât Checkbot poate trimite un e-mail de notificare atunci când rulează
Terminat:

checkbot --mailto hans@degraaff.org http://degraaff.org/checkbot/

Este posibil să verificați un set de fișiere locale fără a utiliza un server web. Numai asta funcționează
pentru fișiere statice, dar poate fi util în unele cazuri.

fișier checkbot:///var/www/documents/

CERINTE


Acest script folosește modulele „LWP”.

CRECIZITE


Acest script poate trimite e-mail atunci când „Mail::Send” este prezent.

Utilizați checkbotp online folosind serviciile onworks.net



Cele mai recente programe online Linux și Windows