Ito ang command webcheck na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator
PROGRAMA:
NAME
webcheck - tagasuri ng link ng website
SINOPSIS
webcheck [OPTION] ... URL
DESCRIPTION
webcheck susuriin ang dokumento sa tinukoy na URL para sa mga link sa iba pang mga dokumento, sundin
ang mga link na ito nang paulit-ulit at bumuo ng isang HTML na ulat.
-ako, --panloob=PATTERN
Markahan ang mga URL na tumutugma sa PATTERN (perl-type na regular na expression) bilang isang panloob na link.
Maaaring gamitin ng maraming beses. Tandaan na ang PATTERN ay itinugma laban sa buong URL.
Ang mga URL na tumutugma sa PATTERN na ito ay ituturing na panloob, kahit na tumugma sila sa isa sa
ang --external PATTERNs.
-x, --panlabas=PATTERN
Markahan ang mga URL na tumutugma sa PATTERN (perl-type na regular na expression) bilang isang panlabas na link.
Maaaring gamitin ng maraming beses. Tandaan na ang PATTERN ay itinugma laban sa buong URL.
-y, --yank=PATTERN
Huwag suriin ang mga URL na tumutugma sa PATTERN (perl-type na regular na expression). Tulad ng -x
flag, kahit na ang pagpipiliang ito ay magiging sanhi ng webcheck upang hindi suriin ang link na tumugma sa regex
samantalang susuriin ng -x ang link ngunit hindi ang mga anak nito. Maaaring gamitin ng maraming beses.
Tandaan na ang PATTERN ay itinugma laban sa buong URL.
-b, --base-lamang
Isaalang-alang ang anumang URL na hindi nagsisimula sa base URL bilang panlabas. Halimbawa, kung
Tumakbo ka
webcheck -b http://www.example.com/foo
pagkatapos http://www.example.com/foo/bar ay ituturing na panloob samantalang
http://www.example.com/ ituturing na panlabas. Bilang default, naka-on ang lahat ng page
ang site ay ituturing na panloob.
-a, --iwasan-panlabas
Iwasan ang mga panlabas na link. Karaniwan kung sinusuri ng webcheck ang isang pahina ng HTML at nahahanap nito
isang link na tumuturo sa isang panlabas na dokumento, ito ay titingnan upang makita kung ang panlabas na iyon
umiiral ang dokumento. Hindi pinapagana ng flag na ito ang pagkilos na iyon.
--wag pansinin ang mga robot
Huwag kunin at i-parse ang mga robots.txt file. Bilang default, ang mga robots.txt file ay
nakuha at pinarangalan. Kung sigurado kang gusto mong balewalain at i-override ang
ang desisyon ng webmaster ay maaaring gamitin ang opsyong ito.
Para sa higit pang impormasyon sa paghawak ng robots.txt tingnan ang seksyong MGA TALA sa ibaba.
-q, --tahimik, --tahimik
Huwag i-print ang pag-unlad habang binabagtas ng webcheck ang isang site.
-d, --debug
Mag-print ng impormasyon sa pag-debug habang gina-crawl ang site. Ang pagpipiliang ito ay pangunahing kapaki-pakinabang
para sa mga developer.
-o, --output=DIRECTORY
Direktoryo ng output. Gamitin upang tukuyin ang direktoryo kung saan itatapon ito ng webcheck
mga ulat. Ang default ay ang kasalukuyang direktoryo o tulad ng tinukoy ng config.py. Kung ito
direktoryo ay hindi umiiral ito ay malilikha para sa iyo (kung maaari).
-c, --magpatuloy
Subukang magpatuloy mula sa nakaraang pagtakbo. Kapag ginagamit ang pagpipiliang ito, hahanapin ng webcheck
isang webcheck.dat sa output directory. Binabasa ang file na ito upang maibalik ang estado
mula sa nakaraang pagtakbo. Nagbibigay-daan ito sa webcheck na ipagpatuloy ang isang naantala dati
tumakbo. Kapag ginamit ang opsyong ito, gagawin ang --internal, --external at --yank na mga opsyon
hindi papansinin pati na rin ang anumang mga argumento ng URL. Ang --base-only at --avoid-external
ang mga pagpipilian ay dapat na kapareho ng nakaraang pagtakbo.
Tandaan na ang opsyong ito ay pang-eksperimento at maaaring magbago ang semantika sa darating
mga release (lalo na may kaugnayan sa iba pang mga opsyon). Tandaan din na ang naka-imbak
hindi garantisadong magkatugma ang mga file sa pagitan ng mga release.
-f, --puwersa
I-overwrite ang mga file nang hindi nagtatanong. Ang pagpipiliang ito ay kinakailangan para sa pagpapatakbo ng webcheck na hindi
interactive.
-r, --redirects=N
Lalim ng pag-redirect. dapat sundin ang bilang ng mga pag-redirect sa webcheck kapag sumusunod sa a
link. 0 ay nagpapahiwatig na sundin ang lahat ng mga pag-redirect.
-ikaw, --userpass=URL
Tumukoy ng URL na may impormasyon ng username at password na gagamitin para sa basic
pagpapatunay kapag bumibisita sa site.
hal http://test:[protektado ng email]/
Maaaring tukuyin ang opsyong ito nang maraming beses.
-w, --wait=SECONDS
Maghintay SECONDS sa pagitan ng mga pagkuha ng dokumento. Karaniwan ang webcheck ay magpoproseso ng isang url at
agad na lumipat sa susunod. Gayunpaman sa ilang mga naka-load na sistema ay maaaring ito ay kanais-nais
upang magkaroon ng webcheck na i-pause sa pagitan ng mga kahilingan. Maaaring itakda ang opsyong ito sa anumang hindi-
negatibong numero.
-sa, --bersyon
Ipakita ang bersyon ng programa.
-h, - Tumulong
Ipakita ang maikling buod ng mga opsyon.
URL KLASE
Ang mga URL ay nahahati sa dalawang klase:
Panloob Kinukuha ang mga URL at sinusuri ang nakuhang item para sa syntax. Din ang
Ang nakuhang item ay hinahanap para sa mga link sa iba pang mga item (ng anumang klase) at ang mga link na ito ay
sinundan.
panlabas Kinukuha lang ang mga URL para subukan kung wasto ang mga ito at para makakuha ng ilang basic
impormasyon mula sa kanila (pamagat, laki, uri ng nilalaman, atbp). Ang mga nakuhang item ay hindi
siniyasat para sa mga link sa iba pang mga item.
Bukod sa kanilang klase, maaari ding isaalang-alang ang mga URL hinila (tulad ng tinukoy sa --yank
o --avoid-external na mga opsyon). Ang mga URL ay maaaring maging panloob o panlabas at hindi magiging
nakuha o nasuri sa lahat. Itinuturing ding yanked ang mga URL ng mga hindi sinusuportahang scheme.
HALIMBAWA
Tingnan ang site na www.example.com ngunit isaalang-alang ang anumang landas na may "/webcheck" dito
panlabas.
webcheck http://www.example.com/ -x /webcheck
NOTA
Kapag sinusuri ang mga panloob na URL, pinararangalan ng webcheck ang robots.txt file, na kinikilala ang sarili bilang
webcheck ng user-agent. Ang mga hindi pinapayagang link ay hindi susuriin na parang ang -y na opsyon
tinukoy para sa URL na iyon. Upang payagan ang webcheck na i-crawl ang mga bahagi ng isang site na katulad ng ibang mga robot
hindi pinapayagan, gumamit ng isang bagay tulad ng:
Ahente ng gumagamit: *
Huwag payagan: /foo
Ahente ng gumagamit: webcheck
Payagan: /foo
Kapaligiran
_proxy
Proxy url para sa .
Pag-uulat TUMBOK
Ang mga ulat ng bug ay dapat ipadala sa mailing list[protektado ng email]>.
Higit pang impormasyon sa pag-uulat ng mga bug ay matatagpuan sa webcheck homepage:
http://arthurdejong.org/webcheck/
COPYRIGHT
Copyright © 1998, 1999 Albert Hopkins (marduk)
Copyright © 2002 Mike W. Meyer
Copyright © 2005, 2006, 2007, 2008, 2009, 2010 Arthur de Jong
ang webcheck ay libreng software; tingnan ang pinagmulan para sa mga kundisyon ng pagkopya. WALANG warranty;
hindi kahit para sa MERCHANTABILITY o FITNESS FOR A PARTICULAR PURPOSE.
Ang mga file na ginawa bilang output mula sa software ay hindi awtomatikong nahuhulog sa ilalim ng
copyright ng software, maliban kung tahasang nakasaad kung hindi.
Gamitin ang webcheck online gamit ang mga serbisyo ng onworks.net