To aplikacja dla systemu Linux o nazwie crwlr, której najnowszą wersję można pobrać jako v3.5.5sourcecode.tar.gz. Można ją uruchomić online na bezpłatnym hostingu OnWorks dla stacji roboczych.
Pobierz i uruchom online tę aplikację o nazwie crwlr z OnWorks za darmo.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
ZRZUTY EKRANU
Ad
pełzanie
OPIS
Ta biblioteka zapewnia pewnego rodzaju ramy i wiele gotowych do użycia, tak zwanych kroków, które można wykorzystać jako klocki do budowy własnych robotów indeksujących i skrobaków. Zanim zagłębimy się w bibliotekę, przyjrzyjmy się terminom indeksowania i skrobania. W większości rzeczywistych przypadków użycia te dwie rzeczy idą w parze, dlatego ta biblioteka pomaga i łączy obie te rzeczy. Przeszukiwacz (internetowy) to program, który (pobiera) ładuje dokumenty i podąża za zawartymi w nim linkami, aby również je załadować. Robot indeksujący mógłby po prostu załadować właściwie wszystkie znalezione linki (i może to załadować zgodnie z plikiem robots.txt), a następnie po prostu załadować cały internet (jeśli adresy URL, od których się zaczyna, nie są ślepymi zaułkami). Lub może być ograniczone do ładowania tylko linków spełniających określone kryteria (w tej samej domenie/hoście, ścieżka URL zaczyna się od "/foo",...) lub tylko do określonej głębokości. Głębokość 3 oznacza głębokość 3 poziomów. Linki znalezione w początkowych adresach URL przekazanych robotowi indeksującemu mają poziom 1 i tak dalej.
Funkcjonalności
- Uprzejmość gąsienicowa (z uwzględnieniem pliku robots.txt, ograniczania przepustowości,...)
- Uzyskaj bezwzględne linki z dokumentów HTML
- Pobierz mapy witryn z pliku robots.txt i pobierz wszystkie adresy URL z tych map witryn
- Indeksuj (ładuj) wszystkie strony witryny
- Użyj dowolnych metod HTTP (GET, POST,...) i wyślij dowolne nagłówki lub treść
- Iteruj po stronach list stronicowanych
Język programowania
PHP
Kategorie
Jest to aplikacja, którą można również pobrać z https://sourceforge.net/projects/crwlr.mirror/. Został umieszczony w OnWorks, aby można go było uruchomić online w najprostszy sposób z jednego z naszych bezpłatnych systemów operacyjnych.