Jest to aplikacja dla systemu Linux o nazwie Heritrix: Internet Archive Web Crawler, której najnowszą wersję można pobrać jako heritrix-1.8.0.jar. Można go uruchomić online w darmowym dostawcy hostingu OnWorks dla stacji roboczych.
Pobierz i uruchom online tę aplikację o nazwie Heritrix: Internet Archive Web Crawler z OnWorks za darmo.
Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:
- 1. Pobrałem tę aplikację na swój komputer.
- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 3. Prześlij tę aplikację w takim menedżerze plików.
- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.
- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.
- 6. Pobierz aplikację, zainstaluj ją i uruchom.
Heritrix: Internetowy robot indeksujący archiwum internetowego
Ad
OPIS
Projekt Archive-Crawler buduje Heritrix: elastyczny, rozszerzalny, solidny i skalowalny robot sieciowy, który może pobierać, archiwizować i analizować pełną różnorodność i zakres treści dostępnych w Internecie.Zakładka Charakterystyka
- dogłębnie i dokładnie zbiera zawartość strony internetowej
- działa na dowolnej platformie Java (zalecany Linux)
- przechowuje zawartość w formacie agregacji/transkrypcji ARC lub ISO WARC
- interfejs sieciowy do kontroli operatora i monitorowania crawlów
Publiczność
Zaawansowani użytkownicy końcowi, programiści, edukacja, administracja rządowa, informatyka, organizacje non-profit
Interfejs użytkownika
Oparte na sieci Web
Język programowania
Java
Środowisko bazy danych
Berkeley/Śpiopiat/Gdbm (DBM)
Jest to aplikacja, którą można również pobrać z https://sourceforge.net/projects/archive-crawler/. Jest hostowany w OnWorks, aby można go było uruchomić online w najprostszy sposób z jednego z naszych bezpłatnych systemów operacyjnych.