Это приложение для Linux под названием Heritrix: Internet Archive Web Crawler, последний выпуск которого можно загрузить как heritrix-1.8.0.jar. Его можно запустить онлайн в бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите онлайн это приложение под названием Heritrix: Internet Archive Web Crawler с OnWorks бесплатно.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
Heritrix: поисковый робот интернет-архивов
Ad
ОПИСАНИЕ
Проект поискового робота создает Heritrix: гибкий, расширяемый, надежный и масштабируемый веб-сканер, способный извлекать, архивировать и анализировать все разнообразие и широту доступного в Интернете контента.Особенности
- глубоко и тщательно собирает контент веб-сайта
- работает на любой платформе Java (рекомендуется Linux)
- сохраняет контент в формате агрегата / записи ARC или ISO WARC
- веб-интерфейс для операторского управления и мониторинга обходов
Аудитория
Продвинутые конечные пользователи, разработчики, образование, правительство, информационные технологии, некоммерческие организации
Интерфейс пользователя
Веб-
Язык программирования
Java
Среда базы данных
Беркли / Sleepycat / Gdbm (DBM)
Это приложение также можно загрузить с https://sourceforge.net/projects/archive-crawler/. Он размещен в OnWorks, чтобы его можно было легко запускать в сети с помощью одной из наших бесплатных операционных систем.