Это приложение для Linux под названием Headless Chrome Crawler, последний выпуск которого можно загрузить как 1.8.0.zip. Его можно запустить онлайн в бесплатном хостинг-провайдере OnWorks для рабочих станций.
Загрузите и запустите онлайн это приложение под названием Headless Chrome Crawler с OnWorks бесплатно.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ
Ad
Безголовый Chrome Crawler
ОПИСАНИЕ
Поисковые роботы, использующие простые запросы к HTML-файлам, обычно бывают быстрыми. Однако иногда это заканчивается захватом пустых тел, особенно когда веб-сайты построены на таких современных интерфейсных фреймворках, как AngularJS, React и Vue.js. Сканер на базе Headless Chrome предоставляет простые API-интерфейсы для сканирования динамических веб-сайтов. Поддерживает как поиск в глубину, так и алгоритм поиска в ширину. Сохраняйте скриншоты для доказательства сканирования, эмулируйте устройства и пользовательские агенты, приоритетную очередь для эффективности сканирования, подчиняйте robots.txt и т. Д. Статические поисковые роботы основаны на простых запросах к файлам HTML. Обычно они бывают быстрыми, но не очищают содержимое, когда HTML динамически изменяется в браузерах. Динамические краулеры на основе PhantomJS и Selenium волшебным образом работают с такими динамическими приложениями. Однако сопровождающий PhantomJS ушел в отставку и порекомендовал перейти на Headless Chrome, который работает быстро и стабильно. Этот поисковый робот является динамическим и основан на Headless Chrome.
Особенности
- Распределенное сканирование
- Настроить параллелизм, задержку и повторную попытку
- Подключаемые кеш-хранилища, такие как Redis
- Поддержка строк CSV и JSON для экспорта результатов
- Пауза при максимальном запросе и возобновление в любое время
- Автоматически вставлять jQuery для очистки
Язык программирования
JavaScript
Это приложение также можно загрузить с https://sourceforge.net/projects/headless-chrome-crawler.mirror/. Он размещен в OnWorks, чтобы его можно было легко запускать в Интернете с помощью одной из наших бесплатных операционных систем.