Questa è l'app Linux denominata Headless Chrome Crawler la cui ultima versione può essere scaricata come 1.8.0.zip. Può essere eseguito online nel provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online questa app denominata Headless Chrome Crawler con OnWorks gratuitamente.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI
Ad
Crawler cromato senza testa
DESCRIZIONE
I crawler basati su semplici richieste a file HTML sono generalmente veloci. Tuttavia, a volte finisce per catturare corpi vuoti, specialmente quando i siti Web sono costruiti su framework frontend moderni come AngularJS, React e Vue.js. Basato su Headless Chrome, il crawler fornisce semplici API per eseguire la scansione di siti Web dinamici. Supporta sia la ricerca in profondità che l'algoritmo di ricerca in ampiezza. Salva screenshot per le prove di scansione, emula dispositivi e agenti utente, coda prioritaria per l'efficienza della scansione, obbedisci a robots.txt e altro ancora. I crawler statici si basano su semplici richieste a file HTML. Sono generalmente veloci, ma non riescono a raschiare i contenuti quando l'HTML cambia dinamicamente sui browser. I crawler dinamici basati su PhantomJS e Selenium funzionano magicamente su tali applicazioni dinamiche. Tuttavia, il manutentore di PhantomJS si è dimesso e ha consigliato di passare a Headless Chrome, che è veloce e stabile. Questo crawler è dinamico e basato su Headless Chrome.
Caratteristiche
- Scansione distribuita
- Configura la concorrenza, il ritardo e riprova
- Archivi cache collegabili come Redis
- Supporta le linee CSV e JSON per l'esportazione dei risultati
- Metti in pausa alla massima richiesta e riprendi in qualsiasi momento
- Inserisci jQuery automaticamente per lo scraping
Linguaggio di programmazione
JavaScript
Questa è un'applicazione che può anche essere scaricata da https://sourceforge.net/projects/headless-chrome-crawler.mirror/. È stato ospitato in OnWorks per essere eseguito online in modo più semplice da uno dei nostri sistemi operativi gratuiti.