Dit is de Windows-app genaamd crawler4j waarvan de nieuwste release kan worden gedownload als 4.4.0.zip. Het kan online worden uitgevoerd in de gratis hostingprovider OnWorks voor werkstations.
Download en gebruik deze app met de naam crawler4j gratis online met OnWorks.
Volg deze instructies om deze app uit te voeren:
- 1. Download deze applicatie op uw pc.
- 2. Voer in onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX in met de gebruikersnaam die u wilt.
- 3. Upload deze applicatie in zo'n bestandsbeheerder.
- 4. Start een OS OnWorks online emulator vanaf deze website, maar een betere Windows online emulator.
- 5. Ga vanuit het OnWorks Windows-besturingssysteem dat u zojuist hebt gestart naar onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX met de gewenste gebruikersnaam.
- 6. Download de applicatie en installeer deze.
- 7. Download Wine van de softwarebronnen voor Linux-distributies. Eenmaal geïnstalleerd, kunt u vervolgens dubbelklikken op de app om ze met Wine uit te voeren. Je kunt ook PlayOnLinux proberen, een mooie interface via Wine waarmee je populaire Windows-programma's en -games kunt installeren.
Wine is een manier om Windows-software op Linux uit te voeren, maar zonder dat Windows vereist is. Wine is een open-source Windows-compatibiliteitslaag die Windows-programma's rechtstreeks op elke Linux-desktop kan uitvoeren. In wezen probeert Wine genoeg van Windows opnieuw te implementeren, zodat het al die Windows-applicaties kan draaien zonder Windows echt nodig te hebben.
SCHERMSCHERMEN:
crawler4j
BESCHRIJVING:
crawler4j is een open source webcrawler voor Java die een eenvoudige interface biedt voor het crawlen van het web. Hiermee kunt u binnen enkele minuten een multi-threaded webcrawler opzetten. U moet een crawlerklasse maken die WebCrawler uitbreidt. Deze klasse beslist welke URL's moeten worden gecrawld en handelt de gedownloade pagina af. ShouldVisit-functie beslist of de opgegeven URL moet worden gecrawld of niet. In het bovenstaande voorbeeld staat dit voorbeeld geen .css-, .js- en mediabestanden toe en alleen pagina's binnen het ics-domein. bezoekfunctie wordt aangeroepen nadat de inhoud van een URL met succes is gedownload. U kunt eenvoudig de url, tekst, links, html en unieke id van de gedownloade pagina krijgen. U moet ook een controllerklasse implementeren die de zaden van de crawl specificeert, de map waarin tussentijdse crawlgegevens moeten worden opgeslagen en het aantal gelijktijdige threads.
Kenmerken
- U moet ook een controllerklasse implementeren die de zaden van de crawl specificeert, de map waarin tussentijdse crawlgegevens moeten worden opgeslagen en het aantal gelijktijdige threads:
- Standaard is er geen limiet voor de crawldiepte
- U kunt SSL inschakelen
- Het crawlen van binaire inhoud inschakelen
- crawler4j is zeer efficiënt ontworpen en heeft de mogelijkheid om zeer snel domeinen te crawlen
- User-agent string wordt gebruikt om uw crawler voor webservers weer te geven
Programmeertaal
Java
Categorieën
Dit is een applicatie die ook kan worden opgehaald van https://sourceforge.net/projects/crawler4j.mirror/. Het is gehost in OnWorks om op een gemakkelijkste manier online te kunnen worden uitgevoerd vanuit een van onze gratis besturingssystemen.