Dit is de Windows-app genaamd crwlr waarvan de nieuwste release kan worden gedownload als v1.2.2.zip. Het kan online worden uitgevoerd in de gratis hostingprovider OnWorks voor werkstations.
Download en gebruik deze app met de naam crwlr gratis online met OnWorks.
Volg deze instructies om deze app uit te voeren:
- 1. Download deze applicatie op uw pc.
- 2. Voer in onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX in met de gebruikersnaam die u wilt.
- 3. Upload deze applicatie in zo'n bestandsbeheerder.
- 4. Start een OS OnWorks online emulator vanaf deze website, maar een betere Windows online emulator.
- 5. Ga vanuit het OnWorks Windows-besturingssysteem dat u zojuist hebt gestart naar onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX met de gewenste gebruikersnaam.
- 6. Download de applicatie en installeer deze.
- 7. Download Wine van de softwarebronnen voor Linux-distributies. Eenmaal geïnstalleerd, kunt u vervolgens dubbelklikken op de app om ze met Wine uit te voeren. Je kunt ook PlayOnLinux proberen, een mooie interface via Wine waarmee je populaire Windows-programma's en -games kunt installeren.
Wine is een manier om Windows-software op Linux uit te voeren, maar zonder dat Windows vereist is. Wine is een open-source Windows-compatibiliteitslaag die Windows-programma's rechtstreeks op elke Linux-desktop kan uitvoeren. In wezen probeert Wine genoeg van Windows opnieuw te implementeren, zodat het al die Windows-applicaties kan draaien zonder Windows echt nodig te hebben.
SCREENSHOTS
Ad
krwlr
PRODUCTBESCHRIJVING
Deze bibliotheek biedt een soort raamwerk en veel kant-en-klare, zogenaamde stappen, die je als bouwstenen kunt gebruiken om je eigen crawlers en scrapers mee te bouwen. Laten we, voordat we de bibliotheek induiken, eens kijken naar de termen kruipen en schrapen. Voor de meeste praktijksituaties gaan die twee dingen hand in hand, daarom helpt deze bibliotheek bij beide en combineert ze beide. Een (web)crawler is een programma dat documenten (download)laadt en de links erin volgt om ze ook te laden. Een crawler zou eigenlijk alle links kunnen laden die hij vindt (en mag laden volgens het robots.txt-bestand), en dan zou hij gewoon het hele internet laden (als de URL('s) waarmee hij begint niet doodlopend is). Of het kan worden beperkt om alleen links te laden die voldoen aan bepaalde criteria (op hetzelfde domein/host, URL-pad begint met "/foo",...) of alleen tot een bepaalde diepte. Een diepte van 3 betekent 3 niveaus diep. Links gevonden op de initiële URL's die aan de crawler zijn verstrekt, zijn niveau 1 enzovoort.
Voordelen
- Beleefdheid van crawlers (respecteren van robots.txt, throttling,...)
- Haal absolute links uit HTML-documenten
- Download sitemaps van robots.txt en ontvang alle URL's van die sitemaps
- Alle pagina's van een website crawlen (laden).
- Gebruik elke HTTP-methode (GET, POST,...) en verzend alle headers of body
- Herhaal over gepagineerde lijstpagina's
Programmeertaal
PHP
Categorieën
Dit is een applicatie die ook kan worden opgehaald van https://sourceforge.net/projects/crwlr.mirror/. Het is gehost in OnWorks, zodat het op de gemakkelijkste manier online kan worden uitgevoerd vanaf een van onze gratis besturingssystemen.