Dit is de Linux-app genaamd WebMagic waarvan de nieuwste release kan worden gedownload als WebMagic-0.9.1.zip. Het kan online worden uitgevoerd in de gratis hostingprovider OnWorks voor werkstations.
Download en voer deze app met de naam WebMagic gratis online uit met OnWorks.
Volg deze instructies om deze app uit te voeren:
- 1. Download deze applicatie op uw pc.
- 2. Voer in onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX in met de gebruikersnaam die u wilt.
- 3. Upload deze applicatie in zo'n bestandsbeheerder.
- 4. Start de OnWorks Linux online of Windows online emulator of MACOS online emulator vanaf deze website.
- 5. Ga vanuit het OnWorks Linux-besturingssysteem dat u zojuist hebt gestart naar onze bestandsbeheerder https://www.onworks.net/myfiles.php?username=XXXXX met de gewenste gebruikersnaam.
- 6. Download de applicatie, installeer hem en voer hem uit.
SCREENSHOTS
Ad
Webmagie
PRODUCTBESCHRIJVING
WebMagic is een schaalbaar crawler-framework. Het omvat de hele levenscyclus van crawler, downloaden, url-beheer, contentextractie en persistent. Het kan de ontwikkeling van een specifieke crawler vereenvoudigen. WebMagic is een eenvoudig maar schaalbaar crawler-framework. Op basis daarvan kun je eenvoudig een crawler ontwikkelen. WebMagic heeft een eenvoudige kern met hoge flexibiliteit, een eenvoudige API voor het extraheren van html. Het biedt ook annotatie met POJO om een crawler aan te passen, en er is geen configuratie nodig. Enkele andere kenmerken zijn het feit dat het multi-thread is en distributie-ondersteuning heeft. WebMagic is zeer eenvoudig te integreren. Voeg afhankelijkheden toe aan uw pom.xml. WebMagic gebruikt slf4j met implementatie van slf4j-log4j12. Als u uw slf4j-implementatie heeft aangepast, sluit u slf4j-log4j12 uit. U kunt een klasse-implementatie van PageProcessor schrijven.
Voordelen
- Eenvoudige kern met hoge flexibiliteit
- Eenvoudige API voor het extraheren van html
- Annotatie met POJO om een crawler aan te passen, geen configuratie
- Ondersteuning voor meerdere threads en distributie
- Eenvoudig te integreren
- Het omvat de hele levenscyclus van de crawler
Programmeertaal
Java
Categorieën
Dit is een applicatie die ook kan worden opgehaald van https://sourceforge.net/projects/webmagic.mirror/. Het is gehost in OnWorks, zodat het op de gemakkelijkste manier online kan worden uitgevoerd vanaf een van onze gratis besturingssystemen.