Dies ist die Linux-App namens Scrapy-Redis, deren neueste Version als Version0.7.1Released.zip heruntergeladen werden kann. Es kann online beim kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.
Laden Sie diese App namens Scrapy-Redis mit OnWorks kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.
- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.
SCREENSHOTS
Ad
Scrapy-Redis
BESCHREIBUNG
Sie können mehrere Spider-Instanzen starten, die sich eine einzige Redis-Warteschlange teilen. Am besten geeignet für umfangreiche Multi-Domain-Crawls. Aussortierte Elemente werden in eine Redis-Warteschlange verschoben, was bedeutet, dass Sie beliebig viele Nachbearbeitungsprozesse starten können, die sich die Elementwarteschlange teilen. Scheduler + Duplizierungsfilter, Item-Pipeline, Basis-Spider. Der Standard-Serialisierer für Anforderungen ist pickle, kann jedoch in jedes Modul mit Lade- und Dump-Funktionen geändert werden. Beachten Sie, dass Pickle nicht zwischen Python-Versionen kompatibel ist. In Version 0.3 wurde die Serialisierung von Anforderungen von Marshal zu cPickle geändert, sodass persistente Anforderungen mit Version 0.2 unter 0.3 nicht funktionieren können. Die Klasse scrapy_redis.spiders.RedisSpider ermöglicht es einem Spider, die URLs von Redis zu lesen. Die URLs in der Redis-Warteschlange werden nacheinander verarbeitet. Wenn die erste Anfrage weitere Anfragen hervorbringt, verarbeitet der Spider diese Anfragen, bevor er eine weitere URL von Redis abruft.
Eigenschaften
- Verteiltes Crawlen/Scraping
- Verteilte Nachbearbeitung
- Scrapy Plug-and-Play-Komponenten
- Python 2.7, 3.4 oder 3.5 erforderlich
- Redis >= 2.8 erforderlich
- Scheduler + Duplizierungsfilter, Item-Pipeline, Basis-Spider
Programmiersprache
Python
Dies ist eine Anwendung, die auch von https://sourceforge.net/projects/scrapy-redis.mirror/ abgerufen werden kann. Es wurde in OnWorks gehostet, um es auf einfachste Weise online über eines unserer kostenlosen Betriebssysteme ausführen zu können.

