Dies ist die Windows-App namens Trafilatura, deren neueste Version als trafilatura-1.6.2.zip heruntergeladen werden kann. Sie kann online beim kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.
Laden Sie diese App namens Trafilatura mit OnWorks kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie einen beliebigen OS OnWorks-Online-Emulator von dieser Website, aber einen besseren Windows-Online-Emulator.
- 5. Rufen Sie vom gerade gestarteten OnWorks Windows-Betriebssystem unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter und installieren Sie sie.
- 7. Laden Sie Wine aus den Software-Repositorys Ihrer Linux-Distributionen herunter. Nach der Installation können Sie dann auf die App doppelklicken, um sie mit Wine auszuführen. Sie können auch PlayOnLinux ausprobieren, eine schicke Schnittstelle über Wine, die Ihnen bei der Installation beliebter Windows-Programme und -Spiele hilft.
Wine ist eine Möglichkeit, Windows-Software unter Linux auszuführen, jedoch ohne Windows. Wine ist eine Open-Source-Windows-Kompatibilitätsschicht, die Windows-Programme direkt auf jedem Linux-Desktop ausführen kann. Im Wesentlichen versucht Wine, genügend Windows von Grund auf neu zu implementieren, damit alle diese Windows-Anwendungen ausgeführt werden können, ohne dass Windows tatsächlich benötigt wird.
SCREENSHOTS
Ad
Zeichnung
BESCHREIBUNG
Trafilatura ist ein Python-Paket und Befehlszeilentool zum Sammeln von Text im Web. Es umfasst Erkennungs-, Extraktions- und Textverarbeitungskomponenten. Seine Hauptanwendungen sind Web-Crawling, Downloads, Scraping und das Extrahieren von Haupttexten, Metadaten und Kommentaren. Ziel ist es, handlich und modular zu bleiben: Es ist keine Datenbank erforderlich, die Ausgabe kann in verschiedene gängige Formate konvertiert werden. Der Übergang von rohem HTML zu wesentlichen Teilen kann viele Probleme im Zusammenhang mit der Textqualität lindern, erstens durch die Vermeidung des durch wiederkehrende Elemente (Kopfzeilen, Fußzeilen, Links/Blogroll usw.) verursachten Lärms und zweitens durch die Einbeziehung von Informationen wie Autor und Datum in die Erstellung Sinn für die Daten. Der Extraktor versucht, ein Gleichgewicht zwischen der Geräuschbegrenzung (Präzision) und der Einbeziehung aller gültigen Teile (Rückruf) zu finden. Außerdem muss es robust und einigermaßen schnell sein, da es in der Produktion auf Millionen von Dokumenten läuft.
Eigenschaften
- Web-Crawling und Texterkennung
- Nahtlose und parallele Verarbeitung, online und offline
- Robuste und effiziente Absaugung
- Haupttext (mit LXML, gängigen Mustern und generischen Algorithmen: jusText, Fork von readability-lxml)
- Als Eingabe verwendbare URLs, HTML-Dateien oder geparste HTML-Bäume
- Effiziente und höfliche Bearbeitung von Download-Warteschlangen
Programmiersprache
Python
Kategorien
Dies ist eine Anwendung, die auch von https://sourceforge.net/projects/trafilatura.mirror/ abgerufen werden kann. Es wurde in OnWorks gehostet, um es auf einfachste Weise online über eines unserer kostenlosen Betriebssysteme ausführen zu können.