Dies ist die Linux-Anwendung namens Unfluff, deren neueste Version als node-unfluffv3.2.0sourcecode.tar.gz heruntergeladen werden kann. Sie kann online beim kostenlosen Hosting-Anbieter OnWorks für Workstations ausgeführt werden.
Laden Sie die App „unfluff with OnWorks“ kostenlos herunter und führen Sie sie online aus.
Befolgen Sie diese Anweisungen, um diese App auszuführen:
- 1. Diese Anwendung auf Ihren PC heruntergeladen.
- 2. Geben Sie in unserem Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX den gewünschten Benutzernamen ein.
- 3. Laden Sie diese Anwendung in einem solchen Dateimanager hoch.
- 4. Starten Sie den OnWorks Linux-Online- oder Windows-Online-Emulator oder den MACOS-Online-Emulator von dieser Website.
- 5. Rufen Sie vom gerade gestarteten OnWorks Linux-Betriebssystem aus unseren Dateimanager https://www.onworks.net/myfiles.php?username=XXXXX mit dem gewünschten Benutzernamen auf.
- 6. Laden Sie die Anwendung herunter, installieren Sie sie und führen Sie sie aus.
SCREENSHOTS:
Unfluff
BESCHREIBUNG:
Unfluff ist eine Node.js-Bibliothek, die automatisch den Hauptinhalt aus HTML-Dokumenten extrahiert. Navigationsleisten, Werbung, Fußzeilen und anderer Boilerplate-Code werden entfernt, sodass nur der eigentliche Inhalt, Metadaten (Titel, Autor, Datum) und weitere nützliche Felder übrig bleiben. Das Tool eignet sich besonders für Inhaltsanalyse, Web-Scraping, die Erstellung von Datensätzen oder die Wiederverwendung von Artikeltexten für die Weiterverarbeitung (z. B. maschinelles Lernen oder Zusammenfassung). Die API ist einfach: Sie übergeben rohes HTML und erhalten ein strukturiertes Objekt mit dem extrahierten Text und weiteren Feldern. Unfluff unterstützt das Caching interner Repräsentationen, um wiederholte Extraktionen zu beschleunigen. Obwohl die Sprachunterstützung hauptsächlich auf Englisch basiert, wird Unfluff dennoch häufig in Web-Content-Verarbeitungspipelines eingesetzt. Im Repository werden einige Einschränkungen erwähnt (z. B. werden Sprachen wie Chinesisch, Arabisch und Koreanisch möglicherweise nicht vollständig unterstützt). Aufgrund seiner Einfachheit und seines fokussierten Einsatzes kann Unfluff ein zuverlässiger Baustein für Backend-Dienste oder CLI-Tools sein.
Eigenschaften
- Extrahiert den Hauptinhalt (Body) eines HTML-Dokuments.
- Analysiert und gibt Metadaten zurück (Titel, Autor, Datum, Spracherkennung usw.).
- Speichert Zwischenrepräsentationen zwischen, um die Leistung beim Extrahieren mehrerer Felder zu verbessern.
- CLI-/Modulunterstützung: Kann global installiert oder programmatisch verwendet werden
- Geeignet für die Erstellung von Datensätzen, das Scraping von Artikeln und Workflows zur Wiederveröffentlichung.
- Open-Source unter der Apache-2.0-Lizenz, einfach in Node.js-Stacks zu integrieren.
Kategorien
Diese Anwendung kann auch unter https://sourceforge.net/projects/unfluff.mirror/ heruntergeladen werden. Sie wird auf OnWorks gehostet, um die Online-Ausführung über eines unserer kostenlosen Betriebssysteme zu vereinfachen.