Questa è l'app Linux chiamata unfluff, la cui ultima versione può essere scaricata come node-unfluffv3.2.0sourcecode.tar.gz. Può essere eseguita online sul provider di hosting gratuito OnWorks per workstation.
Scarica ed esegui online gratuitamente questa app chiamata unfluff con OnWorks.
Segui queste istruzioni per eseguire questa app:
- 1. Scaricata questa applicazione sul tuo PC.
- 2. Entra nel nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 3. Carica questa applicazione in tale file manager.
- 4. Avviare l'emulatore online OnWorks Linux o Windows online o l'emulatore online MACOS da questo sito Web.
- 5. Dal sistema operativo OnWorks Linux che hai appena avviato, vai al nostro file manager https://www.onworks.net/myfiles.php?username=XXXXX con il nome utente che desideri.
- 6. Scarica l'applicazione, installala ed eseguila.
IMMAGINI
Ad
non svolazzare
DESCRIZIONE
unfluff è una libreria Node.js progettata per estrarre automaticamente il contenuto principale da un documento HTML, eliminando barre di navigazione, annunci pubblicitari, piè di pagina e altri elementi standard per ottenere solo il "corpo", i metadati (titolo, autore, data) e altri campi utili. È uno strumento particolarmente indicato per l'analisi dei contenuti, il web scraping, la creazione di dataset o il riutilizzo del testo degli articoli per l'elaborazione a valle (come l'apprendimento automatico o la sintesi). L'API è semplice: si inserisce codice HTML grezzo e restituisce un oggetto strutturato con il testo estratto e altri campi. Supporta la memorizzazione nella cache delle rappresentazioni interne per velocizzare le estrazioni ripetute. Sebbene il supporto linguistico sia ottimale per l'inglese, è comunque ampiamente utilizzato nelle pipeline di elaborazione dei contenuti web. Il repository presenta alcune limitazioni (ad esempio, lingue come cinese/arabo/coreano potrebbero non essere ben supportate). Grazie alla sua semplicità e al suo scopo specifico, può essere un componente affidabile nei servizi backend o negli strumenti CLI.
Caratteristiche
- Estrae il contenuto testuale principale (corpo) da un documento HTML
- Analizza e restituisce metadati (titolo, autore, data, rilevamento della lingua, ecc.)
- Memorizza nella cache le rappresentazioni intermedie per migliorare le prestazioni durante l'estrazione di più campi
- Supporto CLI/modulo: può essere installato globalmente o utilizzato a livello di programmazione
- Adatto per la creazione di set di dati, l'estrazione di articoli e la ripubblicazione di flussi di lavoro
- Open source con licenza Apache-2.0, facile da integrare negli stack Node.js
Categorie
Questa applicazione può essere scaricata anche da https://sourceforge.net/projects/unfluff.mirror/. È ospitata su OnWorks per poter essere eseguita online nel modo più semplice da uno dei nostri sistemi operativi gratuiti.
