pobierz unfluff dla Linuksa

To aplikacja linuksowa o nazwie unfluff, której najnowszą wersję można pobrać jako node-unfluffv3.2.0sourcecode.tar.gz. Można ją uruchomić online na darmowym hostingu OnWorks dla stacji roboczych.

 
 

Pobierz i uruchom bezpłatnie aplikację unfluff z OnWorks.

Postępuj zgodnie z tymi instrukcjami, aby uruchomić tę aplikację:

- 1. Pobrałem tę aplikację na swój komputer.

- 2. Wpisz w naszym menedżerze plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.

- 3. Prześlij tę aplikację w takim menedżerze plików.

- 4. Uruchom emulator online OnWorks Linux lub Windows online lub emulator online MACOS z tej witryny.

- 5. W systemie operacyjnym OnWorks Linux, który właśnie uruchomiłeś, przejdź do naszego menedżera plików https://www.onworks.net/myfiles.php?username=XXXXX z wybraną nazwą użytkownika.

- 6. Pobierz aplikację, zainstaluj ją i uruchom.

ZDJĘCIA EKRANU:


niepęknięty


OPIS:

unfluff to biblioteka Node.js zaprojektowana do automatycznego wyodrębniania głównej zawartości z dokumentu HTML — usuwając paski nawigacji, reklamy, stopki i inne szablony, pozostawiając jedynie „treść główną”, metadane (tytuł, autor, data) i inne przydatne pola. To narzędzie jest przeznaczone głównie do analizy treści, web scrapingu, budowania zestawów danych lub ponownego wykorzystywania tekstu artykułu do dalszego przetwarzania (np. uczenia maszynowego lub podsumowania). API jest proste: wprowadzasz surowy kod HTML, a ono zwraca ustrukturyzowany obiekt z wyodrębnionym tekstem i innymi polami. Obsługuje buforowanie wewnętrznych reprezentacji, aby przyspieszyć wielokrotne wyodrębnianie. Chociaż jego obsługa języków jest najlepsza dla języka angielskiego, jest nadal szeroko stosowana w procesach przetwarzania treści internetowych. Repozytorium odnotowuje pewne ograniczenia (np. języki takie jak chiński/arabski/koreański mogą nie być dobrze obsługiwane). Ze względu na swoją prostotę i ukierunkowanie może być niezawodnym elementem składowym usług zaplecza lub narzędzi CLI.



Funkcje

  • Wyodrębnia główną treść tekstową (treść) z dokumentu HTML
  • Analizuje i zwraca metadane (tytuł, autora, datę, wykrycie języka itp.)
  • Buforuje pośrednie reprezentacje w celu zwiększenia wydajności podczas wyodrębniania wielu pól
  • Obsługa CLI/modułów: można zainstalować globalnie lub używać programowo
  • Nadaje się do tworzenia zestawów danych, scrapowania artykułów i ponownego publikowania przepływów pracy
  • Oprogramowanie typu open source na licencji Apache-2.0, łatwe do zintegrowania ze stosami Node.js



Kategorie

HTML/XHTML

Tę aplikację można również pobrać ze strony https://sourceforge.net/projects/unfluff.mirror/. Została ona umieszczona w OnWorks, aby można ją było najłatwiej uruchomić online z poziomu jednego z naszych darmowych systemów operacyjnych.



Najnowsze programy online dla systemów Linux i Windows


Kategorie do pobrania Oprogramowanie i programy dla Windows i Linux