tải xuống unfluff cho Linux

Đây là ứng dụng Linux có tên unfluff, phiên bản mới nhất có thể tải xuống dưới dạng node-unfluffv3.2.0sourcecode.tar.gz. Ứng dụng có thể chạy trực tuyến trên nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks dành cho máy trạm.

 
 

Tải xuống và chạy trực tuyến ứng dụng có tên unfluff với OnWorks miễn phí.

Làm theo các hướng dẫn sau để chạy ứng dụng này:

- 1. Đã tải ứng dụng này xuống PC của bạn.

- 2. Nhập vào trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.

- 3. Tải lên ứng dụng này trong trình quản lý tệp như vậy.

- 4. Khởi động trình giả lập trực tuyến OnWorks Linux hoặc trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MACOS từ trang web này.

- 5. Từ Hệ điều hành OnWorks Linux mà bạn vừa khởi động, hãy truy cập trình quản lý tệp của chúng tôi https://www.onworks.net/myfiles.php?username=XXXXX với tên người dùng mà bạn muốn.

- 6. Tải xuống ứng dụng, cài đặt và chạy nó.

MÀN HÌNH:


làm phẳng


SỰ MIÊU TẢ:

unfluff là một thư viện Node.js được thiết kế để tự động trích xuất nội dung chính từ một tài liệu HTML — loại bỏ các thanh điều hướng, quảng cáo, chân trang và các mẫu khác để chỉ còn lại "nội dung chính", siêu dữ liệu (tiêu đề, tác giả, ngày tháng) và các trường hữu ích khác. Đây là một công cụ hướng đến phân tích nội dung, trích xuất dữ liệu web, xây dựng bộ dữ liệu hoặc tái sử dụng văn bản bài viết để xử lý hạ nguồn (như học máy hoặc tóm tắt). API rất đơn giản: bạn nhập HTML thô và nó sẽ trả về một đối tượng có cấu trúc với văn bản được trích xuất và các trường khác. Nó hỗ trợ lưu trữ đệm các biểu diễn nội bộ để tăng tốc độ trích xuất lặp lại. Mặc dù hỗ trợ ngôn ngữ tốt nhất là tiếng Anh, nhưng nó vẫn được sử dụng rộng rãi trong các quy trình xử lý nội dung web. Kho lưu trữ lưu ý một số hạn chế (ví dụ: các ngôn ngữ như tiếng Trung/tiếng Ả Rập/tiếng Hàn có thể không được hỗ trợ tốt). Do tính đơn giản và mục đích tập trung, nó có thể là một khối xây dựng đáng tin cậy trong các dịch vụ phụ trợ hoặc công cụ CLI.



Tính năng

  • Trích xuất nội dung văn bản chính (phần thân) từ tài liệu HTML
  • Phân tích và trả về siêu dữ liệu (tiêu đề, tác giả, ngày tháng, phát hiện ngôn ngữ, v.v.)
  • Lưu trữ các biểu diễn trung gian để tăng hiệu suất khi trích xuất nhiều trường
  • Hỗ trợ CLI / mô-đun: có thể được cài đặt toàn cầu hoặc sử dụng theo chương trình
  • Thích hợp cho việc xây dựng tập dữ liệu, thu thập bài viết, quy trình xuất bản lại
  • Mã nguồn mở theo giấy phép Apache-2.0, dễ dàng tích hợp vào ngăn xếp Node.js



Danh Mục

HTML / XHTML

Đây là một ứng dụng cũng có thể được tải xuống từ https://sourceforge.net/projects/unfluff.mirror/. Ứng dụng này được lưu trữ trên OnWorks để có thể chạy trực tuyến dễ dàng nhất từ ​​một trong những Hệ điều hành miễn phí của chúng tôi.



Các chương trình trực tuyến Linux & Windows mới nhất


Danh mục tải xuống Phần mềm & Chương trình cho Windows & Linux