скачать unfluff для Linux

Это Linux-приложение unfluff, последнюю версию которого можно скачать как node-unfluffv3.2.0sourcecode.tar.gz. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.

 
 

Бесплатно скачайте и запустите онлайн это приложение под названием unfluff с помощью OnWorks.

Следуйте этим инструкциям, чтобы запустить это приложение:

- 1. Загрузил это приложение на свой компьютер.

- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.

- 3. Загрузите это приложение в такой файловый менеджер.

- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.

- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.

- 6. Скачайте приложение, установите его и запустите.

СКРИНШОТЫ:


распушать


ОПИСАНИЕ:

Unfluff — это библиотека Node.js, предназначенная для автоматического извлечения основного контента из HTML-документа, удаляя панели навигации, рекламу, колонтитулы и прочий шаблонный код, оставляя только «тело», метаданные (название, автор, дата) и другие полезные поля. Этот инструмент в значительной степени ориентирован на контент-анализ, веб-скрапинг, создание наборов данных или перепрофилирование текста статьи для последующей обработки (например, машинного обучения или реферирования). API прост: вы загружаете необработанный HTML-код, а он возвращает структурированный объект с извлеченным текстом и другими полями. Библиотека поддерживает кэширование внутренних представлений для ускорения повторного извлечения. Хотя её языковая поддержка лучше всего подходит для английского языка, она по-прежнему широко используется в конвейерах обработки веб-контента. В репозитории указаны некоторые ограничения (например, поддержка таких языков, как китайский, арабский и корейский, может быть недостаточной). Благодаря своей простоте и узкой направленности, она может стать надёжным строительным блоком в бэкенд-сервисах или инструментах командной строки.



Особенности

  • Извлекает основное текстовое содержимое (тело) из HTML-документа
  • Анализирует и возвращает метаданные (название, автор, дата, определение языка и т. д.)
  • Кэширует промежуточные представления для повышения производительности при извлечении нескольких полей.
  • Поддержка CLI/модуля: может быть установлена ​​глобально или использоваться программно
  • Подходит для создания наборов данных, сбора статей и повторной публикации рабочих процессов.
  • Открытый исходный код под лицензией Apache-2.0, легко интегрируется в стеки Node.js



Категории

HTML / XHTML

Это приложение также можно скачать по адресу https://sourceforge.net/projects/unfluff.mirror/. Оно размещено на OnWorks для максимально удобного запуска онлайн через одну из наших бесплатных операционных систем.



Новейшие онлайн-программы для Linux и Windows


Категории для загрузки Программное обеспечение и программы для Windows и Linux