Это Linux-приложение unfluff, последнюю версию которого можно скачать как node-unfluffv3.2.0sourcecode.tar.gz. Его можно запустить онлайн на бесплатном хостинг-провайдере OnWorks для рабочих станций.
Бесплатно скачайте и запустите онлайн это приложение под названием unfluff с помощью OnWorks.
Следуйте этим инструкциям, чтобы запустить это приложение:
- 1. Загрузил это приложение на свой компьютер.
- 2. Введите в нашем файловом менеджере https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 3. Загрузите это приложение в такой файловый менеджер.
- 4. Запустите онлайн-эмулятор OnWorks Linux или Windows или онлайн-эмулятор MACOS с этого веб-сайта.
- 5. В только что запущенной ОС OnWorks Linux перейдите в наш файловый менеджер https://www.onworks.net/myfiles.php?username=XXXXX с желаемым именем пользователя.
- 6. Скачайте приложение, установите его и запустите.
СКРИНШОТЫ:
распушать
ОПИСАНИЕ:
Unfluff — это библиотека Node.js, предназначенная для автоматического извлечения основного контента из HTML-документа, удаляя панели навигации, рекламу, колонтитулы и прочий шаблонный код, оставляя только «тело», метаданные (название, автор, дата) и другие полезные поля. Этот инструмент в значительной степени ориентирован на контент-анализ, веб-скрапинг, создание наборов данных или перепрофилирование текста статьи для последующей обработки (например, машинного обучения или реферирования). API прост: вы загружаете необработанный HTML-код, а он возвращает структурированный объект с извлеченным текстом и другими полями. Библиотека поддерживает кэширование внутренних представлений для ускорения повторного извлечения. Хотя её языковая поддержка лучше всего подходит для английского языка, она по-прежнему широко используется в конвейерах обработки веб-контента. В репозитории указаны некоторые ограничения (например, поддержка таких языков, как китайский, арабский и корейский, может быть недостаточной). Благодаря своей простоте и узкой направленности, она может стать надёжным строительным блоком в бэкенд-сервисах или инструментах командной строки.
Особенности
- Извлекает основное текстовое содержимое (тело) из HTML-документа
- Анализирует и возвращает метаданные (название, автор, дата, определение языка и т. д.)
- Кэширует промежуточные представления для повышения производительности при извлечении нескольких полей.
- Поддержка CLI/модуля: может быть установлена глобально или использоваться программно
- Подходит для создания наборов данных, сбора статей и повторной публикации рабочих процессов.
- Открытый исходный код под лицензией Apache-2.0, легко интегрируется в стеки Node.js
Категории
Это приложение также можно скачать по адресу https://sourceforge.net/projects/unfluff.mirror/. Оно размещено на OnWorks для максимально удобного запуска онлайн через одну из наших бесплатных операционных систем.