AnglaisFrançaisEspagnol

Ad


Icône de favori OnWorks

Téléchargement de Trafilature pour Linux

Téléchargez gratuitement l'application Trafilatura Linux pour l'exécuter en ligne dans Ubuntu en ligne, Fedora en ligne ou Debian en ligne.

Il s'agit de l'application Linux nommée Trafilatura dont la dernière version peut être téléchargée sous trafilatura-1.6.2.zip. Il peut être exécuté en ligne chez le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.

Téléchargez et exécutez gratuitement en ligne cette application nommée Trafilatura avec OnWorks.

Suivez ces instructions pour exécuter cette application :

- 1. Téléchargé cette application sur votre PC.

- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.

- 3. Téléchargez cette application dans ce gestionnaire de fichiers.

- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.

- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.

- 6. Téléchargez l'application, installez-la et exécutez-la.

CAPTURES D'ÉCRAN

Ad


Dessin


DESCRIPTION

Trafilatura est un package Python et un outil de ligne de commande conçus pour collecter du texte sur le Web. Il comprend des composants de découverte, d'extraction et de traitement de texte. Ses principales applications sont l'exploration du Web, les téléchargements, le scraping et l'extraction des principaux textes, métadonnées et commentaires. Il vise à rester pratique et modulaire : aucune base de données n'est requise, la sortie peut être convertie dans différents formats couramment utilisés. Passer du HTML brut aux parties essentielles peut atténuer de nombreux problèmes liés à la qualité du texte, d'abord en évitant le bruit causé par les éléments récurrents (en-têtes, pieds de page, liens/blogroll etc.) et ensuite en incluant des informations telles que l'auteur et la date afin de rendre sens des données. L'extracteur essaie de trouver un équilibre entre limiter le bruit (précision) et inclure toutes les pièces valides (rappel). Il doit également être robuste et raisonnablement rapide, il fonctionne en production sur des millions de documents.



Fonctionnalités:

  • Exploration Web et découverte de texte
  • Traitement transparent et parallèle, en ligne et hors ligne
  • Extraction robuste et efficace
  • Texte principal (avec LXML, modèles communs et algorithmes génériques : jusText, fork de readability-lxml)
  • URL, fichiers HTML ou arbres HTML analysés utilisables en entrée
  • Traitement efficace et poli des files d’attente de téléchargement


Langage de programmation

Python


Catégories

Racleurs Web

Il s'agit d'une application qui peut également être récupérée sur https://sourceforge.net/projects/trafilatura.mirror/. Il a été hébergé dans OnWorks afin de pouvoir être exécuté en ligne de la manière la plus simple possible à partir de l'un de nos systèmes d'exploitation gratuits.


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad