Il s'agit de l'application Windows nommée Trafilatura dont la dernière version peut être téléchargée sous trafilatura-1.6.2.zip. Il peut être exécuté en ligne chez le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez gratuitement en ligne cette application nommée Trafilatura avec OnWorks.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez n'importe quel émulateur en ligne OS OnWorks à partir de ce site Web, mais un meilleur émulateur en ligne Windows.
- 5. Depuis le système d'exploitation OnWorks Windows que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application et installez-la.
- 7. Téléchargez Wine depuis les dépôts de logiciels de vos distributions Linux. Une fois installé, vous pouvez ensuite double-cliquer sur l'application pour les exécuter avec Wine. Vous pouvez également essayer PlayOnLinux, une interface sophistiquée sur Wine qui vous aidera à installer des programmes et des jeux Windows populaires.
Wine est un moyen d'exécuter un logiciel Windows sur Linux, mais sans Windows requis. Wine est une couche de compatibilité Windows open source qui peut exécuter des programmes Windows directement sur n'importe quel bureau Linux. Essentiellement, Wine essaie de ré-implémenter suffisamment de Windows à partir de zéro pour qu'il puisse exécuter toutes ces applications Windows sans avoir réellement besoin de Windows.
CAPTURES D'ÉCRAN
Ad
Dessin
DESCRIPTION
Trafilatura est un package Python et un outil de ligne de commande conçus pour collecter du texte sur le Web. Il comprend des composants de découverte, d'extraction et de traitement de texte. Ses principales applications sont l'exploration du Web, les téléchargements, le scraping et l'extraction des principaux textes, métadonnées et commentaires. Il vise à rester pratique et modulaire : aucune base de données n'est requise, la sortie peut être convertie dans différents formats couramment utilisés. Passer du HTML brut aux parties essentielles peut atténuer de nombreux problèmes liés à la qualité du texte, d'abord en évitant le bruit causé par les éléments récurrents (en-têtes, pieds de page, liens/blogroll etc.) et ensuite en incluant des informations telles que l'auteur et la date afin de rendre sens des données. L'extracteur essaie de trouver un équilibre entre limiter le bruit (précision) et inclure toutes les pièces valides (rappel). Il doit également être robuste et raisonnablement rapide, il fonctionne en production sur des millions de documents.
Caractéristiques
- Exploration Web et découverte de texte
- Traitement transparent et parallèle, en ligne et hors ligne
- Extraction robuste et efficace
- Texte principal (avec LXML, modèles communs et algorithmes génériques : jusText, fork de readability-lxml)
- URL, fichiers HTML ou arbres HTML analysés utilisables en entrée
- Traitement efficace et poli des files d’attente de téléchargement
Langage de programmation
Python
Catégories
Il s'agit d'une application qui peut également être récupérée sur https://sourceforge.net/projects/trafilatura.mirror/. Il a été hébergé dans OnWorks afin de pouvoir être exécuté en ligne de la manière la plus simple possible à partir de l'un de nos systèmes d'exploitation gratuits.