Il s'agit de la commande html2text qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
html2text - un convertisseur avancé de HTML en texte
SYNOPSIS
html2texte -Aide
html2texte -version
html2texte [ -déanalyser | -vérifier ] [ -scanner de débogage ] [ -analyseur de débogage ] [ -fichierrc chemin ] [
De style ( compact | assez ) ] [ -largeur largeur ] [ -o fichier de sortie ] [ -nobs ] [ -ascii |
-utf8 ] [ -nométa ] [ fichier-entrée ...]
DESCRIPTION
html2texte lit les documents HTML à partir du fichier-entrées, formate chacun d'eux en un flux de
caractères de texte brut et écrit le résultat sur la sortie standard (ou dans fichier de sortie, Si
le -o l'option de ligne de commande est utilisée).
Sinon fichier-entrées sont spécifiés sur la ligne de commande, html2texte lit à partir de l'entrée standard.
Un tiret comme le fichier-entrée est une autre façon de spécifier l'entrée standard.
html2texte comprend toutes les constructions HTML 3.2, mais ne peut en restituer qu'une partie en raison de la
limitations du format de sortie de texte. Cependant, le programme tente de fournir de bonnes
remplace les éléments qu'il ne peut pas restituer. html2texte analyse également l'entrée HTML 4, mais
pas toujours aussi réussi que les autres processeurs HTML. Il accepte également la syntaxe incorrecte
entrée, et tente de l'interpréter "raisonnablement".
La façon dont html2texte formate les documents HTML est contrôlé par les propriétés de formatage read
à partir d'un fichier RC. html2texte essaie de lire $HOME/.html2textrc (ou le fichier spécifié par
le -fichierrc option de ligne de commande); si ce fichier ne peut pas être lu, html2texte essaie de lire
/etc/html2textrc. Si aucun fichier RC ne peut être lu (ou si le fichier RC ne remplace pas tous
propriétés de mise en forme), alors les valeurs par défaut "raisonnables" sont supposées. Le format de fichier RC est
Décrit dans le html2textrc(5) page de manuel.
version Debian de html2texte peut également faire du recodage d'entrée et de sortie (voir
/usr/share/doc/html2text/README.Debian pour plus d'informations). html2texte essaie de récupérer l'encodage
à partir d'un document HTML. Si l'encodage n'est pas spécifié, vous pouvez utiliser -ascii et -utf8 options.
La sortie est convertie dans le jeu de caractères des paramètres régionaux de l'utilisateur (LC_CTYPE).
OPTIONS
-nométa
Par défaut, la version Debian de html2texte utiliser la balise 'meta http-equiv' pour l'entrée
recodage. Cette option annule ce comportement.
-ascii Par défaut, quand -nométa est fourni, html2texte Usages UTF-8 pour la sortie.
En spécifiant cette option, plain ASCII est utilisé à la place. Pour savoir comment les non-ASCII
caractères sont rendus, reportez-vous au fichier "ascii.substitutes".
-utf8 Par défaut, quand -nométa est fourni, html2texte Usages ISO 8859-1 pour l'entrée.
En spécifiant cette option, UTF-8 est utilisé à la place (à la fois pour l'entrée et la sortie). Cette
option implique -nobs.
-vérifier Cette option est à des fins de diagnostic : le document HTML est uniquement analysé et non
traité autrement. Dans ce mode de fonctionnement, html2texte fera rapport sur l'analyse
les erreurs et les erreurs d'analyse, ce qu'il ne fait pas dans d'autres modes de fonctionnement. Noter que
les erreurs d'analyse et d'analyse ne sont pas fatales pour html2texte, mais peut entraîner une mauvaise interprétation
du code HTML et/ou des parties du document avalées.
-analyseur de débogage
Laisser nous html2texte rapport sur les jetons déplacés, les règles appliquées, etc., tandis que
numériser le document HTML. Cette option est à des fins de diagnostic.
-scanner de débogage
Laisser nous html2texte rapport sur chaque token lexical scanné, tout en scannant le HTML
document. Cette option est à des fins de diagnostic.
-Aide Imprimer le résumé de la ligne de commande et quitter.
-nobs Par défaut, d'origine html2texte rend les lettres soulignées avec des séquences comme
"underscore-backspace-character" et des lettres en gras comme "character-backspace-
caractère". En raison de problèmes avec UTF-8, la version Debian de html2texte ne pas
produire des backspaces, donc cette option ne fait vraiment rien.
-o fichier de sortie
Écrire la sortie dans fichier de sortie au lieu de la sortie standard. Un tiret comme le
fichier de sortie est une autre façon de spécifier la sortie standard.
-fichierrc chemin
Tenter de lire le fichier spécifié dans chemin en tant que fichier RC.
De style ( compact | assez )
Style assez modifie certaines des valeurs par défaut des paramètres de formatage
documenté dans html2textrc(5). Pour savoir quel paramètre de formatage et comment
les valeurs par défaut sont modifiées, vérifiez le fichier "pretty.style". Si cette option est omise,
Catégorie compact est supposé par défaut.
-déanalyser
Cette option est à des fins de diagnostic : au lieu de formater le document analysé,
générer du code HTML, dont la syntaxe est garantie. Si html2texte
a des problèmes pour analyser un document HTML syntaxiquement incorrect, cette option peut aider
tu comprends quoi html2texte pense que le code HTML d'origine signifie.
-version
Imprimer la version du programme et quitter.
-largeur largeur
Par défaut, html2texte formate les documents HTML pour une largeur d'écran de 79
personnages. Si vous redirigez la sortie dans un fichier, ou si votre terminal a une largeur
autre que 80 caractères, ou si vous voulez juste avoir une idée html2texte rabais
avec de grandes tables et différentes largeurs de bornes, vous voudrez peut-être spécifier un
différent largeur.
Utilisez html2text en ligne à l'aide des services onworks.net