Il s'agit de la commande herold qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
herold - Convertisseur HTML en DocBook
SYNOPSIS
Herold [OPTIONS]
DESCRIPTION
La réutilisation de contenu HTML sous une forme neutre en termes de présentation est un problème fréquent. Un possible
la solution consiste à convertir HTML en DocBook XML, car DocBook est un langage de balisage sémantique
pour la documentation, qui permet à ses utilisateurs de créer un contenu de document qui capture les
structure logique du contenu. L'outil de ligne de commande herold peut être utilisé pour convertir du HTML
à DocBook. Étant donné que les éléments HTML ne sont souvent pas utilisés comme prévu, les possibilités de
une telle transformation sont quelque peu limités. herold fait partie de la suite d'outils dbdoclet.
Pour plus d'informations, visitez http://www.dbdoclet.org.
OPTIONS
--docbook-add-index, -x
Ajouter automatiquement un élément d'index à la fin du document.
--docbook-decompose-tables, -T
Décompose les tableaux du code HTML en paragraphes simples. Cela peut être utile,
si un document contient beaucoup de tableaux pour des raisons de formatage.
--docbook-encodage, -d
Spécifie l'encodage des fichiers XML DocBook générés.
--docbook-root-element, -r
L'élément racine du document. Les valeurs possibles sont : livre, article, référence, pièce,
chapitre ou section. La valeur par défaut de cette option est 'article'
--docbook-titre, -t
Le titre du document résultant.
--dans, -i
Spécifie le fichier d'entrée HTML.
--aide, -h
Imprime une page d'aide sur la console.
--html-encodage, -s
Spécifie l'encodage des fichiers source HTML, tels que ISO-8859-1.
--sorti, -o
Spécifie le fichier de destination XML DocBook.
--profil, -p
Un fichier de profil avec des paramètres prédéfinis.
--verbeux, v
Active la verbosité pour la sortie de la console.
--version, -V
Affiche la version de herold.
CONFIGURATION
Les détails d'une transformation sont contrôlés par un fichier de profil. Un fichier de profil propose
plus de possibilités d'influencer la transformation que les arguments de ligne de commande. Les
L'exemple suivant montre un fichier de profil typique.
transformation html2docbook ;
section section-détection {
classe-attribut = ["^MsoHeading(\d+)$"] ;
section-numbering-pattern = "((\d+\.)+)?\d*\.?\p{Z}*";
}
section liste-détection {
itemized-attribute-class = ["^MsoListBullet(\w*)$", "Aufzhlung(\w+)$];
itemized-strip-prefix = [ "-", "o", "\u00b7" ];
classe d'attributs ordonnés = ["^MsoListNumbered(\w*)$"] ;
order-strip-prefix = [ "\d+\.\s+" ];
}
rubrique HTML {
encodage = "windows-1252" ;
exclure = [ "//p[starts-with(@class, 'MsoToc')]", "" ];
}
rubrique DocBook {
abstrait = """ Lorem ipsum
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed
do eiusmod tempor incididunt ut labore et dolore magna aliqua. Utah
enim ad minim veniam, quis nostrud exercice ullamco laboris
nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in
réprimander dans voluptate velit esse cillum dolore eu fugiat nulla
pariature. Excepteur sint occaecat cupidatat non proident, sunt in
culpa qui officia deserunt mollit anim id est laborum.sed, dolor
rencontré. """ ;
add-index = vrai;
auteur-email = "[email protected]";
auteur-prénom = "Michael";
nom-auteur = "Fuchs";
collapse-protected-space = "true";
détenteur des droits d'auteur = "Ingenieurbüro Michael Fuchs" ;
copyright-année = "2012" ;
société = "";
créer-condition-attribut = faux ;
créer-prologue = vrai;
créer-remap-attribut = faux ;
create-xref-label = false ;
décomposer-tables = false ;
détecter-piégé-br = vrai;
id-documentation = "doc01" ;
élément-document = "livre";
encodage = "UTF-8" ;
césure-char = "trait d'union souple" ;
image-data-formats = [ "gif", "base64" ];
chemin-image = "./figures";
langue = "de";
release-info = "Version 3.1" ;
table-style = "tout" ;
title = "Tutoriel" ;
title-normalize-space = vrai;
use-absolute-image-path = false ;
}
Syntaxe
Un fichier de profil se compose principalement de sections. Les sections sont utilisées pour regrouper les paramètres qui
partagent le même contexte. Chaque section doit commencer par le mot-clé suivi par le
nom de la rubrique. Après le nom vient le bloc de paramètres, qui est entouré de
accolades. Les paramètres peuvent être de type String, Number, Boolean ou Array. Les chaînes doivent être
encadré de guillemets doubles. Si la chaîne contient des sauts de ligne, utilisez trois guillemets doubles
au lieu d'un. Les tableaux sont encadrés de crochets. A l'intérieur d'un tableau, les éléments doivent
être séparés par des virgules. Chaque affectation doit se terminer par un point-virgule. Commentaires sur plusieurs lignes
avoir la forme /* my commentaire */ , les commentaires d'une seule ligne ressemblent à // my commentaire\n.
Obligatoire Éléments
Un profil pour herold doit commencer par la transformation de ligne html2docbook;.
Section section-détection
La section section-détection est utilisé pour détecter les éléments de section dans le code HTML et pour supprimer
hors de tout préfixe de numérotation des titres.
De nombreux outils de création autorisent des sections profondément imbriquées. Lors de l'export HTML, il arrive que
la nidification devient plus profonde que six niveaux. HTML fournit des éléments d'en-tête pour un maximum de six
niveaux, h1-h6, mais pas de h7 ou même plus. À ce stade, le formatage se fait normalement avec
l'aide des éléments CSS et div ou p. herold est capable de détecter l'élément d'en-tête de
HTML, mais il ne peut pas connaître le format d'exportation d'un outil spécifique. Pour résoudre ce
problème même pour certains cas, vous pouvez spécifier le paramètre classe-attribut. Cela consiste en
une liste d'expressions régulières, qui sont comparées à l'attribut class de chaque HTML
élément. Si une correspondance est trouvée, l'élément est considéré comme un élément de section. Le régulier
l'expression peut avoir un groupe, qui est interprété comme un indicateur de niveau. Le groupe doit être le
premier groupe et il doit correspondre à un nombre, par exemple ^heading(\d+)$. Si le niveau ne peut pas
être détecté, un niveau de sept est supposé.
Parce que les feuilles de style DocBook XSL s'occupent de la numérotation des sections tout en transformant le
DocBook XML à une sortie spécifique, il est souvent nécessaire de dépouiller déjà la numérotation
défini dans la page HTML. Sinon vous vous retrouvez avec deux textes de numérotation devant votre
titres. Pour aider Herold à détecter les modèles de numérotation, utilisez le paramètre
section-numérotation-modèle.
classe-attribut
Une expression régulière, qui est appliquée à chaque élément p et div. Si l'expression
correspond, l'élément actuel est traité comme un élément de section. Si le régulier
expression a des groupes, le premier groupe sera utilisé comme niveau d'imbrication, sinon niveau
sept est supposé.
section-numérotation-modèle
Normalement, vous voulez vous débarrasser de la numérotation des sections fournie avec les données HTML,
car il devient une partie du texte du titre dans DocBook. Les numéros de section seront le
apparaissent deux fois dans votre média cible. Un du HTML et un du DocBook XSL
En traitement. Le paramètre section-numbering-pattern définit une expression régulière,
qui correspond au début de chaque titre de section. S'il correspond, le
la partie correspondante est supprimée.
Section liste-détection
Parfois, les listes ne sont pas représentées par des balises ul, ol ou dl, mais elles sont représentées par p
balises avec un formatage CSS supplémentaire. Si vous utilisez un outil qui crée ou exporte du HTML avec
une telle construction, la conversion se terminera par des éléments para, au lieu du
éléments de liste correspondants dans DocBook. Pour recréer les listes dans certains cas, vous pouvez utiliser
la section liste-détection. Les paramètres classe d'attributs détaillés et
classe d'attributs ordonnés vous permettent de définir des listes d'expressions régulières, qui correspondent à
éléments de liste dans le HTML. herold essaie de reconstruire la structure de liste appropriée à partir de ce
informations, même pour les listes imbriquées.
Section HTML
La section HTML définit les paramètres, qui contrôlent le chargement et l'analyse du HTML
des données d'entrée.
codage
Le jeu de caractères utilisé pour lire le flux d'entrée.
exclure
Définit un tableau d'expressions xpath. Toutes les correspondances sont supprimées de l'arborescence HTML DOM
avant transformation.
Section DocBook
résumé
Le texte de l'élément abstrait de la section info. Si le texte est structuré avec
nouvelles lignes, utilisez trois guillemets doubles comme délimiteurs. Si le texte commence par un "<"
caractère, il est incorporé dans un élément abstrait, sinon le texte est incorporé
dans un élément para à l'intérieur d'un élément abstrait. Le texte sera analysé et peut
contiennent des éléments DocBook.
ajouter-index
S'il est défini sur true, un élément d'index est inséré à la fin du XML DocBook.
créer-étiquette-xref
s'il est défini sur false, les éléments d'ancrage n'obtiennent pas d'attribut xreflabel.
tables de décomposition
Si défini sur true, les structures des tables seront ignorées. Le contenu des cellules du tableau sera
être inséré dans le DocBook XML sous la forme d'une séquence de paragraphes. Ce paramètre peut être
utile si votre HTML contient des tableaux à des fins de formatage. Normalement, vous voulez obtenir
débarrassez-vous d'eux, car ils altèrent la structure logique.
élément-document
L'élément de document que vous souhaitez utiliser. Il doit s'agir d'un article, d'un livre, d'une partie ou d'une référence.
codage
Le jeu de caractères qui sera utilisé pour écrire le fichier de sortie.
formats-de-données-image
Un éventail de formats d'images. Ces formats seront insérés en tant qu'éléments imageobject,
en plus du format trouvé dans l'attribut src de l'img correspondant
élément. Le format original est inséré deux fois avec les rôles "html" et "fo". Les
les autres formats sont insérés en tant que "html- " et " fo- ".
titre
Le titre du document résultant. Si ce paramètre n'est pas défini, herold essaie de
dété le titre de la section d'en-tête des données HTML.
utiliser-chemin-image-absolu
Si vous voulez des chemins d'images absolus dans l'attribut fileref de l'élément imagedata,
définissez ce paramètre sur true.
DROIT D'AUTEUR
Copyright 2001-2013 Michael Fuchs. Licence GPLv3+ : GNU GPL version 3 ou supérieure
http://gnu.org/licenses/gpl.html. Il s'agit d'un logiciel libre : vous êtes libre de modifier et
le redistribuer. Il n'y a AUCUNE GARANTIE, dans la mesure permise par la loi.
Utilisez herold en ligne en utilisant les services onworks.net