英语法语西班牙语

Ad


OnWorks 网站图标

herold - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 herold

这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 herold,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


herold - HTML 到 DocBook 转换器

概要


Herold [选项]

商品描述


以中立形式重用 HTML 内容是一个常见问题。 一种可能
解决方案是将 HTML 转换为 DocBook XML,因为 DocBook 是一种语义标记语言
用于文档,这使其用户能够创建捕获文档内容的文档内容
内容的逻辑结构。 可以使用命令行工具herold来转换HTML
到 DocBook。 因为 HTML 元素的使用往往不符合预期,所以
这种转变有些有限。 herold 是 dbdoclet 工具套件的一部分。
更多信息请访问 http://www.dbdoclet.org.

配置


--docbook-add-index,-x
自动在文档末尾添加索引元素。

--docbook-decompose-tables,-T
将表格从 HTML 代码分解为单个段落。 这很有用,
如果由于格式原因,文档包含大量表格。

--docbook 编码,-d
指定生成的 DocBook XML 文件的编码。

--docbook-根元素,-r
文档的根元素。 可能的值有:书、文章、参考、部分、
章或节。 此选项的默认值为“文章”

--文档标题,-t
结果文档的标题。

--在,-i
指定 HTML 输入文件。

--帮助,-h
在控制台上打印帮助页面。

--html-编码,-s
指定 HTML 源文件的编码,例如 ISO-8859-1。

--输出,-o
指定 DocBook XML 目标文件。

--个人资料,-p
具有预定义设置的配置文件。

--详细,v
启用控制台输出的详细程度。

--版本,-V
显示herold的版本。

配置


转换的细节由配置文件控制。 配置文件提供
与命令行参数相比,影响转换的可能性更多。 这
以下示例显示了一个典型的配置文件。

转换 html2docbook;

部分部分检测{
属性类 = ["^MsoHeading(\d+)$"];
section-numbering-pattern = "((\d+\.)+)?\d*\.?\p{Z}*";
}

部分列表检测{
itemized-attribute-class = ["^MsoListBullet(\w*)$", "Aufzhlung(\w+)$];
itemized-strip-prefix = [ "-", "o", "\u00b7" ];
有序属性类 = ["^MsoListNumbered(\w*)$"];
有序条带前缀 = [ "\d+\.\s+" ];
}

部分 HTML {
编码 = "windows-1252";
exclude = [ "//p[starts-with(@class, 'MsoToc')]", "" ];
}

部分 DocBook {
摘要 = """逻辑推理
Lorem ipsum dolor sat amet, consectetur adipisicing elit, sed
do eiusmod tempor incididunt ut laboure et dolore magna aliqua。 单位
enim ad minim veniam, quis nostrud 练习 ullamco Laboris
nisi ut aliquip ex ea commodo consequat。 Duis aute irure dolor in
Reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla
抄袭。 例外 sint occaecat cupidatat non proident, sunt in
罪魁祸首 deserunt mollit anim id est labourum.sed, dolor
阿梅特。 """;
添加索引 = 真;
作者邮箱 = "[电子邮件保护]";
作者名字=“迈克尔”;
作者姓氏 = "福克斯";
折叠保护空间=“真”;
版权所有者 = "Ingenieurbüro Michael Fuchs";
版权年 = "2012";
公司 = "";
创建条件属性=假;
创建序言 = 真;
创建重映射属性=假;
创建外部参照标签 = 假;
分解表 = 假;
检测陷阱-br = 真;
文档 ID = "doc01";
文档元素=“书”;
编码 = "UTF-8";
连字符字符 = "软连字符";
图像数据格式 = [ "gif", "base64" ];
图像路径 = "./figures";
语言 = "德";
发布信息 = "版本 3.1";
table-style = "all";
title = "教程";
标题标准化空间=真;
使用绝对图像路径=假;
}

句法
配置文件主要由部分组成。 节用于对参数进行分组
共享相同的上下文。 每个部分都必须以关键字开头 部分 其次是
节的名称。 在名称之后是参数块,它被包围
大括号。 参数可以是字符串、数字、布尔值或数组类型。 字符串必须是
用双引号框起来。 如果字符串包含换行符,请使用三个双引号
而不是一个。 数组用方括号括起来。 在数组中,元素必须
以逗号分隔。 每个作业必须以分号结束。 多行注释
有形式 /* my 评论 */ , 单行注释看起来像 // my 评论\n.

强制性 元素
herold 的配置文件必须以行转换 html2docbook; 开头。

部分 部分检测
这部分 部分检测 用于检测 HTML 代码中的 section 元素并去除
从标题中删除任何编号前缀。

许多创作工具允许深度嵌套的部分。 在导出 HTML 时,它发生了
嵌套变得比六个级别更深。 HTML 最多提​​供六个标题元素
级别,h1-h6,但没有 h7 甚至更多。 此时,格式化通常是用
CSS 和 div 或 p 元素的帮助。 herold 能够检测到的标题元素
HTML,但它无法知道特定工具的导出格式。 为了解决这个
即使在某些情况下,您也可以指定参数 属性类。 它包括
正则表达式列表,与每个 HTML 的 class 属性匹配
元素。 如果找到匹配项,则将该元素视为节元素。 常规的
表达式可以有组,它被解释为级别指示符。 该组必须是
第一组,它必须匹配一个数字,例如 ^heading(\d+)$。 如果水平不行
被检测到,假设级别为 XNUMX。

因为 DocBook XSL 样式表在转换
DocBook XML 到特定的输出,通常需要去除编号
在 HTML 页面中定义。 否则你最终会在你的前面有两个编号文本
标题。 为了帮助 herold 检测编号模式,请使用参数
节编号模式.

属性类
正则表达式,应用于每个 p 和 div 元素。 如果表达式
匹配,当前元素作为节元素处理。 如果常规
表达式有组,第一个组将用作嵌套级别,否则级别
七是假设。

节编号模式
通常你想摆脱 HTML 数据附带的部分编号,
因为它成为 DocBook 中标题文本的一部分。 部分编号将
在目标媒体中出现两次。 一种来自 HTML,一种来自 DocBook XSL
加工。 参数 section-numbering-pattern 定义了一个正则表达式,
它与每个部分标题的开头相匹配。 如果匹配,则
匹配部分被删除。

部分 列表检测
有时列表不使用 ul、ol 或 dl 标签表示,但它们表示为 p
带有额外 css 格式的标签。 如果您使用工具创建或导出 HTML,
这样的构造,转换将以 para 元素结束,而不是
DocBook 中对应的列表元素。 要在某些情况下重新创建列表,您可以使用
这部分 列表检测. 参数 逐项属性类
有序属性类 让您定义匹配的正则表达式列表
HTML 中的列表项。 herold 尝试从中重建正确的列表结构
信息,即使是嵌套列表。

部分 HTML
HTML 部分定义了参数,这些参数控制 HTML 的加载和解析
输入数据。

编码
用于读取输入流的字符集。

排除
定义一组 xpath 表达式。 从 HTML DOM 树中删除所有匹配项
改造前。

部分 DocBook的
抽象
信息部分的抽象元素的文本。 如果文本的结构是
换行,使用三个双引号作为分隔符。 如果文本以“<”开头
字符,嵌入到抽象元素中,否则嵌入文本
进入抽象元素内的 para 元素。 文本将被解析并且可以
包含 DocBook 元素。

添加索引
如果设置为 true,则会在 DocBook XML 的末尾插入一个索引元素。

创建外部参照标签
如果设置为 false,则锚元素不会获得外部参照标签属性。

分解表
如果设置为 true,表结构将被忽略。 表格单元格的内容将
以段落序列的形式插入到 DocBook XML 中。 这个参数可以
如果您的 HTML 包含用于格式化目的的表格,则很有用。 通常你想得到
摆脱它们,因为它们篡改了逻辑结构。

文档元素
您要使用的文档元素。 必须是文章、书籍、部分或参考资料之一。

编码
将用于写入输出文件的字符集。

图像数据格式
一组图像格式。 这些格式将作为图像对象元素插入,
除了在相应 img 的 src 属性中找到的格式
元素。 原始格式以角色“html”和“fo”插入两次。 这
其他格式插入为“html- ”和“对于- ”。

标题
生成的文档的标题。 如果此参数未定义,herold 会尝试
从 HTML 数据的 head 部分中检测到标题。

使用绝对图像路径
如果您想在 imagedata 元素的 fileref 属性中使用绝对图像路径,
将此参数设置为true。

版权


版权所有 2001-2013 Michael Fuchs。 许可证 GPLv3+:GNU GPL 版本 3 或更高版本
http://gnu.org/licenses/gpl.html. 这是免费软件:您可以自由更改和
重新分配它。 在法律允许的范围内,不提供任何保证。

使用 onworks.net 服务在线使用 herold


免费服务器和工作站

下载 Windows 和 Linux 应用程序

  • 1
    libusb
    libusb
    启用用户空间的库
    与之通信的应用程序
    USB 设备。 受众:开发人员,结束
    用户/桌面。 编程语言:C。
    分类...
    下载 libusb
  • 2
    斯威格
    斯威格
    SWIG 是一种软件开发工具
    连接用 C 编写的程序和
    C++ 具有各种高级
    编程语言。 SWIG 用于
    不同的...
    下载痛饮
  • 3
    WooCommerce Nextjs 反应主题
    WooCommerce Nextjs 反应主题
    React WooCommerce 主题,构建于
    Next JS、Webpack、Babel、Node 和
    Express,使用 GraphQL 和 Apollo
    客户。 React 中的 WooCommerce 商店(
    包含:产品...
    下载 WooCommerce Nextjs React 主题
  • 4
    archlabs_repo
    archlabs_repo
    ArchLabs 的软件包仓库 这是一个
    也可以获取的应用程序

    https://sourceforge.net/projects/archlabs-repo/.
    它已在 OnWorks 中托管...
    下载 archlabs_repo
  • 5
    和风项目
    和风项目
    Zephyr 项目是新一代
    实时操作系统 (RTOS)
    支持多种硬件
    架构。 它基于一个
    小尺寸内核...
    下载 Zephyr 项目
  • 6
    SCCons
    SCCons
    SCons是一个软件构建工具
    这是一个更好的选择
    经典的“Make”构建工具
    我们都知道并热爱。 SCons 是
    实施了一个...
    下载 SCons
  • 更多 ”

Linux 命令

Ad