АнглийскийФранцузскийИспанский

Запустить серверы | Ubuntu > | Fedora > |


Значок OnWorks

herold - Интернет в облаке

Запустите herold в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда herold, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


herold - конвертер HTML в DocBook

СИНТАКСИС


глашатай [ПАРАМЕТРЫ]

ОПИСАНИЕ


Повторное использование содержимого HTML в нейтральной для представления форме - частая проблема. Один возможный
решение - преобразовать HTML в DocBook XML, потому что DocBook - это язык семантической разметки.
для документации, которая позволяет пользователям создавать контент документа, который фиксирует
логическая структура содержания. Инструмент командной строки herold можно использовать для преобразования HTML.
в DocBook. Поскольку элементы HTML часто используются не по назначению, возможности для
такие преобразования несколько ограничены. herold является частью набора инструментов dbdoclet.
Для получения дополнительной информации посетите http://www.dbdoclet.org.

ОПЦИИ


--docbook-добавить-индекс, -x
Автоматически добавлять элемент указателя в конец документа.

--docbook-разложить-таблицы, -T
Разбивает таблицы из HTML-кода на отдельные абзацы. Это может быть полезно,
если документ содержит много таблиц по причинам форматирования.

--docbook-кодирование, -d
Задает кодировку создаваемых XML-файлов DocBook.

--docbook-корневой-элемент, -r
Корневой элемент документа. Возможные значения: книга, статья, ссылка, часть,
главу или раздел. Значение по умолчанию для этого параметра - "статья".

--docbook-название, -t
Заголовок итогового документа.

--в, -и
Задает входной файл HTML.

--помощь, -ч
Распечатывает страницу справки на консоли.

--html-кодировка, -s
Задает кодировку исходных файлов HTML, например ISO-8859-1.

--аут, -о
Задает целевой XML-файл DocBook.

--профиль, -р
Файл профиля с предопределенными настройками.

--подробный, v
Включает подробность вывода консоли.

--версия, -V
Отображает версию herold.

КОНФИГУРАЦИЯ


Детали преобразования контролируются файлом профиля. Файл профиля предлагает
больше возможностей повлиять на преобразование, чем аргументы командной строки. В
В следующем примере показан типичный файл профиля.

преобразование html2docbook;

раздел обнаружение раздела {
атрибут-класс = ["^ MsoHeading (\ d +) $"];
шаблон нумерации разделов = "((\ d + \.) +)? \ d * \.? \ p {Z} *";
}

раздел список-обнаружение {
itemized-attribute-class = ["^ MsoListBullet (\ w *) $", "Aufzhlung (\ w +) $];
itemized-strip-prefix = ["-", "о", "\ u00b7"];
упорядоченный атрибут-класс = ["^ MsoListNumbered (\ w *) $"];
упорядоченный префикс полосы = ["\ d + \. \ s +"];
}

раздел HTML {
encoding = "windows-1252";
exclude = ["// p [начинается с (@class, 'MsoToc')]", ""];
}

раздел Документы {
abstract = "" " Lorem ipsum
Lorem ipsum dolor sit amet, consctetur adipisicing elit, sed
сделать eiusmod tempor incididunt ут Labore et dolore magna aliqua. Ут
enim ad minim veniam, quis nostrud упражнения ullamco labouris
nisi ut aliquip ex ea Commodo Concequat. Duis aute irure dolor в
репрезендерит в сладострастном velit esse cillum dolore eu fugiat nulla
pariatur. Excepteur sint occaecat cupidatat non proident, загорелся
culpa qui officia deserunt mollit anim id est labourum.sed, dolor
Амет. "" ";
добавить индекс = истина;
author-email = "я@где-то.de";
author-firstname = "Майкл";
author-surname = "Fuchs";
collapse-protected-space = "правда";
владелец авторских прав = "Ingenieurbüro Michael Fuchs";
copyright-year = "2012";
корпорация = "";
создать-условие-атрибут = ложь;
создать пролог = истина;
создать-remap-attribute = false;
создать-xref-label = false;
разложить таблицы = ложь;
обнаруживать ловушку-br = истина;
документация-id = "doc01";
документ-элемент = "книга";
кодировка = "UTF-8";
hyphenation-char = "мягкий дефис";
изображения-данные-форматы = ["gif", "base64"];
путь-изображение = "./figures";
language = "де";
release-info = "Версия 3.1";
table-style = "все";
title = "Учебник";
название-нормализировать-пробел = истина;
использовать-абсолютный-образ-путь = ложь;
}

Синтаксис
Файл профиля состоит в основном из разделов. Разделы используются для группировки параметров, которые
разделяют тот же контекст. Каждый раздел должен начинаться с ключевого слова раздел а затем
название раздела. После имени идет блок параметров, окруженный
фигурные скобки. Параметры могут быть типа String, Number, Boolean или Array. Струны должны быть
заключены в двойные кавычки. Если строка содержит символы новой строки, используйте три двойные кавычки
вместо одного. Массивы заключены в квадратные скобки. Внутри массива элементы должны
быть разделенными запятыми. Каждое задание должно заканчиваться точкой с запятой. Многострочные комментарии
иметь форму /* my комментарий */ , однострочные комментарии выглядят так // my комментарий \ n.

обязательное элементы
Профиль для herold должен начинаться с преобразования строки html2docbook ;.

Раздел обнаружение сечения
Секция обнаружение сечения используется для обнаружения элементов раздела в HTML-коде и удаления
выключить любой префикс нумерации из заголовков.

Многие инструменты разработки допускают глубоко вложенные разделы. При экспорте HTML бывает, что
вложение становится глубже шести уровней. HTML предоставляет элементы заголовка для шести
уровни, h1-h6, но не h7 или даже больше. На этом этапе форматирование обычно выполняется с помощью
с помощью CSS и элементов div или p. herold может обнаружить элемент заголовка
HTML, но он не может знать о формате экспорта конкретного инструмента. Чтобы решить эту проблему
проблема даже для некоторых случаев можно указать параметр атрибут-класс, Это состоит из
список регулярных выражений, которые сопоставляются с атрибутом класса каждого HTML
элемент. Если совпадение найдено, элемент считается элементом раздела. Регулярный
Выражение может иметь группу, которая интерпретируется как индикатор уровня. Группа должна быть
первая группа, и она должна совпадать с числом, например ^ заголовок (\ d +) $. Если уровень не может
быть обнаруженным, предполагается уровень семь.

Поскольку таблицы стилей DocBook XSL заботятся о нумерации разделов при преобразовании
DocBook XML для конкретного вывода, часто бывает необходимо уже удалить нумерацию
определено на странице HTML. В противном случае вы получите два текста с нумерацией перед вашим
названия. Чтобы помочь ей в обнаружении шаблонов нумерации, используйте параметр
образец нумерации разделов.

атрибут-класс
Регулярное выражение, которое применяется к каждому элементу p и div. Если выражение
совпадает, текущий элемент обрабатывается как элемент раздела. Если регулярный
выражение имеет группы, первая группа будет использоваться как уровень вложенности, в противном случае уровень
предполагается семь.

образец нумерации разделов
Обычно вы хотите избавиться от нумерации разделов, которые идут с данными HTML,
потому что он становится частью текста заголовка в DocBook. Номера разделов будут
появятся дважды в ваших целевых СМИ. Один из HTML и один из DocBook XSL
обработка. Параметр section-numbering-pattern определяет регулярное выражение,
который сравнивается с началом каждого заголовка раздела. Если он совпадает,
соответствующая часть удалена.

Раздел список-обнаружение
Иногда списки не представлены тегами ul, ol или dl, но они представлены как p
теги с дополнительным форматированием css. Если вы используете инструмент, который создает или экспортирует HTML с
такая конструкция, преобразование завершится элементами para вместо
соответствующие элементы списка в DocBook. В некоторых случаях для воссоздания списков можно использовать
секция список-обнаружение, Параметры детализированный-атрибут-класс и
упорядоченный-атрибут-класс позволяют определять списки регулярных выражений, которые соответствуют
listitems в HTML. herold пытается восстановить правильную структуру списка из этого
информация, даже для вложенных списков.

Раздел HTML
Раздел HTML определяет параметры, которые управляют загрузкой и синтаксическим анализом HTML.
входные данные.

кодирование
Набор символов, используемый для чтения входящего потока.

исключать
Определяет массив выражений xpath. Все совпадения удаляются из дерева HTML DOM
до трансформации.

Раздел DocBook
Абстрактные
Текст абстрактного элемента информационного раздела. Если текст структурирован с
новые строки, используйте три двойные кавычки в качестве разделителей. Если текст начинается с символа «<»
символ, он встраивается в абстрактный элемент, в противном случае встраивается текст
в элемент para внутри абстрактного элемента. Текст будет проанализирован и может
содержат элементы DocBook.

добавить индекс
Если установлено значение true, элемент индекса вставляется в конец XML-документа DocBook.

создать-xref-label
если установлено значение false, элементы привязки не получают атрибут xreflabel.

разложить таблицы
Если установлено значение true, структуры таблиц будут игнорироваться. Содержимое ячеек таблицы будет
быть вставленным в DocBook XML в виде последовательности абзацев. Этот параметр может быть
полезно, если ваш HTML содержит таблицы для форматирования. Обычно вы хотите получить
избавиться от них, потому что они нарушают логическую структуру.

документ-элемент
Элемент документа, который вы хотите использовать. Должна быть одна из статей, книг, частей или ссылок.

кодирование
Набор символов, который будет использоваться для записи выходного файла.

форматы данных изображений
Массив форматов изображений. Эти форматы будут вставлены как элементы imageobject,
в дополнение к формату, указанному в атрибуте src соответствующего img
элемент. Исходный формат вставляется дважды с ролями «html» и «fo». В
другие форматы вставляются как "html- "и" для- ".

название
Название итогового документа. Если этот параметр не определен, герольд пытается
удалил заголовок из раздела заголовка данных HTML.

использовать-абсолютный-путь-изображения
Если вам нужны абсолютные пути к изображениям в атрибуте fileref элемента imagedata,
установите для этого параметра значение true.

АВТОРСКИЕ ПРАВА


Авторские права 2001-2013 Майкл Фукс. Лицензия GPLv3 +: GNU GPL версии 3 или новее
http://gnu.org/licenses/gpl.html. Это бесплатное программное обеспечение: вы можете изменять и
распространять его. НИКАКИХ ГАРАНТИЙ в той степени, в которой это разрешено законом.

Используйте herold в Интернете с помощью сервисов onworks.net


Ad


Ad