Tiếng AnhTiếng PhápTiếng Tây Ban Nha

Chạy máy chủ | Ubuntu > | Fedora > |


Biểu tượng yêu thích OnWorks

herold - Trực tuyến trên đám mây

Chạy herold trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks qua Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS

Đây là herold lệnh có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình giả lập trực tuyến MAC OS

CHƯƠNG TRÌNH:

TÊN


herold - Trình chuyển đổi HTML sang DocBook

SYNOPSIS


đây [TÙY CHỌN]

MÔ TẢ


Việc sử dụng lại nội dung HTML ở dạng trình bày trung tính là một vấn đề thường xuyên. Một có thể
giải pháp là chuyển đổi HTML sang DocBook XML, vì DocBook là một ngôn ngữ đánh dấu ngữ nghĩa
cho tài liệu, cho phép người dùng của nó tạo ra nội dung tài liệu để nắm bắt
cấu trúc logic của nội dung. Công cụ dòng lệnh herold có thể được sử dụng để chuyển đổi HTML
sang DocBook. Bởi vì các phần tử HTML thường không được sử dụng như dự định, khả năng
một sự chuyển đổi như vậy là phần nào hạn chế. herold là một phần của bộ công cụ dbdoclet.
Để biết thêm thông tin, hãy truy cập http://www.dbdoclet.org.

LỰA CHỌN


--docbook-add-index, -x
Tự động thêm một phần tử chỉ mục vào cuối tài liệu.

--docbook-phân rã-bảng, -T
Phân chia các bảng từ mã HTML thành các đoạn văn bản. Điều này có thể hữu ích,
nếu một tài liệu chứa nhiều bảng vì lý do định dạng.

--docbook-encoding, -d
Chỉ định mã hóa của các tệp DocBook XML đã tạo.

--docbook-root-element, -r
Phần tử gốc của tài liệu. Các giá trị có thể có là: sách, bài báo, tài liệu tham khảo, một phần,
chương hoặc phần. Giá trị mặc định cho tùy chọn này là 'article'

--docbook-title, -t
Tiêu đề cho tài liệu kết quả.

--in, -i
Chỉ định tệp đầu vào HTML.

- trợ giúp, -h
In trang trợ giúp trên bảng điều khiển.

--html-encoding, -s
Chỉ định mã hóa của các tệp nguồn HTML, chẳng hạn như ISO-8859-1.

--out, -o
Chỉ định tệp đích DocBook XML.

--profile, -p
Một tệp hồ sơ với các cài đặt được xác định trước.

--verbose, v
Cho phép độ chi tiết cho đầu ra bảng điều khiển.

--version, -V
Hiển thị phiên bản của herold.

CẤU HÌNH


Các chi tiết của một chuyển đổi được kiểm soát bởi một tệp hồ sơ. Một tệp hồ sơ cung cấp
nhiều khả năng ảnh hưởng đến việc chuyển đổi hơn so với các đối số dòng lệnh. Các
ví dụ sau đây cho thấy một tệp hồ sơ điển hình.

chuyển đổi html2docbook;

phần phát hiện phần {
thuộc tính-class = ["^ MsoHeading (\ d +) $"];
section-numumbers-pattern = "((\ d + \.) +)? \ d * \.? \ p {Z} *";
}

phát hiện danh sách phần {
itemized-thuộc tính-class = ["^ MsoListBullet (\ w *) $", "Aufzhlung (\ w +) $];
itemized-dải-prefix = ["-", "o", "\ u00b7"];
Order-thuộc tính-class = ["^ MsoListNumbered (\ w *) $"];
đã đặt hàng-dải-tiền tố = ["\ d + \. \ s +"];
}

phần HTML {
encoding = "windows-1252";
loại trừ = ["// p [start-with (@class, 'MsoToc')]", ""];
}

phần DocBook {
trừu tượng = "" " Lorem ipsum
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed
làm eiusmod tempor incididunt ut labore et dolore magna aliqua. Út
enim ad minim veniam, quis nostrud tập thể dục ullamco labris
nisi ut aliquip ex ea Hàng hóa Hậu quả. Duis aute irure dolor in
reploynderit trong voluptate velit esse cillum dolore eu fugiat nulla
người phụ nữ. Excepteur sint occaecat cupidatat không proident, sunt in
culpa qui officia Desunt mollit anim id est labourum.sed, dolor
đồ đạc. "" ";
add-index = true;
tác giả-email = "me@somewhere.de";
author-firstname = "Michael";
author-surname = "Fuchs";
sập-bảo vệ-không gian = "true";
Copyright-Owner = "Ingenieurbüro Michael Fuchs";
bản quyền-năm = "2012";
tập đoàn = "";
tạo-điều kiện-thuộc tính = false;
create-prolog = true;
create-remap-thuộc tính = false;
create-xref-label = false;
phân rã-bảng = false;
phát hiện-bị mắc kẹt-br = true;
tài liệu-id = "doc01";
document-element = "book";
mã hóa = "UTF-8";
hyphenation-char = "soft-gạch nối";
image-data-format = ["gif", "base64"];
image-path = "./figures";
ngôn ngữ = "de";
release-info = "Phiên bản 3.1";
table-style = "all";
title = "Hướng dẫn";
title-normalize-space = true;
use-tuyệt đối-hình ảnh-đường dẫn = false;
}

cú pháp
Một tệp hồ sơ chủ yếu bao gồm các phần. Các phần được sử dụng để nhóm các tham số
cùng chung bối cảnh. Mọi phần phải bắt đầu bằng từ khóa phần tiếp theo là
tên của phần. Sau tên là khối tham số, được bao quanh bởi
dấu ngoặc nhọn. Các tham số có thể là kiểu String, Number, Boolean hoặc Array. Chuỗi phải được
đóng khung với dấu ngoặc kép. Nếu Chuỗi chứa các dòng mới, hãy sử dụng ba dấu ngoặc kép
thay vì một. Mảng được đóng khung bằng dấu ngoặc vuông. Bên trong một mảng, các phần tử phải
được phân cách bằng dấu phẩy. Mọi bài tập phải được kết thúc bằng dấu chấm phẩy. Nhận xét nhiều dòng
có hình thức /* my bình luận */ , bình luận một dòng trông giống như // my bình luận \ n.

bắt buộc Các yếu tố
Hồ sơ cho herold phải bắt đầu bằng chuyển đổi dòng html2docbook ;.

Phần phát hiện phần
Phần phát hiện phần được sử dụng để phát hiện các phần tử phần trong mã HTML và để tách
tắt bất kỳ tiền tố đánh số nào từ các tiêu đề.

Nhiều công cụ soạn thảo cho phép các phần lồng nhau sâu sắc. Trong khi xuất HTML, nó sẽ xảy ra,
sự làm tổ trở nên sâu hơn sáu cấp độ. HTML cung cấp các phần tử tiêu đề cho tối đa sáu
cấp độ, h1-h6, nhưng không có h7 hoặc thậm chí cao hơn. Tại thời điểm này, việc định dạng thường được thực hiện với
sự trợ giúp của CSS và các phần tử div hoặc p. herold có thể phát hiện phần tử tiêu đề của
HTML, nhưng nó không thể biết về định dạng xuất của một công cụ cụ thể. Để giải quyết vấn đề này
ngay cả đối với một số trường hợp, bạn có thể chỉ định tham số thuộc tính-lớp. Nó bao gồm
danh sách các biểu thức chính quy, được so khớp với thuộc tính lớp của mỗi HTML
yếu tố. Nếu tìm thấy một kết quả phù hợp, phần tử được coi là phần tử phần. Thường xuyên
biểu thức có thể có nhóm, được hiểu là chỉ số mức. Nhóm phải là
nhóm đầu tiên và nó phải khớp với một số, ví dụ: ^ tiêu đề (\ d +) $. Nếu mức độ không thể
được phát hiện, mức bảy được giả định.

Bởi vì các biểu định kiểu XSL của DocBook đảm nhận việc đánh số phần trong khi chuyển đổi
DocBook XML đến một đầu ra cụ thể, thường cần loại bỏ việc đánh số
được xác định trong trang HTML. Nếu không, bạn sẽ có hai văn bản đánh số phía trước
các chức danh. Để giúp anh hùng phát hiện các mẫu đánh số, hãy sử dụng tham số
đánh số phần-mẫu.

thuộc tính-lớp
Một biểu thức chính quy, được áp dụng cho mọi phần tử p và div. Nếu biểu thức
khớp, phần tử hiện tại được xử lý như một phần tử phần. Nếu thường xuyên
biểu thức có các nhóm, nhóm đầu tiên sẽ được sử dụng làm cấp lồng nhau, nếu không thì cấp
bảy được giả định.

đánh số phần-mẫu
Thông thường, bạn muốn loại bỏ việc đánh số phần đi kèm với dữ liệu HTML,
vì nó trở thành một phần của văn bản tiêu đề trong DocBook. Số phần sẽ
xuất hiện hai lần trong phương tiện truyền thông mục tiêu của bạn. Một từ HTML và một từ DocBook XSL
Chế biến. Phần-đánh số-phần tham số xác định một biểu thức chính quy,
được so khớp với phần đầu của mỗi tiêu đề phần. Nếu nó phù hợp,
phần phù hợp bị loại bỏ.

Phần phát hiện danh sách
Đôi khi danh sách không được biểu diễn bằng các thẻ ul, ol hoặc dl, nhưng chúng được biểu diễn dưới dạng p
thẻ với định dạng css bổ sung. Nếu bạn sử dụng một công cụ tạo hoặc xuất HTML với
một cấu trúc như vậy, chuyển đổi sẽ kết thúc bằng các phần tử para, thay vì
các phần tử danh sách tương ứng trong DocBook. Để tạo lại danh sách trong một số trường hợp, bạn có thể sử dụng
phần phát hiện danh sách. Những thông số thành-thuộc-tính-lớp
có thứ tự-thuộc tính-lớp cho phép bạn xác định danh sách biểu thức chính quy, phù hợp với
listitems trong HTML. herold cố gắng xây dựng lại cấu trúc danh sách thích hợp từ đây
thông tin, ngay cả đối với danh sách lồng nhau.

Phần HTML
Phần HTML xác định các tham số, kiểm soát việc tải và phân tích cú pháp HTML
dữ liệu đầu vào.

mã hóa
Bộ ký tự được sử dụng để đọc luồng đầu vào.

loại trừ
Định nghĩa một mảng các biểu thức xpath. Tất cả các kết quả phù hợp đều bị xóa khỏi cây DOM HTML
trước khi biến đổi.

Phần DocBook
trừu tượng
Văn bản cho phần tử trừu tượng của phần thông tin. Nếu văn bản được cấu trúc với
dòng mới, sử dụng ba dấu ngoặc kép làm dấu phân cách. Nếu văn bản bắt đầu bằng "<"
ký tự, nó được nhúng vào một phần tử trừu tượng, nếu không, văn bản được nhúng
thành một phần tử para bên trong một phần tử trừu tượng. Văn bản sẽ được phân tích cú pháp và có thể
chứa các phần tử DocBook.

bổ sung chỉ mục
Nếu được đặt thành true, một phần tử chỉ mục sẽ được chèn vào cuối DocBook XML.

create-xref-label
nếu được đặt thành false, các phần tử liên kết sẽ không nhận được thuộc tính xreflabel.

phân rã bảng
Nếu được đặt thành true, cấu trúc bảng sẽ bị bỏ qua. Nội dung của các ô trong bảng sẽ
được chèn vào DocBook XML dưới dạng một chuỗi các đoạn văn. Tham số này có thể là
hữu ích nếu HTML của bạn chứa các bảng cho mục đích định dạng. Bình thường bạn muốn nhận được
loại bỏ chúng, bởi vì chúng làm xáo trộn cấu trúc logic.

tài liệu-yếu tố
Phần tử tài liệu bạn muốn sử dụng. Phải là một trong các bài báo, cuốn sách, một phần hoặc tài liệu tham khảo.

mã hóa
Bộ ký tự sẽ được sử dụng để ghi tệp đầu ra.

hình ảnh-dữ liệu-định dạng
Một loạt các định dạng hình ảnh. Các định dạng này sẽ được chèn làm phần tử đối tượng hình ảnh,
bổ sung cho định dạng được tìm thấy trong thuộc tính src của img tương ứng
yếu tố. Định dạng gốc được chèn hai lần với các vai trò "html" và "fo". Các
các định dạng khác được chèn dưới dạng "html- "và" fo- ".

tiêu đề
Tiêu đề của tài liệu kết quả. Nếu tham số này không được xác định, herold sẽ cố gắng
loại bỏ tiêu đề khỏi phần đầu của dữ liệu HTML.

sử dụng-tuyệt đối-hình ảnh-đường dẫn
Nếu bạn muốn các đường dẫn hình ảnh tuyệt đối trong thuộc tính fileref của phần tử imagedata,
đặt tham số này thành true.

BẢN QUYỀN


Bản quyền 2001-2013 Michael Fuchs. Giấy phép GPLv3 +: GNU GPL phiên bản 3 trở lên
http://gnu.org/licenses/gpl.html. Đây là phần mềm miễn phí: bạn có thể tự do thay đổi và
phân phối lại nó. KHÔNG CÓ BẢO HÀNH, trong phạm vi pháp luật cho phép.

Sử dụng herold trực tuyến bằng các dịch vụ onworks.net


Ad


Ad