영어FrenchSpanish

서버 실행 | Ubuntu > | Fedora > |


온웍스 파비콘

herold - 클라우드의 온라인

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 제공업체에서 herold 실행

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 명령 herold입니다.

프로그램:

이름


herold - HTML에서 DocBook으로 변환기

개요


전령 관 [옵션]

기술


프리젠테이션 중립적인 형태로 HTML 컨텐츠를 재사용하는 것은 빈번한 문제입니다. 하나 가능
해결책은 DocBook이 시맨틱 마크업 언어이기 때문에 HTML을 DocBook XML로 변환하는 것입니다.
사용자가 다음을 캡처하는 문서 콘텐츠를 만들 수 있도록
콘텐츠의 논리적 구조. 명령줄 도구 herold를 사용하여 HTML을 변환할 수 있습니다.
DocBook에. HTML 요소가 의도한 대로 사용되지 않는 경우가 많기 때문에
그러한 변형은 다소 제한적입니다. herold는 dbdoclet 도구 모음의 일부입니다.
자세한 내용은 http://www.dbdoclet.org.

옵션


--docbook-add-index, -x
문서 끝에 색인 요소를 자동으로 추가합니다.

--docbook-decompose-tables, -T
HTML 코드의 테이블을 단일 단락으로 분해합니다. 이것은 유용할 수 있으며,
문서에 서식상의 이유로 많은 표가 포함된 경우.

--docbook 인코딩, -d
생성된 DocBook XML 파일의 인코딩을 지정합니다.

--docbook-루트 요소, -r
문서의 루트 요소입니다. 가능한 값은 book, article, reference, part,
장 또는 섹션. 이 옵션의 기본값은 '기사'입니다.

--docbook-제목, -t
결과 문서의 제목입니다.

--in, -i
HTML 입력 파일을 지정합니다.

--도움, -h
콘솔에 도움말 페이지를 인쇄합니다.

--html 인코딩, -s
ISO-8859-1과 같은 HTML 소스 파일의 인코딩을 지정합니다.

--아웃,-오
DocBook XML 대상 파일을 지정합니다.

--프로필, -p
미리 정의된 설정이 있는 프로필 파일입니다.

--장황한, v
콘솔 출력에 대한 자세한 표시를 활성화합니다.

--버전, -V
herold의 버전을 표시합니다.

구성


변환의 세부 사항은 프로필 파일에 의해 제어됩니다. 프로필 파일 제공
명령줄 인수보다 변환에 영향을 줄 가능성이 더 많습니다. NS
다음 예는 일반적인 프로필 파일을 보여줍니다.

변환 html2docbook;

섹션 섹션 감지 {
속성 클래스 = ["^MsoHeading(\d+)$"];
섹션 번호 매기기 패턴 = "((\d+\.)+)?\d*\.?\p{Z}*";
}

섹션 목록 감지 {
itemized-attribute-class = ["^MsoListBullet(\w*)$", "Aufzhlung(\w+)$];
itemized-strip-prefix = [ "-", "o", "\u00b7" ];
주문 속성 클래스 = ["^MsoListNumbered(\w*)$"];
주문 스트립 접두사 = [ "\d+\.\s+" ];
}

섹션 HTML {
인코딩 = "윈도우-1252";
제외 = [ "//p[starts-with(@class, 'MsoToc')]", "" ];
}

섹션 DocBook {
추상 = """ 로렘 입숨
Lorem ipsum dolor sit met, consectetur adipiscing elit, sed
eiusmod tempor incididunt ut laboure et dolore magna aliqua를 수행하십시오. 우트
enim ad minim veniam, quis nostrud 운동 ullamco labouris
nisi ut aliquip ex ea commodo consequat. Duis aute irure 돌로르 인
reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla
파라투르. Exceptioneur sint occaecat cupidatat non proident, sunt in
culpa qui officia deserunt mollit anim id est labourum.sed, dolor
메트. """;
추가 색인 = true;
작성자 이메일 = "me@somewhere.de";
저자 이름 = "마이클";
저자 성 = "Fuchs";
축소 방지 공간 = "true";
copyright-holder = "Ingenieurbüro Michael Fuchs";
저작권 연도 = "2012";
기업 = "";
생성 조건 속성 = 거짓;
생성 프롤로그 = true;
생성 리맵 속성 = false;
생성-xref-레이블 = 거짓;
테이블 분해 = 거짓;
감지 트랩 -br = true;
문서 ID = "doc01";
문서 요소 = "책";
인코딩 = "UTF-8";
hyphenation-char = "소프트 하이픈";
이미지 데이터 형식 = [ "gif", "base64" ];
이미지 경로 = "./숫자";
언어 = "드";
릴리스 정보 = "버전 3.1";
테이블 스타일 = "모두";
제목 = "튜토리얼";
제목 정규화 공간 = true;
사용-절대-이미지-경로 = 거짓;
}

통사론
프로필 파일은 주로 섹션으로 구성됩니다. 섹션은 매개변수를 그룹화하는 데 사용됩니다.
같은 맥락을 공유합니다. 모든 섹션은 키워드로 시작해야 합니다. 섹션에 있어야 합니다. 다음에
섹션의 이름. 이름 뒤에 매개변수 블록이 옵니다.
중괄호. 매개변수는 문자열, 숫자, 부울 또는 배열 유형일 수 있습니다. 문자열은 다음과 같아야 합니다.
큰따옴표로 둘러싸여 있습니다. 문자열에 개행 문자가 포함되어 있으면 세 개의 큰따옴표를 사용하십시오.
하나 대신. 배열은 대괄호로 둘러싸여 있습니다. 배열 내부의 요소는
쉼표로 구분하십시오. 모든 할당은 세미콜론으로 끝나야 합니다. 여러 줄 주석
형태가 있다 /* my 본문 */ , 한 줄 주석은 다음과 같습니다. // my 댓글\n.

필수 요소
herold에 대한 프로필은 줄 변환 html2docbook;으로 시작해야 합니다.

섹션 섹션 감지
그 부분 섹션 감지 HTML 코드에서 섹션 요소를 감지하고 제거하는 데 사용됩니다.
제목에서 번호 지정 접두사를 제거합니다.

많은 저작 도구는 깊이 중첩된 섹션을 허용합니다. HTML을 내보내는 동안 발생합니다.
중첩은 XNUMX단계보다 깊어집니다. HTML은 최대 XNUMX개의 헤더 요소를 제공합니다.
레벨, h1-h6, 그러나 h7 또는 그 이상은 없습니다. 이 시점에서 형식은 일반적으로 다음으로 수행됩니다.
CSS 및 div 또는 p 요소의 도움. herold는 헤더 요소를 감지할 수 있습니다.
HTML은 있지만 특정 도구의 내보내기 형식에 대해서는 알 수 없습니다. 이를 해결하기 위해
경우에 따라 문제가 있는 경우에도 매개변수를 지정할 수 있습니다. 속성 클래스. 구성
각 HTML의 클래스 속성과 일치하는 정규식 목록
요소. 일치하는 항목이 발견되면 해당 요소는 섹션 요소로 간주됩니다. 레귤러
표현식은 레벨 표시기로 해석되는 그룹을 가질 수 있습니다. 그룹은 다음과 같아야 합니다.
첫 번째 그룹이고 숫자와 일치해야 합니다(예: ^heading(\d+)$). 레벨이 안되는 경우
감지되면 XNUMX 수준으로 가정합니다.

DocBook XSL 스타일시트는 변환하는 동안 섹션 번호 매기기를 처리하기 때문에
DocBook XML을 특정 출력으로 만들려면 이미 번호 매기기를 제거해야 하는 경우가 많습니다.
HTML 페이지에 정의되어 있습니다. 그렇지 않으면 앞에 두 개의 번호 매기기 텍스트가 생깁니다.
제목. 번호 매기기 패턴을 감지하는 데 도움이 되도록 매개변수를 사용합니다.
섹션 번호 매기기 패턴.

속성 클래스
모든 p 및 div 요소에 적용되는 정규식입니다. 만약 표현이
일치하면 현재 요소가 섹션 요소로 처리됩니다. 만약 일반
표현식에 그룹이 있으면 첫 번째 그룹이 중첩 수준으로 사용되고 그렇지 않으면 수준이 됩니다.
XNUMX로 가정합니다.

섹션 번호 매기기 패턴
일반적으로 HTML 데이터와 함께 제공되는 섹션 번호 매기기를 제거하려고 합니다.
DocBook의 제목 텍스트의 일부가 되기 때문입니다. 섹션 번호는
타겟 미디어에 두 번 나타납니다. HTML에서 하나, DocBook XSL에서 하나
처리. section-numbering-pattern 매개변수는 정규식을 정의합니다.
모든 섹션 제목의 시작 부분과 일치합니다. 일치하면,
일치하는 부분이 제거됩니다.

섹션 목록 감지
때때로 목록은 ul, ol 또는 dl 태그로 표시되지 않지만 p로 표시됩니다.
추가 CSS 형식이 있는 태그. HTML을 생성하거나 내보내는 도구를 사용하는 경우
이러한 구성에서 변환은 대신 para 요소로 끝납니다.
DocBook의 해당 목록 요소. 경우에 따라 목록을 다시 만들려면 다음을 사용할 수 있습니다.
그 부분 목록 감지. 매개변수 항목별 속성 클래스
주문 속성 클래스 다음과 일치하는 정규식 목록을 정의할 수 있습니다.
HTML의 목록 항목. herold는 이것에서 적절한 목록 구조를 재구축하려고 시도합니다.
중첩 목록의 경우에도 정보를 제공합니다.

섹션 HTML
섹션 HTML은 HTML의 로드 및 구문 분석을 제어하는 ​​매개변수를 정의합니다.
입력 데이터.

부호화
입력 스트림을 읽는 데 사용되는 문자 집합입니다.

제외
xpath 표현식의 배열을 정의합니다. HTML DOM 트리에서 모든 일치 항목이 제거됩니다.
변신 전.

섹션 DocBook
추상
정보 섹션의 추상 요소에 대한 텍스트입니다. 텍스트가 다음으로 구성된 경우
줄 바꿈에는 세 개의 큰따옴표를 구분 기호로 사용합니다. 텍스트가 "<"로 시작하는 경우
문자는 추상 요소에 포함됩니다. 그렇지 않으면 텍스트가 포함됩니다.
추상 요소 내부의 para 요소로. 텍스트가 구문 분석되고
DocBook 요소를 포함합니다.

인덱스 추가
true로 설정하면 DocBook XML 끝에 인덱스 요소가 삽입됩니다.

외부 참조 레이블 만들기
false로 설정하면 앵커 요소가 xreflabel 속성을 가져오지 않습니다.

분해 테이블
true로 설정하면 테이블 구조가 무시됩니다. 표 셀의 내용은
일련의 단락으로 DocBook XML에 삽입됩니다. 이 매개변수는
HTML에 서식 지정을 위한 테이블이 포함된 경우 유용합니다. 일반적으로 얻고자 하는
논리적 구조를 변경하기 때문에 제거하십시오.

문서 요소
사용하려는 문서 요소입니다. 기사, 책, 부분 또는 참조 중 하나여야 합니다.

부호화
출력 파일을 쓰는 데 사용할 문자 집합입니다.

이미지 데이터 형식
이미지 형식의 배열입니다. 이러한 형식은 imageobject 요소로 삽입됩니다.
해당 img의 src 속성에서 찾은 형식에 추가로
요소. 원래 형식은 "html" 및 "fo" 역할로 두 번 삽입됩니다. NS
다른 형식은 "html- "와 "포- ".

제목
결과 문서의 제목입니다. 이 매개변수가 정의되지 않은 경우 herold는 다음을 시도합니다.
HTML 데이터의 헤드 섹션에서 제목을 감지했습니다.

절대 이미지 경로 사용
imagedata 요소의 fileref 속성에서 절대 이미지 경로를 원하면,
이 매개변수를 true로 설정하십시오.

저작권


저작권 2001-2013 Michael Fuchs. 라이선스 GPLv3+: GNU GPL 버전 3 이상
http://gnu.org/licenses/gpl.html. 이것은 자유 소프트웨어입니다.
재배포합니다. 법이 허용하는 한도 내에서 어떠한 보증도 하지 않습니다.

onworks.net 서비스를 사용하여 herold 온라인 사용


Ad


Ad