यह कमांड हेरोल्ड है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
हेरोल्ड - HTML से डॉकबुक कनवर्टर
SYNOPSIS
सूचना देना [विकल्प]
वर्णन
प्रस्तुति-तटस्थ रूप में HTML सामग्री का पुन: उपयोग एक लगातार समस्या है। एक संभव
समाधान HTML को DocBook XML में परिवर्तित करना है, क्योंकि DocBook एक सिमेंटिक मार्कअप भाषा है
दस्तावेज़ीकरण के लिए, जो अपने उपयोगकर्ताओं को दस्तावेज़ सामग्री बनाने में सक्षम बनाता है जो कैप्चर करता है
सामग्री की तार्किक संरचना. HTML को परिवर्तित करने के लिए कमांड लाइन टूल हेरोल्ड का उपयोग किया जा सकता है
डॉकबुक को. क्योंकि HTML तत्वों का उपयोग अक्सर इच्छित उद्देश्य के अनुरूप नहीं किया जाता है
ऐसा परिवर्तन कुछ हद तक सीमित है। हेरोल्ड टूल्स के dbdoclet सुइट का हिस्सा है।
अधिक जानकारी के लिए पर जाएं http://www.dbdoclet.org.
विकल्प
--डॉकबुक-ऐड-इंडेक्स, -एक्स
दस्तावेज़ के अंत में स्वचालित रूप से एक सूचकांक तत्व जोड़ें।
--डॉकबुक-डीकंपोज़-टेबल, -टी
HTML कोड से तालिकाओं को एकल पैराग्राफ में विघटित करता है। यह उपयोगी हो सकता है,
यदि किसी दस्तावेज़ में फ़ॉर्मेटिंग कारणों से बहुत सारी तालिकाएँ हैं।
--डॉकबुक-एन्कोडिंग, -डी
जेनरेट की गई DocBook XML फ़ाइलों की एन्कोडिंग निर्दिष्ट करता है।
--डॉकबुक-रूट-एलिमेंट, -आर
दस्तावेज़ का मूल तत्व. संभावित मान हैं: पुस्तक, लेख, संदर्भ, भाग,
अध्याय या अनुभाग. इस विकल्प के लिए डिफ़ॉल्ट मान 'लेख' है
--डॉकबुक-शीर्षक, -t
परिणामी दस्तावेज़ का शीर्षक.
--में, -मैं
HTML इनपुट फ़ाइल निर्दिष्ट करता है.
--सहायता, -हो
कंसोल पर एक सहायता पृष्ठ प्रिंट करता है।
--एचटीएमएल-एन्कोडिंग, -एस
HTML स्रोत फ़ाइलों की एन्कोडिंग निर्दिष्ट करता है, जैसे ISO-8859-1।
--बाहर, -ओ
DocBook XML गंतव्य फ़ाइल निर्दिष्ट करता है।
--प्रोफ़ाइल, -पी
पूर्वनिर्धारित सेटिंग्स वाली एक प्रोफ़ाइल फ़ाइल।
--वर्बोज़, वी
कंसोल आउटपुट के लिए वर्बोसिटी सक्षम करता है।
--संस्करण, -वी
हेरोल्ड का संस्करण प्रदर्शित करता है.
विन्यास
परिवर्तन का विवरण एक प्रोफ़ाइल फ़ाइल द्वारा नियंत्रित किया जाता है। एक प्रोफ़ाइल फ़ाइल ऑफ़र करती है
कमांड लाइन तर्कों की तुलना में परिवर्तन को प्रभावित करने की अधिक संभावनाएँ।
निम्नलिखित उदाहरण एक विशिष्ट प्रोफ़ाइल फ़ाइल दिखाता है।
परिवर्तन html2docbook;
अनुभाग अनुभाग-पहचान {
विशेषता-वर्ग = ["^MsoHeading(\d+)$"];
सेक्शन-नंबरिंग-पैटर्न = "((\d+\.)+)?\d*\.?\p{Z}*";
}
अनुभाग सूची-पहचान {
आइटमीकृत-विशेषता-वर्ग = ["^MsoListBullet(\w*)$", "Aufzhlung(\w+)$];
आइटमयुक्त-पट्टी-उपसर्ग = [ "-", "ओ", "\u00" ];
आदेशित-विशेषता-वर्ग = ["^MsoListNumbered(\w*)$"];
आदेशित-पट्टी-उपसर्ग = [ "\d+\.\s+" ];
}
अनुभाग HTML {
एन्कोडिंग = "विंडोज़-1252";
बहिष्कृत = [ "//p[शुरू होता है (@class, 'MsoToc')]", "" ];
}
अनुभाग डॉकबुक {
सार = """ लोरेम इप्सम
लोरेम इप्सम डोलर सिट अमेट, कंसेक्टेचर एडिपिसिंग एलीट, सेड
दो ईयूसमॉड ने दुर्घटना को अंजाम दिया और बहुत सारा पैसा खर्च किया। केन्द्र शासित प्रदेशों
एनिम एड मिनिम वेनियम, क्विस नोस्ट्रुड एक्सर्सिटेशन उल्लामको लेबोरिस
निसी यूटी एलिक्विप पूर्व ईए कमोडो कॉन्सक्वेट। डुइस अउते इरुरे डोलोर इन
रिप्रेहेंडरिट इन वॉलुप्टेट वेलिट एसे सिलम डोलोर ईयू फ्यूगिएट नल्ला
पारियाटूर. एक्सेप्टेउर सिंट ओकैकैट क्यूपिडैटैट नॉन प्रोडेंट, सुंट इन
कुल्पा क्वि ऑफ़िसिया डेसरंट मोलिट एनिम आईडी इस्ट लेबरम.सेड, डोलर
आमेट. """;
ऐड-इंडेक्स = सत्य;
लेखक-ईमेल = "[ईमेल संरक्षित]";
लेखक-पहला नाम = "माइकल";
लेखक-उपनाम = "फुच्स";
पतन-संरक्षित-स्थान = "सत्य";
कॉपीराइट-धारक = "इनगेनीउरब्यूरो माइकल फुच्स";
कॉपीराइट-वर्ष = "2012";
निगम = "";
सृजन-स्थिति-विशेषता = गलत;
क्रिएट-प्रोलॉग = सत्य;
क्रिएट-रीमैप-विशेषता = गलत;
create-xref-लेबल = गलत;
विघटित-सारणी = असत्य;
डिटेक्ट-ट्रैप्ड-बीआर = सत्य;
दस्तावेज़ीकरण-आईडी = "doc01";
दस्तावेज़-तत्व = "पुस्तक";
एन्कोडिंग = "यूटीएफ-8";
हाइफ़नेशन-चार = "सॉफ्ट-हाइफ़न";
छवि-डेटा-प्रारूप = ["gif", "base64" ];
छवि-पथ = "./आंकड़े";
भाषा = "डी";
रिलीज़-जानकारी = "संस्करण 3.1";
टेबल-शैली = "सभी";
शीर्षक = "ट्यूटोरियल";
शीर्षक-सामान्यीकरण-स्थान = सत्य;
उपयोग-पूर्ण-छवि-पथ = गलत;
}
वाक्य - विन्यास
एक प्रोफ़ाइल फ़ाइल में मुख्य रूप से अनुभाग होते हैं। अनुभागों का उपयोग पैरामीटरों को समूहीकृत करने के लिए किया जाता है
समान संदर्भ साझा करें. प्रत्येक अनुभाग कीवर्ड से शुरू होना चाहिए अनुभाग द्वारा पीछा किया
अनुभाग का नाम. नाम के बाद पैरामीटर्स का ब्लॉक आता है, जो घिरा हुआ है
घुंघराले ब्रेसिज़। पैरामीटर स्ट्रिंग, संख्या, बूलियन या ऐरे प्रकार के हो सकते हैं। तार होना चाहिए
दोहरे उद्धरण चिन्हों के साथ तैयार किया गया। यदि स्ट्रिंग में नई पंक्तियाँ हैं, तो तीन दोहरे उद्धरण चिह्नों का उपयोग करें
एक के बजाय. सारणियों को वर्गाकार कोष्ठकों से तैयार किया गया है। किसी सरणी के अंदर, तत्व अवश्य होने चाहिए
अल्पविराम से अलग किया जाए. प्रत्येक कार्य को अर्धविराम से समाप्त किया जाना चाहिए। बहु पंक्ति टिप्पणियाँ
रूप है /* my टिप्पणी */ , एकल पंक्ति टिप्पणियाँ जैसी दिखती हैं // my टिप्पणी\n.
अनिवार्य तत्व
हेरोल्ड के लिए एक प्रोफ़ाइल लाइन ट्रांसफ़ॉर्मेशन html2docbook; से शुरू होनी चाहिए।
अनुभाग अनुभाग-पहचान
अनुभाग अनुभाग-पहचान HTML कोड में अनुभाग तत्वों का पता लगाने और स्ट्रिप करने के लिए उपयोग किया जाता है
शीर्षकों से किसी भी क्रमांकन उपसर्ग को हटा दें।
कई संलेखन उपकरण गहराई से नेस्टेड अनुभागों की अनुमति देते हैं। HTML निर्यात करते समय, ऐसा होता है, कि
घोंसला छह स्तरों से अधिक गहरा हो जाता है। HTML छह तक के लिए हेडर तत्व प्रदान करता है
स्तर, h1-h6, लेकिन कोई h7 या इससे भी अधिक नहीं। इस बिंदु पर, फ़ॉर्मेटिंग सामान्य रूप से की जाती है
CSS और div या p तत्वों की सहायता। हेरोल्ड के हेडर तत्व का पता लगाने में सक्षम है
HTML, लेकिन यह किसी विशिष्ट टूल के निर्यात प्रारूप के बारे में नहीं जान सकता। इसे हल करने के लिए
समस्या यहां तक कि कुछ मामलों के लिए, आप पैरामीटर निर्दिष्ट कर सकते हैं गुण-वर्ग। यह मिश्रण है
नियमित अभिव्यक्तियों की एक सूची, जो प्रत्येक HTML की वर्ग विशेषता से मेल खाती है
तत्व। यदि कोई मिलान पाया जाता है, तो तत्व को अनुभाग तत्व माना जाता है। नियमित
अभिव्यक्ति में समूह हो सकता है, जिसे स्तर सूचक के रूप में समझा जाता है। समूह अवश्य होना चाहिए
पहला समूह और इसे एक संख्या से मेल खाना चाहिए, उदाहरण के लिए ^heading(\d+)$। यदि स्तर नहीं हो सकता
पता लगाया जाए तो सात का स्तर माना जाता है।
क्योंकि DocBook XSL स्टाइलशीट ट्रांसफ़ॉर्म करते समय सेक्शन नंबरिंग का ध्यान रखती है
DocBook XML को एक विशिष्ट आउटपुट के लिए, नंबरिंग को पहले से ही हटाना अक्सर आवश्यक होता है
HTML पेज में परिभाषित। अन्यथा आपके सामने दो नंबर वाले टेक्स्ट रह जाएंगे
शीर्षक. नंबरिंग पैटर्न का पता लगाने में हेरोल्ड की मदद करने के लिए, पैरामीटर का उपयोग करें
अनुभाग-संख्या-पैटर्न.
गुण-वर्ग
एक नियमित अभिव्यक्ति, जो प्रत्येक p और div तत्व पर लागू होती है। यदि अभिव्यक्ति
मेल खाता है, वर्तमान तत्व को अनुभाग तत्व के रूप में नियंत्रित किया जाता है। यदि नियमित
अभिव्यक्ति में समूह हैं, पहले समूह का उपयोग नेस्टिंग स्तर के रूप में किया जाएगा, अन्यथा स्तर के रूप में
सात मान लिया गया है.
अनुभाग-संख्या-पैटर्न
आम तौर पर आप HTML डेटा के साथ आने वाले अनुभाग क्रमांकन से छुटकारा पाना चाहते हैं,
क्योंकि यह DocBook में शीर्षक पाठ का हिस्सा बन जाता है। अनुभाग संख्याएँ होंगी
आपके लक्षित मीडिया में दो बार दिखाई दें। एक HTML से और एक DocBook XSL से
प्रसंस्करण. पैरामीटर सेक्शन-नंबरिंग-पैटर्न एक नियमित अभिव्यक्ति को परिभाषित करता है,
जो प्रत्येक अनुभाग शीर्षक की शुरुआत से मेल खाता है। यदि यह मेल खाता है, तो
मेल खाने वाला भाग हटा दिया गया है.
अनुभाग सूची-पहचान
कभी-कभी सूचियों को ul, ol या dl टैग के साथ प्रदर्शित नहीं किया जाता है, लेकिन उन्हें p के रूप में दर्शाया जाता है
अतिरिक्त सीएसएस स्वरूपण के साथ टैग। यदि आप किसी टूल का उपयोग करते हैं, जो HTML बनाता है या निर्यात करता है
इस तरह के निर्माण में, रूपांतरण के बजाय पैरा तत्वों के साथ समाप्त हो जाएगा
DocBook में संगत सूची तत्व। कुछ मामलों में सूचियों को दोबारा बनाने के लिए, आप इसका उपयोग कर सकते हैं
अनुभाग सूची-पहचान. पैरामीटर आइटमीकृत-विशेषता-वर्ग और
आदेशित-विशेषता-वर्ग आपको रेगुलर एक्सप्रेशन की सूचियों को परिभाषित करने देता है, जो मेल खाती हैं
HTML में आइटम सूचीबद्ध करें। हेरोल्ड इससे उचित सूची संरचना का पुनर्निर्माण करने का प्रयास करता है
जानकारी, यहां तक कि नेस्टेड सूचियों के लिए भी।
अनुभाग एचटीएमएल
HTML अनुभाग पैरामीटर को परिभाषित करता है, जो HTML की लोडिंग और पार्सिंग को नियंत्रित करता है
इनपुट डेटा।
एन्कोडिंग
इनपुट स्ट्रीम को पढ़ने के लिए वर्ण सेट का उपयोग किया जाता है।
निकालना
xpath अभिव्यक्तियों की एक सरणी को परिभाषित करता है। सभी मिलान HTML DOM ट्री से हटा दिए गए हैं
परिवर्तन से पहले.
अनुभाग DocBook
सार
सूचना अनुभाग के सार तत्व के लिए पाठ. यदि पाठ के साथ संरचित है
न्यूलाइन, सीमांकक के रूप में तीन दोहरे उद्धरण चिह्नों का उपयोग करें। यदि पाठ "<" से शुरू होता है
चरित्र, यह एक अमूर्त तत्व में अंतर्निहित है, अन्यथा पाठ अंतर्निहित है
एक अमूर्त तत्व के अंदर एक पैरा तत्व में। पाठ को पार्स किया जाएगा और किया जा सकता है
डॉकबुक तत्व शामिल हैं।
ऐड-इंडेक्स
यदि सही पर सेट किया जाता है, तो DocBook XML के अंत में एक इंडेक्स तत्व डाला जाता है।
create-xref-लेबल
यदि गलत पर सेट किया जाता है, तो एंकर तत्वों को xreflabel विशेषता नहीं मिलती है।
विघटित-टेबल
यदि सही पर सेट किया जाता है, तो टेबल संरचनाओं को नजरअंदाज कर दिया जाएगा। तालिका कक्षों की सामग्री होगी
डॉकबुक एक्सएमएल में पैराग्राफ के अनुक्रम के रूप में डाला जाए। यह पैरामीटर हो सकता है
यदि आपके HTML में फ़ॉर्मेटिंग उद्देश्यों के लिए तालिकाएँ हैं तो यह उपयोगी है। आम तौर पर आप पाना चाहते हैं
उनसे छुटकारा पाएं, क्योंकि वे तार्किक संरचना से छेड़छाड़ करते हैं।
दस्तावेज़-तत्व
वह दस्तावेज़ तत्व जिसका आप उपयोग करना चाहते हैं. लेख, पुस्तक, भाग या संदर्भ में से एक होना चाहिए।
एन्कोडिंग
वह कैरेक्टर सेट जिसका उपयोग आउटपुट फ़ाइल लिखने के लिए किया जाएगा।
छवि-डेटा-प्रारूप
छवि प्रारूपों की एक श्रृंखला. ये प्रारूप इमेजऑब्जेक्ट तत्वों के रूप में डाले जाएंगे,
संबंधित img के src विशेषता में पाए गए प्रारूप के अतिरिक्त
तत्व। मूल प्रारूप को "html" और "fo" भूमिकाओं के साथ दो बार डाला गया है।
अन्य प्रारूप "html-" के रूप में डाले गए हैं " और "के लिए- ".
शीर्षक
परिणामी दस्तावेज़ का शीर्षक. यदि यह पैरामीटर अपरिभाषित है, तो हेरोल्ड प्रयास करता है
HTML डेटा के मुख्य अनुभाग से शीर्षक निर्धारित किया।
उपयोग-पूर्ण-छवि-पथ
यदि आप इमेजडेटा तत्व की फ़ाइलरेफ विशेषता में पूर्ण छवि पथ चाहते हैं,
इस पैरामीटर को सत्य पर सेट करें।
कॉपीराइट
कॉपीराइट 2001-2013 माइकल फुच्स। लाइसेंस GPLv3+: GNU GPL संस्करण 3 या बाद का संस्करण
http://gnu.org/licenses/gpl.html. यह निःशुल्क सॉफ़्टवेयर है: आप परिवर्तन करने के लिए स्वतंत्र हैं
इसे पुनर्वितरित करें। कानून द्वारा अनुमत सीमा तक कोई वारंटी नहीं है।
onworks.net सेवाओं का उपयोग करके ऑनलाइन हेरोल्ड का उपयोग करें