पीडीएफसैंडविच - क्लाउड में ऑनलाइन

यह कमांड पीडीएफसैंडविच है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।

कार्यक्रम:

नाम


पीडीएफसैंडविच - स्कैन की गई पीडीएफ फाइलों से सैंडविच ओसीआर पीडीएफ के लिए एक जनरेटर

SYNOPSIS


पीडीएफसैंडविच [विकल्पों] इनपुटफ़ाइल.पीडीएफ

वर्णन


पीडीएफसैंडविच "सैंडविच" ओसीआर पीडीएफ फाइलें उत्पन्न करता है, यानी पीडीएफ फाइलें जिनमें केवल छवियां होती हैं
(कोई पाठ नहीं) ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) द्वारा संसाधित किया जाएगा और पाठ होगा
प्रत्येक पृष्ठ पर छवियों के "पीछे" अदृश्य रूप से जोड़ा गया। ध्यान दें कि पीडीएफसैंडविच की जरूरत है
निम्नलिखित प्रोग्राम: अनपेपर, कन्वर्ट, जीएस, hocr2pdf (टेसेरैक्ट <3.03 के लिए), और टेसेरैक्ट।
चूँकि tesseract >= 3.03 पीडीएफ फ़ाइलें लिख सकता है, hocr2pdf केवल पुराने संस्करणों के लिए आवश्यक है
टेसेरेक्ट. कृपया अवश्य पधारिए http://www.tobias-elze.de/पीडीएफसैंडविच.

विकल्प


-कन्वर्ट
-कन्वर्ट फ़ाइल नाम: कन्वर्ट बाइनरी का नाम (डिफ़ॉल्ट: कन्वर्ट)

-कू -कू विकल्पों : अतिरिक्त रूपांतर विकल्पों; उद्धरण देना सुनिश्चित करें; उदाहरण के लिए -कू
"-सामान्य बनाना -काला-दहलीज 75%" कॉल कन्वर्ट --मदद या मनुष्य सभी के लिए परिवर्तित हो जाता है
बदलना विकल्पों

-डीबग सभी अस्थायी फ़ाइलें रखें / Tmp (डिबगिंग के लिए)

-enforcehocr2pdf
hocr2pdf का उपयोग करें, भले ही tesseract >= 3.03 हो

-पहला पन्ना
-पहला पन्ना संख्या : ओसीआर प्रारंभ करने के लिए पृष्ठ की संख्या (डिफ़ॉल्ट: 1)

-ग्रेफ़िल्टर
अनपेपर का ग्रे फ़िल्टर सक्षम करें; आगे विकल्पों द्वारा सेट किया जा सकता है -अनपो

-जीएस -जीएस फ़ाइल नाम: जीएस बाइनरी का नाम (डिफ़ॉल्ट: जीएस)

-hocr2pdf
-hocr2pdf फ़ाइल नाम: hocr2pdf बाइनरी का नाम (डिफ़ॉल्ट: hocr2pdf); के लिए नजरअंदाज कर दिया गया
Tesseract >= 3.03 जब तक विकल्प नहीं -enforcehocr2pdf सेट है

-हू -हू विकल्पों : अतिरिक्त hocr2pdf विकल्पों; उद्धरण देना सुनिश्चित करें

-पहचान लो
-पहचान लो फ़ाइल नाम: पहचान बाइनरी का नाम (डिफ़ॉल्ट: पहचान)

-अंतिम पृष्ठ
-अंतिम पृष्ठ संख्या: उस पृष्ठ की संख्या जिस तक ओसीआर संसाधित करना है (डिफ़ॉल्ट: संख्या)।
इनपुटफाइल में पेज)

-लंग -लंग भाषा : पाठ की भाषा; टेस्सेरैक्ट का विकल्प (डिफ़ॉल्ट: eng) उदाहरण: eng,
देउ, देउ-फ्रैक, फ्रा, रस, स्वे, स्पा, आईटीए, ... विकल्प देखें -सूची_लैंग्स; विभिन्न
भाषाओं को प्लस वर्णों द्वारा अलग करके निर्दिष्ट किया जा सकता है।

-बेलआउट
-बेलआउट { एकल | डबल | कोई नहीं } : स्कैन किए गए पृष्ठों का लेआउट; कागज रहित करने की आवश्यकता है
सिंगल: एक पेज प्रति शीट डबल: दो पेज प्रति शीट कोई नहीं: कोई ऑटो-लेआउट नहीं
(डिफ़ॉल्ट)

-सूची_लैंग्स
वर्तमान में उपलब्ध भाषाओं की सूची बनाएं और बाहर निकलें; के कस्टम बायनेरिज़ के मामले में
टेसेरैक्ट, इसे इसके बाद रखें -टेसरैक्ट विकल्प

-मैक्सपिक्सेल
-मैक्सपिक्सेल NUM : इनपुट फ़ाइल के लिए अनुमत पिक्सेल की अधिकतम संख्या
(रिज़ॉल्यूशन/72)^2 *चौड़ाई*ऊंचाई > अधिकतमपिक्सेल फिर इनपुट फ़ाइल के पेज को नीचे स्केल करें
OCR से पहले ताकि पिक्सेल में पृष्ठ का आकार अधिकतम पिक्सेल से मेल खाए; गलती करना:
17415167 (ए3@300 डीपीआई)

-चित्र उपलब्द नहीं है
छवि को पाठ के ऊपर न रखें (hocr2pdf की आवश्यकता है; इसके बिना अनदेखा किया गया)।
-enforcehocr2pdf विकल्प)

-nopreproc
अनपेपर के साथ प्रीप्रोसेस न करें

-एनथ्रेड्स
-एनथ्रेड्स संख्या: समानांतर थ्रेड्स की संख्या (डिफ़ॉल्ट: सीपीयू की अनुमानित संख्या; यदि
अनुमान लगाना विफल: 1)

-o -o फ़ाइल नाम: आउटपुट फ़ाइल; डिफ़ॉल्ट: इनपुटफ़ाइल_ocr.pdf (यदि एक्सटेंशन भिन्न है
.pdf से, मूल एक्सटेंशन रखा गया है)

-पृष्ठ आकार
-पृष्ठ आकार { मूल | NUMxNUM }: आउटपुट पीडीएफ मूल का पृष्ठ आकार सेट करें: समान
इनपुट फ़ाइल (डिफ़ॉल्ट) NUMxNUM: पिक्सेल में चौड़ाई x ऊंचाई (उदाहरण के लिए A4 के लिए: -पृष्ठ आकार
595x842)

-संकल्प
-संकल्प NUM : OCR के लिए उपयोग किया जाने वाला रिज़ॉल्यूशन (dpi) (डिफ़ॉल्ट: 300)

-आरजीबी छवियों के लिए RGB रंग स्थान का उपयोग करें (डिफ़ॉल्ट: काला और सफेद); सावधानी से उपयोग करें: कारण
कुछ रंग स्थानों के साथ समस्याएँ

-मैला_पाठ
पाठ को टेढ़े-मेढ़े तरीके से रखें, शब्दों का समूह बनाएं, एकल ग्लिफ़ न बनाएं; टेसेरेक्ट के लिए नजरअंदाज कर दिया गया
>=3.03 जब तक विकल्प न हो -enforcehocr2pdf सेट है

-टेसरैक्ट
-टेसरैक्ट फ़ाइल नाम: टेसेरैक्ट बाइनरी का नाम (डिफ़ॉल्ट: टेसेरैक्ट)

-टेसो -टेसो विकल्पों : अतिरिक्त टेसेरैक्ट विकल्पों; उद्धरण देना सुनिश्चित करें

-कागज खोलना
-कागज खोलना फ़ाइल नाम: अनपेपर बाइनरी का नाम (डिफ़ॉल्ट: अनपेपर)

-अनपो -अनपो विकल्पों : अतिरिक्त अनपेपर विकल्पों; उद्धरण देना सुनिश्चित करें

-शांत आउटपुट दबाएं

-कहना
अधिक उत्पादन करें

-संस्करण
संस्करण प्रिंट करें और छोड़ें

-मदद की यह सूची प्रदर्शित करें विकल्पों

--मदद की यह सूची प्रदर्शित करें विकल्पों

भाषाओं


टेसेरैक्ट के माध्यम से, कई भाषा पैकेज उपलब्ध हैं - इस लिंक का अनुसरण करें
http://code.google.com/p/tesseract-ocr/downloads/list पूरी सूची के लिए. यहाँ एक है
समर्थित भाषाओं और उनके संक्षिप्ताक्षरों का अधूरा चयन:

आरा (अरबी), अज़े (अज़रबौइजानी), बुल (बल्गेरियाई), बिल्ली (कैटलन), सेस (चेक), ची_सिम
(सरलीकृत चीनी), चि_ट्रा (पारंपरिक चीनी), सीएचआर (चेरोकी), डैन (डेनिश), डैन-
फ़्रैक (डेनिश (फ्रैक्टूर)), देउ (जर्मन), एलएल (ग्रीक), इंग्लैंड (अंग्रेजी), एनम (पुरानी अंग्रेज़ी), ईपीओ
(एस्पेरान्तो), स्था (एस्टोनियाई), फिन (फिनिश), फ्रा (फ्रेंच), एफआरएम (पुरानी फ्रेंच), जीएलजी
(गैलिशियन), हेब (हिब्रू), हिन (हिंदी), एचआरवी (क्रोएशन), हुन (हंगेरियन), इंड (इंडोनेशियाई),
आईटीए (इतालवी), जेपीएन (जापानी), कोर (कोरियाई), लव (लातवियाई), लिट (लिथुआनियाई), एनएलडी (डच),
न ही (नार्वेजियन), पोल (पोलिश), पोर (पुर्तगाली), रॉन (रोमानियाई), रस (रूसी), एसएलके
(स्लोवाकियाई), एसएलवी (स्लोवेनियाई), एसक्यूआई (अल्बानियाई), स्पा (स्पेनिश), एसआरपी (सर्बियाई), स्वे (स्वीडिश),
टैम (तमिल), टेल (तेलुगु), टीजीएल (तागालोग), था (थाई), तूर (तुर्की), यूकेआर (यूक्रेनी), वी
(वियतनाम)

एकाधिक भाषाओं को प्लस वर्णों द्वारा अलग करके निर्दिष्ट किया जा सकता है। ध्यान दें कि
प्रयोग करने योग्य होने के लिए संबंधित टेसेरैक्ट भाषा पैकेज को आपके सिस्टम पर स्थापित करने की आवश्यकता है
पीडीएफसैंडविच. विकल्प -सूची_लैंग्स उन भाषाओं को सूचीबद्ध करता है जो आपके सिस्टम पर उपलब्ध हैं।

उपलब्धता


स्रोत और पैकेज के साथ-साथ व्यापक सहायता यहां पाई जा सकती है http://www.tobias-
elze.de/पीडीएफसैंडविच.

onworks.net सेवाओं का उपयोग करके ऑनलाइन पीडीएफसैंडविच का उपयोग करें



नवीनतम Linux और Windows ऑनलाइन प्रोग्राम