Ubuntu Online, Fedora Online, Windows online emulator അല്ലെങ്കിൽ MAC OS ഓൺലൈൻ എമുലേറ്റർ എന്നിങ്ങനെയുള്ള ഞങ്ങളുടെ ഒന്നിലധികം സൗജന്യ ഓൺലൈൻ വർക്ക്സ്റ്റേഷനുകളിലൊന്ന് ഉപയോഗിച്ച് OnWorks സൗജന്യ ഹോസ്റ്റിംഗ് ദാതാവിൽ പ്രവർത്തിപ്പിക്കാവുന്ന കമാൻഡ് ടെസറാക്ടാണിത്.
പട്ടിക:
NAME
tesseract - കമാൻഡ്-ലൈൻ OCR എഞ്ചിൻ
സിനോപ്സിസ്
ടെസ്സറാക്റ്റ് ചിത്രത്തിന്റെ പേര്|stdin ഔട്ട്പുട്ട്ബേസ്|stdout [ഓപ്ഷനുകൾ...] [കോൺഫിഗർ ഫയൽ...]
വിവരണം
ടെസ്സറാക്റ്റ്(1) 1985-ൽ എച്ച്പിയിൽ വികസിപ്പിച്ച വാണിജ്യ നിലവാരമുള്ള OCR എഞ്ചിനാണ്
കൂടാതെ 1995. 1995-ൽ, ഈ എഞ്ചിൻ UNLV വിലയിരുത്തിയ ഏറ്റവും മികച്ച 3-ൽ ഇടംപിടിച്ചു. അത് ഓപ്പൺ സോഴ്സ് ആയിരുന്നു
2005-ൽ HP-യും UNLV-യും ചേർന്ന്, അതിനുശേഷം Google-ൽ വികസിപ്പിച്ചെടുത്തു.
IN / U ട്ട് വാദങ്ങൾ
ചിത്രത്തിന്റെ പേര്
ഇൻപുട്ട് ചിത്രത്തിന്റെ പേര്. മിക്ക ഇമേജ് ഫയൽ ഫോർമാറ്റുകളും (ലെപ്ടോണിക്കയ്ക്ക് വായിക്കാവുന്ന എന്തും)
പിന്തുണയ്ക്കുന്നു.
stdin
സ്റ്റാൻഡേർഡ് ഇൻപുട്ടിൽ നിന്ന് ഡാറ്റ വായിക്കാനുള്ള നിർദ്ദേശം
ഔട്ട്പുട്ട്ബേസ്
ഔട്ട്പുട്ട് ഫയലിന്റെ അടിസ്ഥാനനാമം (അതിലേക്ക് ഉചിതമായ വിപുലീകരണം ചേർക്കും).
ഡിഫോൾട്ടായി ഔട്ട്പുട്ടിന് പേരിടും outbase.txt.
stdout
സ്റ്റാൻഡേർഡ് ഔട്ട്പുട്ടിലേക്ക് ഔട്ട്പുട്ട് ഡാറ്റ അയയ്ക്കുന്നതിനുള്ള നിർദ്ദേശം
ഓപ്ഷനുകൾ
--tessdata-dir /പാത
ടെസ്ഡാറ്റ പാതയുടെ സ്ഥാനം വ്യക്തമാക്കുക
--ഉപയോക്തൃ വാക്കുകൾ /path/to/file
ഉപയോക്തൃ വാക്കുകൾ ഫയലിന്റെ സ്ഥാനം വ്യക്തമാക്കുക
--ഉപയോക്തൃ-പാറ്റേണുകൾ /path/to/file വ്യക്തമാക്കുക
ഉപയോക്തൃ പാറ്റേൺ ഫയലിന്റെ സ്ഥാനം
-c configvar=മൂല്യം
നിയന്ത്രണ പാരാമീറ്ററിനായി മൂല്യം സജ്ജമാക്കുക. ഒന്നിലധികം -സി ആർഗ്യുമെന്റുകൾ അനുവദനീയമാണ്.
-l lang
ഉപയോഗിക്കേണ്ട ഭാഷ. ഒന്നും വ്യക്തമാക്കിയിട്ടില്ലെങ്കിൽ, ഇംഗ്ലീഷ് അനുമാനിക്കപ്പെടുന്നു. ഒന്നിലധികം ഭാഷകൾ ആകാം
വ്യക്തമാക്കുക, പ്ലസ് പ്രതീകങ്ങൾ കൊണ്ട് വേർതിരിക്കുക. Tesseract 3-കക്ഷര ISO 639-2 ഉപയോഗിക്കുന്നു
ഭാഷാ കോഡുകൾ. (ഭാഷകൾ കാണുക)
-psm N
ലേഔട്ട് വിശകലനത്തിന്റെ ഒരു ഉപവിഭാഗം മാത്രം പ്രവർത്തിപ്പിക്കാനും അതിന്റെ ഒരു പ്രത്യേക രൂപം അനുമാനിക്കാനും Tesseract സജ്ജമാക്കുക
ചിത്രം. എന്നതിനായുള്ള ഓപ്ഷനുകൾ N ആകുന്നു:
0 = ഓറിയന്റേഷനും സ്ക്രിപ്റ്റ് ഡിറ്റക്ഷനും (OSD) മാത്രം.
1 = OSD ഉള്ള ഓട്ടോമാറ്റിക് പേജ് സെഗ്മെന്റേഷൻ.
2 = ഓട്ടോമാറ്റിക് പേജ് സെഗ്മെന്റേഷൻ, എന്നാൽ OSD അല്ലെങ്കിൽ OCR ഇല്ല.
3 = പൂർണ്ണമായും ഓട്ടോമാറ്റിക് പേജ് സെഗ്മെന്റേഷൻ, എന്നാൽ OSD ഇല്ല. (സ്ഥിരസ്ഥിതി)
4 = വേരിയബിൾ വലുപ്പത്തിലുള്ള വാചകത്തിന്റെ ഒരു കോളം അനുമാനിക്കുക.
5 = ലംബമായി വിന്യസിച്ചിരിക്കുന്ന വാചകത്തിന്റെ ഒരു ഏകീകൃത ബ്ലോക്ക് അനുമാനിക്കുക.
6 = ടെക്സ്റ്റിന്റെ ഒരു ഏകീകൃത ബ്ലോക്ക് അനുമാനിക്കുക.
7 = ചിത്രം ഒരൊറ്റ ടെക്സ്റ്റ് ലൈനായി പരിഗണിക്കുക.
8 = ചിത്രത്തെ ഒരൊറ്റ വാക്കായി പരിഗണിക്കുക.
9 = ചിത്രം ഒരു വൃത്തത്തിൽ ഒരൊറ്റ വാക്കായി പരിഗണിക്കുക.
10 = ചിത്രം ഒരൊറ്റ പ്രതീകമായി പരിഗണിക്കുക.
കോൺഫിഗറേഷൻ
ഉപയോഗിക്കേണ്ട കോൺഫിഗറിൻറെ പേര്. കോൺഫിഗറേഷൻ എന്നത് ഒരു പ്ലെയിൻ ടെക്സ്റ്റ് ഫയലാണ്, അതിൽ ഒരു ലിസ്റ്റ് അടങ്ങിയിരിക്കുന്നു
വേരിയബിളുകളും അവയുടെ മൂല്യങ്ങളും, ഓരോ വരിയിലും ഒന്ന്, വേരിയബിളിനെ മൂല്യത്തിൽ നിന്ന് വേർതിരിക്കുന്ന ഒരു ഇടം.
രസകരമായ കോൺഫിഗറേഷൻ ഫയലുകളിൽ ഇവ ഉൾപ്പെടുന്നു:
· hocr - ഒരു ടെക്സ്റ്റ് ഫയലിന് പകരം hOCR ഫോർമാറ്റിൽ ഔട്ട്പുട്ട്.
· pdf - ഒരു ടെക്സ്റ്റ് ഫയലിന് പകരം pdf-ൽ ഔട്ട്പുട്ട്.
കുറിപ്പ് ബെനെ: ഓപ്ഷനുകൾ -l lang ഒപ്പം -psm N എല്ലാത്തിനുമുമ്പ് സംഭവിക്കണം കോൺഫിഗറേഷൻ.
സിംഗിൾ ഓപ്ഷനുകൾ
-v
യുടെ നിലവിലെ പതിപ്പ് നൽകുന്നു ടെസ്സറാക്റ്റ്(1) എക്സിക്യൂട്ടബിൾ.
--ലിസ്റ്റ്-ലാങ്സ്
ടെസറാക്റ്റ് എഞ്ചിനുള്ള ലഭ്യമായ ഭാഷകൾ ലിസ്റ്റ് ചെയ്യുക. --tessdata-dir ഉപയോഗിച്ച് ഉപയോഗിക്കാം.
--പ്രിന്റ് പാരാമീറ്ററുകൾ
stdout-ലേക്ക് tesseract പാരാമീറ്ററുകൾ പ്രിന്റ് ചെയ്യുക.
ഭാഷകൾ
ഇനിപ്പറയുന്ന ഭാഷകൾക്കായി നിലവിൽ ഭാഷാ പായ്ക്കുകൾ ലഭ്യമാണ് (ഇൻ
https://github.com/tesseract-ocr/tessdata):
അഫ്ര് (ആഫ്രിക്കൻസ്) ആംഹ് (അംഹാരിക്) അരാ (അറബിക്) ആസ്ത്മ (ആസാമീസ്) വിസ്മയിപ്പിക്കുക (അസർബൈജാനി) aze_cyrl
(അസർബൈജാനി - സിറിലിക്) ബെൽ (ബെലാറഷ്യൻ) ബെൻ (ബംഗാളി) ബോഡ് (ടിബറ്റൻ) ബോസ് (ബോസ്നിയൻ) ബുൾ
(ബൾഗേറിയൻ) പൂച്ച (കറ്റാലൻ; വലൻസിയൻ) CEB (സെബുവാനോ) ces (ചെക്ക്) ചി_സിം (ചൈനീസ് -
ലളിതമാക്കിയത്) ചി_ത്ര (ചൈനീസ് പാരമ്പര്യമായ) ബി.സി (ചെറോക്കി) സിം (വെൽഷ്) ദാൻ (ഡാനിഷ്)
dan_frak (ഡാനിഷ് - ഫ്രാക്ടൂർ) എൻജിനീയർ (ജർമ്മൻ) deu_frak (ജർമ്മൻ - ഫ്രാക്ടൂർ) dzo (സോങ്ക) ell
(ഗ്രീക്ക്, മോഡേൺ (1453-)) എഞ്ചിൻ (ഇംഗ്ലീഷ്) അമ്മ (ഇംഗ്ലീഷ്, മിഡിൽ (1100-1500)) എപ്പോ (എസ്പെരാന്റോ)
സമം (ഗണിതം / സമവാക്യം കണ്ടെത്തൽ മൊഡ്യൂൾ) EST (എസ്റ്റോണിയൻ) eus (ബാസ്ക്) മൊറോക്കോ (പേർഷ്യൻ) പതം
(ഫിന്നിഷ്) നിന്ന് (ഫ്രഞ്ച്) frk (ഫ്രാങ്കിഷ്) ഫ്രം (ഫ്രഞ്ച്, മിഡിൽ (ca.1400-1600)) ഗ്ലെ (ഐറിഷ്) തുല്യമായ
(ഗലീഷ്യൻ) grc (ഗ്രീക്ക്, പുരാതന (1453 വരെ)) ഗുജറാത്ത് (ഗുജറാത്തി) ഉണ്ട് (ഹെയ്തിയൻ; ഹെയ്തിയൻ ക്രിയോൾ) ഹെബ്
(ഹീബ്രു) H (ഹിന്ദി) മിസ്റ്റർ (ക്രൊയേഷ്യൻ) ഹൺ (ഹംഗേറിയൻ) iku (ഇനുക്റ്റിറ്റുട്ട്) IND (ഇന്തോനേഷ്യൻ) ദ്വീപ്
(ഐസ്ലാൻഡിക്) അത് (ഇറ്റാലിയൻ) ita_old (ഇറ്റാലിയൻ - പഴയത്) jav (ജാവാനീസ്) jpn (ജാപ്പനീസ്) കാൻ
(കന്നഡ) കാറ്റ് (ജോർജിയൻ) kat_old (ജോർജിയൻ - പഴയത്) kaz (കസാഖ്) khm (സെൻട്രൽ ഖെമർ) കിർ
(കിർഗിസ്; കിർഗിസ്) കോർ (കൊറിയൻ) കുർ (കുർദിഷ്) ലാവോ (ലാവോ) ലാറ്റിന (ലാറ്റിൻ) ലവ് (ലാത്വിയൻ) കിടക്ക
(ലിത്വാനിയൻ) Mal (മലയാളം) മാർ (മറാത്തി) mkd (മാസിഡോണിയൻ) മില്ലി (മാൾട്ടീസ്) msa (മലയാളം) mya
(ബർമീസ്) Nep (നേപ്പാളി) nld (ഡച്ച്; ഫ്ലെമിഷ്) വേണ്ടാ (നോർവീജിയൻ) ഓറി (ഒറിയ) osd (ഓറിയന്റേഷൻ
കൂടാതെ സ്ക്രിപ്റ്റ് ഡിറ്റക്ഷൻ മൊഡ്യൂളും) പാൻ (പഞ്ചാബി; പഞ്ചാബി) പോൾ (പോളീഷ്) കൊണ്ട് (പോർച്ചുഗീസ്) പഴുപ്പ്
(പുഷ്തോ; പാഷ്തോ) ron (റൊമാനിയൻ; മോൾഡേവിയൻ; മോൾഡോവൻ) റൂസ് (റഷ്യൻ) San (സംസ്കൃതം) പാപം
(സിംഹള; സിംഹള) slk (സ്ലൊവാക്) slk_frak (സ്ലൊവാക് - ഫ്രാക്ടൂർ) slv (സ്ലൊവേനിയൻ) സ്പാ
(സ്പാനിഷ്; കാസ്റ്റിലിയൻ) സ്പാ_ഓൾഡ് (സ്പാനിഷ്; കാസ്റ്റിലിയൻ - പഴയത്) ചതുരശ്ര (അൽബേനിയൻ) എസ്.ആർ.പി (സെർബിയൻ)
srp_latn (സെർബിയൻ - ലാറ്റിൻ) സ്വാ (സ്വഹിലി) സ്വീ (സ്വീഡിഷ്) ചീസ് (സിറിയക്) താം (തമിഴ്) ടെൽ
(തെലുങ്ക്) tgk (താജിക്) ടിജിഎൽ (ടഗാലോഗ്) ത (തായ്) ടി (തിഗ്രിന്യ) ത്വൂർ (ടർക്കിഷ്) uig (ഉയ്ഗൂർ;
ഉയ്ഗൂർ) ukr (ഉക്രേനിയൻ) urd (ഉറുദു) uzb (ഉസ്ബെക്ക്) uzb_cyrl (ഉസ്ബെക്ക് - സിറിലിക്) ജീവന് (വിയറ്റ്നാമീസ്)
yid (യീദിഷ്)
പേരിട്ടിരിക്കുന്ന നിലവാരമില്ലാത്ത ഭാഷാ പായ്ക്ക് ഉപയോഗിക്കുന്നതിന് foo.traineddata, സജ്ജമാക്കുക TESSDATA_PREFIX
എൻവയോൺമെന്റ് വേരിയബിൾ ആയതിനാൽ ഫയൽ ഇവിടെ കണ്ടെത്താനാകും TESSDATA_PREFIX/tessdata/ഫൂ.പരിശീലിച്ച ഡാറ്റ
കൂടാതെ ടെസറാക്ട് വാദം നൽകുക -l ഫൂ.
കോൺഫിഗർ ചെയ്യുക ഫയലുകൾ ഒപ്പം വർദ്ധിപ്പിക്കൽ ഉപയോഗിച്ച് USER ഡാറ്റ
ടെസറാക്റ്റ് കോൺഫിഗറേഷൻ ഫയലുകളിൽ വേരിയബിൾ-വാല്യൂ ജോഡികളുള്ള വരികൾ അടങ്ങിയിരിക്കുന്നു (സ്പെയ്സ് വേർതിരിക്കുന്നത്). ദി
വേരിയബിളുകൾ സോഴ്സ് കോഡിലെ ഫ്ലാഗുകളായി ഡോക്യുമെന്റ് ചെയ്തിരിക്കുന്നത് ഇനിപ്പറയുന്നതു പോലെയാണ്
tesseractclass.h:
STRING_VAR_H(tessedit_char_blacklist, "", "തിരിച്ചറിയാൻ കഴിയാത്ത അക്ഷരങ്ങളുടെ ബ്ലാക്ക്ലിസ്റ്റ്");
ഈ വേരിയബിളുകൾ എഞ്ചിന്റെ വിവിധ സവിശേഷതകൾ പ്രാപ്തമാക്കുകയോ പ്രവർത്തനരഹിതമാക്കുകയോ ചെയ്തേക്കാം, അത് കാരണമായേക്കാം
വിവിധ ഡാറ്റ ലോഡ് ചെയ്യുക (അല്ലെങ്കിൽ ലോഡുചെയ്യരുത്). ഉദാഹരണത്തിന്, നിങ്ങൾ ഇംഗ്ലീഷിൽ OCR ചെയ്യണമെന്ന് കരുതുക.
എന്നാൽ സാധാരണ നിഘണ്ടു അമർത്തി ഒരു ഇതര പദ ലിസ്റ്റും ഒരു ബദലും ലോഡ് ചെയ്യുക
പാറ്റേണുകളുടെ പട്ടിക - ഈ രണ്ട് ഫയലുകളും സാധാരണയായി ഉപയോഗിക്കുന്ന അധിക ഡാറ്റ ഫയലുകളാണ്.
നിങ്ങളുടെ ഭാഷാ പായ്ക്ക് /path/to/eng.traineddata-ലും hocr കോൺഫിഗറേഷനും ആണെങ്കിൽ
/path/to/configs/hocr തുടർന്ന് മൂന്ന് പുതിയ ഫയലുകൾ സൃഷ്ടിക്കുക:
/path/to/eng.user-words:
The
പെട്ടെന്ന്
തവിട്ടുനിറമുള്ള
കുറുക്കൻ
ചാടി
/path/to/eng.user-patterns:
1-\d\d\d-GOOG-411
www.\n\\\*.com
/path/to/configs/bazaar:
load_system_dawg F
load_freq_dawg F
user_words_suffix ഉപയോക്തൃപദങ്ങൾ
user_patterns_suffix ഉപയോക്തൃ-പാറ്റേണുകൾ
ഇപ്പോൾ, നിങ്ങൾ വാക്ക് പാസ്സാക്കിയാൽ ബസാർ Tesseract-ലേക്കുള്ള ഒരു കമാൻഡ് ലൈൻ പാരാമീറ്ററായി,
ടെസറാക്റ്റ് സിസ്റ്റം നിഘണ്ടു അല്ലെങ്കിൽ പതിവ് നിഘണ്ടു ലോഡ് ചെയ്യുന്നതിൽ ബുദ്ധിമുട്ടില്ല
വാക്കുകൾ നിങ്ങൾ നൽകിയ eng.user-words, eng.user-patterns ഫയലുകൾ ലോഡ് ചെയ്യുകയും ഉപയോഗിക്കുകയും ചെയ്യും.
ആദ്യത്തേത് ഒരു വരിയിൽ ഒന്ന് എന്ന ലളിതമായ വാക്കുകളുടെ പട്ടികയാണ്. രണ്ടാമത്തേതിന്റെ ഫോർമാറ്റ് രേഖപ്പെടുത്തിയിട്ടുണ്ട്
read_pattern_list() ൽ dict/trie.h
ചരിത്രം
ഹ്യൂലറ്റ് പാക്കാർഡ് ലബോറട്ടറീസ് ബ്രിസ്റ്റോളിലും ഹ്യൂലറ്റ് പാക്കാർഡിലും എഞ്ചിൻ വികസിപ്പിച്ചെടുത്തു.
Co, Greeley Colorado 1985 നും 1994 നും ഇടയിൽ, 1996-ൽ പോർട്ടിലേക്ക് ചില മാറ്റങ്ങൾ വരുത്തി
വിൻഡോസ്, കൂടാതെ 1998-ൽ ചില സി++ഐസിംഗ്. ധാരാളം കോഡുകൾ സിയിൽ എഴുതിയിട്ടുണ്ട്, പിന്നെ ചിലത്
C++ ൽ എഴുതിയിരുന്നു. C\++ കോഡ് മാക്രോകൾ ഉപയോഗിക്കുന്ന ഒരു ലിസ്റ്റ് സിസ്റ്റത്തെ വളരെയധികം ഉപയോഗിക്കുന്നു. ഈ
stl-ന് മുമ്പുള്ളതാണ്, stl-ന് മുമ്പ് പോർട്ടബിൾ ആയിരുന്നു, കൂടാതെ stl ലിസ്റ്റുകളേക്കാൾ കൂടുതൽ കാര്യക്ഷമമാണ്, പക്ഷേ ഉണ്ട്
നിങ്ങൾക്ക് ഒരു സെഗ്മെന്റേഷൻ ലംഘനം ഉണ്ടായാൽ, അത് ഡീബഗ് ചെയ്യാൻ പ്രയാസമാണ്.
പതിപ്പ് 2.00 യൂണികോഡ് (UTF-8) പിന്തുണയും ആറ് ഭാഷകളും പരിശീലനത്തിനുള്ള കഴിവും കൊണ്ടുവന്നു
ടെസറാക്റ്റ്.
UNLV യുടെ OCR കൃത്യതയുടെ നാലാം വാർഷിക ടെസ്റ്റിൽ ടെസറാക്ട് ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. കാണുക
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. ടെസറാക്ടിനൊപ്പം 2.00,
ഈ ടെസ്റ്റുകളിൽ ചിലത് പുനർനിർമ്മിക്കാൻ ആരെയും അനുവദിക്കുന്നതിനായി സ്ക്രിപ്റ്റുകൾ ഇപ്പോൾ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. കാണുക
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract കൂടുതൽ വിവരങ്ങൾക്ക്.
Tesseract 3.00 ചൈനീസ്, ജാപ്പനീസ്, കൊറിയൻ എന്നിവയുൾപ്പെടെ നിരവധി പുതിയ ഭാഷകൾ ചേർക്കുന്നു. അത്
ഭാഷാ ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിനുള്ള ഒരു പുതിയ, ഒറ്റ-ഫയൽ അധിഷ്ഠിത സംവിധാനവും അവതരിപ്പിക്കുന്നു.
Tesseract 3.02 BiDirectional text support, ഒന്നിലധികം തിരിച്ചറിയാനുള്ള കഴിവ് ചേർക്കുന്നു
ഒരൊറ്റ ചിത്രത്തിലെ ഭാഷകളും മെച്ചപ്പെടുത്തിയ ലേഔട്ട് വിശകലനവും.
കൂടുതൽ വിവരങ്ങൾക്ക്, വിതരണത്തോടൊപ്പം ഉൾപ്പെടുത്തിയിരിക്കുന്ന റിലീസ് നോട്ടുകൾ എന്ന ഫയൽ കാണുക.
റിസോർസുകൾ
പ്രധാന വെബ് സൈറ്റ്: https://github.com/tesseract-ocr പരിശീലനത്തെക്കുറിച്ചുള്ള വിവരങ്ങൾ:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
onworks.net സേവനങ്ങൾ ഉപയോഗിച്ച് tesseract ഓൺലൈനായി ഉപയോഗിക്കുക