Ubuntu Online, Fedora Online, Windows online emulator അല്ലെങ്കിൽ MAC OS ഓൺലൈൻ എമുലേറ്റർ എന്നിങ്ങനെയുള്ള ഞങ്ങളുടെ ഒന്നിലധികം സൗജന്യ ഓൺലൈൻ വർക്ക്സ്റ്റേഷനുകളിലൊന്ന് ഉപയോഗിച്ച് OnWorks സൗജന്യ ഹോസ്റ്റിംഗ് ദാതാവിൽ പ്രവർത്തിപ്പിക്കാവുന്ന combine_tessdata കമാൻഡ് ആണിത്.
പട്ടിക:
NAME
combine_tessdata - Tesseract ഡാറ്റ സംയോജിപ്പിക്കുക/എക്സ്ട്രാക്റ്റ് ചെയ്യുക/ഓവർറൈറ്റ് ചെയ്യുക
സിനോപ്സിസ്
combine_tessdata [ഓപ്ഷൻ] FILE...
വിവരണം
combine_tessdata(1) ടെസ്ഡാറ്റ ഘടകങ്ങളെ സംയോജിപ്പിക്കുന്നതിനുള്ള/എക്സ്ട്രാക്റ്റ്/ഓവർറൈറ്റ് ചെയ്യുന്നതിനുള്ള പ്രധാന പ്രോഗ്രാമാണ്
[lang].traineddata ഫയലുകളിൽ.
എല്ലാ വ്യക്തിഗത tessdata ഘടകങ്ങളും സംയോജിപ്പിക്കുന്നതിന് (unicharset, DAWGs, classifier
ടെംപ്ലേറ്റുകൾ, അവ്യക്തതകൾ, ഭാഷാ കോൺഫിഗറേഷനുകൾ) സ്ഥിതി ചെയ്യുന്നത്, പറയുക, / വീട് /$USER/temp/eng.* റൺ:
combine_tessdata / വീട് /$USER/temp/eng.
ഒരു സംയോജിത tessdata ഫയൽ ആയിരിക്കും ഫലം / വീട് /$USER/temp/eng.traineddata
ഒരു സംയുക്തത്തിൽ നിന്ന് വ്യക്തിഗത ഘടകങ്ങൾ എക്സ്ട്രാക്റ്റുചെയ്യാൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നുവെങ്കിൽ -e ഓപ്ഷൻ വ്യക്തമാക്കുക
ട്രെയിനെഡ്ഡാറ്റ ഫയൽ. ഉദാഹരണത്തിന്, ഭാഷാ കോൺഫിഗറേഷൻ ഫയലും യൂണിചാർസെറ്റും എക്സ്ട്രാക്റ്റുചെയ്യുന്നതിന്
tessdata/eng.traineddata റൺ:
combine_tessdata -e tessdata/eng.traineddata \
/ വീട് /$USER/temp/eng.config / വീട് /$USER/temp/eng.unicharset
ആവശ്യമുള്ള കോൺഫിഗറേഷൻ ഫയലും യൂണിചാർസെറ്റും എഴുതപ്പെടും / വീട് /$USER/temp/eng.config
/ വീട് /$USER/temp/eng.unicharset
നൽകിയിരിക്കുന്ന [lang].traineddata ഫയലിന്റെ വ്യക്തിഗത ഘടകങ്ങൾ പുനരാലേഖനം ചെയ്യാൻ -o ഓപ്ഷൻ വ്യക്തമാക്കുക.
ഉദാഹരണത്തിന്, ഭാഷാ കോൺഫിഗറേഷനും യൂണിചാർ അവ്യക്തത ഫയലുകളും തിരുത്തിയെഴുതാൻ
tessdata/eng.traineddata ഉപയോഗം:
combine_tessdata -o tessdata/eng.traineddata \
/ വീട് /$USER/temp/eng.config / വീട് /$USER/temp/eng.unicharambigs
തൽഫലമായി, tessdata/eng.traineddata യിൽ പുതിയ ഭാഷാ കോൺഫിഗറും യൂണിചാറും അടങ്ങിയിരിക്കും.
ambigs, കൂടാതെ എല്ലാ യഥാർത്ഥ DAWG-കളും ക്ലാസിഫയർ ടെംപ്ലേറ്റുകളും മുതലായവ.
ശ്രദ്ധിക്കുക: എക്സ്ട്രാക്റ്റുചെയ്യാനും അവയിൽ നിന്ന് പുനരാലേഖനം ചെയ്യാനുമുള്ള ഫയലുകളുടെ പേരുകൾ ഉണ്ടായിരിക്കണം
അവയുടെ tessdata ഘടക തരം സൂചിപ്പിക്കുന്ന ഉചിതമായ ഫയൽ സഫിക്സുകൾ (വിപുലീകരണങ്ങൾ).
(. unicharset for the unicharset, .unicharambigs for unichar ambigs, etc). k*FileSuffix കാണുക
ccutil/tessdatamanager.h-ൽ വേരിയബിൾ.
നിർദ്ദിഷ്ട പാതയിലേക്ക് എല്ലാ ഘടകങ്ങളും അൺപാക്ക് ചെയ്യുന്നതിന് -u ഓപ്ഷൻ വ്യക്തമാക്കുക:
combine_tessdata -u tessdata/eng.traineddata / വീട് /$USER/temp/eng.
ഇത് സൃഷ്ടിക്കും / വീട് /വ്യക്തിഗത ടെസ്ഡാറ്റ ഘടകങ്ങളുള്ള $USER/temp/eng.* ഫയലുകൾ
tessdata/eng.traineddata.
ഓപ്ഷനുകൾ
-e .പരിശീലിച്ച ഡാറ്റ FILE...: .traineddata ഫയലിൽ നിന്ന് നിർദ്ദിഷ്ട ഘടകങ്ങൾ എക്സ്ട്രാക്റ്റുചെയ്യുന്നു
-o .പരിശീലിച്ച ഡാറ്റ FILE...: .traineddata ഫയലിന്റെ നിർദ്ദിഷ്ട ഘടകങ്ങൾ പുനരാലേഖനം ചെയ്യുന്നു
കമാൻഡ് ലൈനിൽ നൽകിയിരിക്കുന്നവ.
-u .പരിശീലിച്ച ഡാറ്റ പാത്ത്പ്രിഫിക്സ് നൽകിയിരിക്കുന്ന പ്രിഫിക്സ് ഉപയോഗിച്ച് .traineddata അൺപാക്ക് ചെയ്യുന്നു.
മുന്നറിയിപ്പ്
പ്രിഫിക്സ് കാലയളവ് (.) ഉൾപ്പെടെയുള്ള മുഴുവൻ ഫയൽ പ്രിഫിക്സും സൂചിപ്പിക്കുന്നു.
ഘടകങ്ങൾ
Tesseract 3.02-ലെ ഒരു Tesseract lang.traineddata ഫയലിലെ ഘടകങ്ങൾ സംക്ഷിപ്തമാണ്
താഴെ വിവരിച്ചിരിക്കുന്നു; ഈ ഫയലുകളിൽ പലതിന്റെയും കൂടുതൽ വിവരങ്ങൾക്ക്, കാണുക
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(ഓപ്ഷണൽ) ഡിഫോൾട്ട് കോൺഫിഗറേഷൻ വേരിയബിളുകളിലേക്കുള്ള ഭാഷാ-നിർദ്ദിഷ്ട അസാധുവാക്കലുകൾ.
lang.unicharset
(ആവശ്യമാണ്) പ്രോപ്പർട്ടികൾക്കൊപ്പം ടെസറാക്റ്റ് തിരിച്ചറിയുന്ന ചിഹ്നങ്ങളുടെ ലിസ്റ്റ്. കാണുക
ഏകാഗ്രഗണം(5).
lang.unicharambigs
(ഓപ്ഷണൽ) ഈ ഫയലിൽ അംഗീകൃത ചിഹ്നങ്ങളുടെ ജോഡി വിവരങ്ങൾ അടങ്ങിയിരിക്കുന്നു
പലപ്പോഴും ആശയക്കുഴപ്പത്തിലാകുന്നു. ഉദാഹരണത്തിന്, rn ഒപ്പം m.
lang.inttemp
(ആവശ്യമാണ്) ഓരോ യൂണിച്ചാറിനും പ്രതീക രൂപ ടെംപ്ലേറ്റുകൾ. നിര്മ്മിച്ചത് mfttraining(1).
lang.pffmtable
(ആവശ്യമാണ്) ഓരോ യൂണിച്ചാറിനും പ്രതീക്ഷിക്കുന്ന ഫീച്ചറുകളുടെ എണ്ണം. നിര്മ്മിച്ചത് mfttraining(1)
നിന്ന് .tr ഫയലുകൾ.
lang.normproto
(ആവശ്യമാണ്) പ്രതീക നോർമലൈസേഷൻ പ്രോട്ടോടൈപ്പുകൾ സൃഷ്ടിച്ചത് പരിശീലനം(1) നിന്ന് .tr
ഫയലുകൾ.
lang.punc-dawg
(ഓപ്ഷണൽ) വാക്കുകൾക്ക് ചുറ്റും കാണുന്ന വിരാമചിഹ്ന പാറ്റേണുകളിൽ നിന്ന് നിർമ്മിച്ച ഒരു ഡാഗ്. "വാക്ക്" ഭാഗം
ഒരൊറ്റ സ്പേസ് ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിക്കുന്നു.
lang.word-dawg
(ഓപ്ഷണൽ) ഭാഷയിൽ നിന്നുള്ള നിഘണ്ടു പദങ്ങളിൽ നിന്ന് നിർമ്മിച്ച ഒരു ഡാഗ്.
lang.number-dawg
(ഓപ്ഷണൽ) യഥാർത്ഥത്തിൽ അക്കങ്ങൾ അടങ്ങിയ ടോക്കണുകളിൽ നിന്ന് നിർമ്മിച്ച ഒരു ഡാഗ്. ഓരോ അക്കവും
ഒരു സ്പേസ് പ്രതീകം ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിച്ചു.
lang.freq-dawg
(ഓപ്ഷണൽ) ഇടയ്ക്കിടെയുള്ള വാക്കുകളിൽ നിന്ന് ഉണ്ടാക്കിയ ഒരു ഡാഗ്
വാക്ക്-ഡാഗ്.
lang.fixed-length-dawgs
(ഓപ്ഷണൽ) വ്യത്യസ്ത നിശ്ചിത ദൈർഘ്യമുള്ള നിരവധി ഡോഗുകൾ - പോലുള്ള ഭാഷകൾക്ക് ഉപയോഗപ്രദമാണ്
ചൈനീസ്.
lang.cube-unicharset
(ഓപ്ഷണൽ) ക്യൂബിന് ഒരു യൂണിചാർസെറ്റ്, മറ്റൊരു കൂട്ടം ചിഹ്നങ്ങളിൽ ക്യൂബ് പരിശീലിപ്പിച്ചിട്ടുണ്ടെങ്കിൽ.
lang.cube-word-dawg
(ഓപ്ഷണൽ) ക്യൂബിന്റെ ഇതര യൂണിചാർസെറ്റിനുള്ള ഒരു വാക്ക് dawg. ക്യൂബ് പരിശീലിപ്പിച്ചിരുന്നെങ്കിൽ ആവശ്യമില്ല
ടെസറാക്ടിന്റെ യൂണിചാർസെറ്റിനൊപ്പം.
lang.shapetable
(ഓപ്ഷണൽ) ഉള്ളപ്പോൾ, ഒരു ഷേപ്പ്ടേബിൾ എന്നത് പ്രതീകത്തിന് ഇടയിലുള്ള ഒരു അധിക പാളിയാണ്
ക്ലാസിഫയറും എ റിട്ടേൺ ചെയ്യാൻ ക്യാരക്ടർ ക്ലാസിഫയറിനെ അനുവദിക്കുന്ന വേഡ് റെക്കഗനറും
ഒരൊറ്റ യൂണിചാർ ഐഡിക്കും ഫോണ്ടിനും പകരം യൂണിചാർ ഐഡികളുടെയും ഫോണ്ടുകളുടെയും ശേഖരം.
lang.bigram-dawg
(ഓപ്ഷണൽ) വാക്ക് ബിഗ്രാമുകളുടെ ഒരു ഡോഗ്, അവിടെ പദങ്ങളെ ഓരോ സ്ഥലവും ഓരോന്നും കൊണ്ട് വേർതിരിക്കുന്നു
അക്കത്തിന് പകരം എ ?.
lang.unambig-dawg
(ഓപ്ഷണൽ) TODO: വിവരിക്കുക.
lang.params-training-model
(ഓപ്ഷണൽ) TODO: വിവരിക്കുക.
ചരിത്രം
combine_tessdata(1) ആദ്യം പ്രത്യക്ഷപ്പെട്ടത് ടെസറാക്ടിന്റെ 3.00 പതിപ്പിലാണ്
onworks.net സേവനങ്ങൾ ഉപയോഗിച്ച് combine_tessdata ഓൺലൈനായി ഉപയോഗിക്കുക