Dit is de opdracht combine_tessdata die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
combine_tessdata - combineer/extraheer/overschrijf Tesseract-gegevens
KORTE INHOUD
combine_tessdata [OPTIE] FILE...
PRODUCTBESCHRIJVING
combine_tessdata(1) is het hoofdprogramma voor het combineren/extraheren/overschrijven van tessdata-componenten
in [lang].traineddata-bestanden.
Om alle afzonderlijke tessdata-componenten (unicharset, DAWG's, classifier
sjablonen, onduidelijkheden, taalconfiguraties) die zich bijvoorbeeld op /huis/$USER/temp/eng.* uitvoeren:
combine_tessdata /huis/$USER/temp/eng.
Het resultaat is een gecombineerd tessdata-bestand /huis/$USER/temp/eng.traineddata
Geef optie -e op als u afzonderlijke componenten uit een gecombineerd bestand wilt extraheren
getrainddata-bestand. Om bijvoorbeeld het taalconfiguratiebestand en de unicharset uit te extraheren
tessdata/eng.traineddata uitvoeren:
combine_tessdata -e tessdata/eng.traineddata \
/huis/$USER/temp/eng.config /huis/$USER/temp/eng.unicharset
Er wordt naar het gewenste configuratiebestand en de unicharset geschreven /huis/$USER/temp/eng.config
/huis/$USER/temp/eng.unicharset
Geef optie -o op om individuele componenten van het gegeven [lang].traineddata-bestand te overschrijven.
Als u bijvoorbeeld taalconfiguratie- en unichar-ambiguïteitenbestanden wilt overschrijven in
tessdata/eng.traineddata gebruik:
combine_tessdata -o tessdata/eng.traineddata \
/huis/$USER/temp/eng.config /huis/$USER/temp/eng.unicharambigs
Als gevolg hiervan zal tessdata/eng.traineddata de nieuwe taalconfiguratie en unichar bevatten
ambigs, plus alle originele DAWG's, classificatiesjablonen, enz.
Opmerking: de bestandsnamen van de bestanden die moeten worden uitgepakt en waaruit moet worden overschreven, moeten de extensie
de juiste bestandsachtervoegsels (extensies) die hun tessdata-componenttype aangeven
(.unicharset voor de unicharset, .unicharambigs voor unichar ambigs, enz.). Zie k*Bestandsuffix
variabele in ccutil/tessdatamanager.h.
Geef optie -u op om alle componenten uit te pakken naar het opgegeven pad:
combine_tessdata -u tessdata/eng.traineddata /huis/$USER/temp/eng.
Dit zal creëren /huis/$USER/temp/eng.* bestanden met individuele tessdata-componenten uit
tessdata/eng.traineddata.
OPTIES
-e .getrainde gegevens FILE...: Extraheert de opgegeven componenten uit het .traineddata-bestand
-o .getrainde gegevens FILE...: overschrijft de opgegeven componenten van het .traineddata-bestand met
die op de opdrachtregel staan.
-u .getrainde gegevens PATHPREFIX Pakt de .traineddata uit met het opgegeven voorvoegsel.
WAARSCHUWINGEN
Voorvoegsel verwijst naar het volledige bestandsvoorvoegsel, inclusief punt (.)
ONDERDELEN
De componenten in een Tesseract lang.traineddata-bestand vanaf Tesseract 3.02 worden kort beschreven
hieronder beschreven; Voor meer informatie over veel van deze bestanden, zie
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(Optioneel) Taalspecifieke overschrijvingen op standaard configuratievariabelen.
taal.unicharset
(Vereist) De lijst met symbolen die Tesseract herkent, met eigenschappen. Zien
unicharset(5).
lang.unicharambigs
(Optioneel) Dit bestand bevat informatie over paren herkende symbolen die dat wel zijn
vaak verward. Bijvoorbeeld, rn en m.
lang.inttemp
(Vereist) Tekenvormsjablonen voor elke unichar. Gemaakt door mftraining(1).
lang.pffmtable
(Vereist) Het aantal verwachte functies voor elke unichar. Gemaakt door mftraining(1)
oppompen van .tr bestanden.
lang.normproto
(Vereist) Karakternormalisatieprototypes gegenereerd door trainen(1) vanaf .tr
bestanden.
lang.punc-dawg
(Optioneel) Een dawg gemaakt van interpunctiepatronen rond woorden. Het woordgedeelte
wordt vervangen door een enkele spatie.
lang.word-dawg
(Optioneel) Een dawg gemaakt van woordenboekwoorden uit de taal.
lang.nummer-dawg
(Optioneel) Een dawg gemaakt van tokens die oorspronkelijk cijfers bevatten. Elk cijfer is
vervangen door een spatie.
lang.freq-dawg
(Optioneel) Een dawg gemaakt van de meest voorkomende woorden die erin zouden zijn verwerkt
woord-dawg.
lang.vaste-lengte-dawgs
(Optioneel) Verschillende dawgs met verschillende vaste lengtes — handig voor talen zoals
Chinese.
lang.kubus-unicharset
(Optioneel) Een unicharset voor kubus, als kubus op een andere set symbolen is getraind.
lang.cube-woord-dawg
(Optioneel) Een woord dawg voor de alternatieve unicharset van de kubus. Niet nodig als Cube is getraind
met de unicharset van Tesseract.
lang.vormbaar
(Optioneel) Indien aanwezig is een shapetable een extra laag tussen het personage
classifier en de woordherkenner waarmee de karakterclassifier a kan retourneren
verzameling unichar-id's en lettertypen in plaats van een enkele unichar-id en lettertype.
lang.bigram-dawg
(Optioneel) Een reeks woord-bigrams waarbij de woorden worden gescheiden door een spatie en elk
cijfer wordt vervangen door een ?.
lang.ondubbelzinnig-dawg
(Optioneel) TODO: Beschrijf.
lang.params-trainingsmodel
(Optioneel) TODO: Beschrijf.
GESCHIEDENIS
combine_tessdata(1) verscheen voor het eerst in versie 3.00 van Tesseract
Gebruik combine_tessdata online met behulp van onworks.net-services