EngelsFransSpaans

Ad


OnWorks-favicon

combine_tessdata - Online in de cloud

Voer combine_tessdata uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht combine_tessdata die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


combine_tessdata - combineer/extraheer/overschrijf Tesseract-gegevens

KORTE INHOUD


combine_tessdata [OPTIE] FILE...

PRODUCTBESCHRIJVING


combine_tessdata(1) is het hoofdprogramma voor het combineren/extraheren/overschrijven van tessdata-componenten
in [lang].traineddata-bestanden.

Om alle afzonderlijke tessdata-componenten (unicharset, DAWG's, classifier
sjablonen, onduidelijkheden, taalconfiguraties) die zich bijvoorbeeld op /huis/$USER/temp/eng.* uitvoeren:

combine_tessdata /huis/$USER/temp/eng.

Het resultaat is een gecombineerd tessdata-bestand /huis/$USER/temp/eng.traineddata

Geef optie -e op als u afzonderlijke componenten uit een gecombineerd bestand wilt extraheren
getrainddata-bestand. Om bijvoorbeeld het taalconfiguratiebestand en de unicharset uit te extraheren
tessdata/eng.traineddata uitvoeren:

combine_tessdata -e tessdata/eng.traineddata \
/huis/$USER/temp/eng.config /huis/$USER/temp/eng.unicharset

Er wordt naar het gewenste configuratiebestand en de unicharset geschreven /huis/$USER/temp/eng.config
/huis/$USER/temp/eng.unicharset

Geef optie -o op om individuele componenten van het gegeven [lang].traineddata-bestand te overschrijven.
Als u bijvoorbeeld taalconfiguratie- en unichar-ambiguïteitenbestanden wilt overschrijven in
tessdata/eng.traineddata gebruik:

combine_tessdata -o tessdata/eng.traineddata \
/huis/$USER/temp/eng.config /huis/$USER/temp/eng.unicharambigs

Als gevolg hiervan zal tessdata/eng.traineddata de nieuwe taalconfiguratie en unichar bevatten
ambigs, plus alle originele DAWG's, classificatiesjablonen, enz.

Opmerking: de bestandsnamen van de bestanden die moeten worden uitgepakt en waaruit moet worden overschreven, moeten de extensie
de juiste bestandsachtervoegsels (extensies) die hun tessdata-componenttype aangeven
(.unicharset voor de unicharset, .unicharambigs voor unichar ambigs, enz.). Zie k*Bestandsuffix
variabele in ccutil/tessdatamanager.h.

Geef optie -u op om alle componenten uit te pakken naar het opgegeven pad:

combine_tessdata -u tessdata/eng.traineddata /huis/$USER/temp/eng.

Dit zal creëren /huis/$USER/temp/eng.* bestanden met individuele tessdata-componenten uit
tessdata/eng.traineddata.

OPTIES


-e .getrainde gegevens FILE...: Extraheert de opgegeven componenten uit het .traineddata-bestand

-o .getrainde gegevens FILE...: overschrijft de opgegeven componenten van het .traineddata-bestand met
die op de opdrachtregel staan.

-u .getrainde gegevens PATHPREFIX Pakt de .traineddata uit met het opgegeven voorvoegsel.

WAARSCHUWINGEN


Voorvoegsel verwijst naar het volledige bestandsvoorvoegsel, inclusief punt (.)

ONDERDELEN


De componenten in een Tesseract lang.traineddata-bestand vanaf Tesseract 3.02 worden kort beschreven
hieronder beschreven; Voor meer informatie over veel van deze bestanden, zie
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

lang.config
(Optioneel) Taalspecifieke overschrijvingen op standaard configuratievariabelen.

taal.unicharset
(Vereist) De lijst met symbolen die Tesseract herkent, met eigenschappen. Zien
unicharset(5).

lang.unicharambigs
(Optioneel) Dit bestand bevat informatie over paren herkende symbolen die dat wel zijn
vaak verward. Bijvoorbeeld, rn en m.

lang.inttemp
(Vereist) Tekenvormsjablonen voor elke unichar. Gemaakt door mftraining(1).

lang.pffmtable
(Vereist) Het aantal verwachte functies voor elke unichar. Gemaakt door mftraining(1)
oppompen van .tr bestanden.

lang.normproto
(Vereist) Karakternormalisatieprototypes gegenereerd door trainen(1) vanaf .tr
bestanden.

lang.punc-dawg
(Optioneel) Een dawg gemaakt van interpunctiepatronen rond woorden. Het woordgedeelte
wordt vervangen door een enkele spatie.

lang.word-dawg
(Optioneel) Een dawg gemaakt van woordenboekwoorden uit de taal.

lang.nummer-dawg
(Optioneel) Een dawg gemaakt van tokens die oorspronkelijk cijfers bevatten. Elk cijfer is
vervangen door een spatie.

lang.freq-dawg
(Optioneel) Een dawg gemaakt van de meest voorkomende woorden die erin zouden zijn verwerkt
woord-dawg.

lang.vaste-lengte-dawgs
(Optioneel) Verschillende dawgs met verschillende vaste lengtes — handig voor talen zoals
Chinese.

lang.kubus-unicharset
(Optioneel) Een unicharset voor kubus, als kubus op een andere set symbolen is getraind.

lang.cube-woord-dawg
(Optioneel) Een woord dawg voor de alternatieve unicharset van de kubus. Niet nodig als Cube is getraind
met de unicharset van Tesseract.

lang.vormbaar
(Optioneel) Indien aanwezig is een shapetable een extra laag tussen het personage
classifier en de woordherkenner waarmee de karakterclassifier a kan retourneren
verzameling unichar-id's en lettertypen in plaats van een enkele unichar-id en lettertype.

lang.bigram-dawg
(Optioneel) Een reeks woord-bigrams waarbij de woorden worden gescheiden door een spatie en elk
cijfer wordt vervangen door een ?.

lang.ondubbelzinnig-dawg
(Optioneel) TODO: Beschrijf.

lang.params-trainingsmodel
(Optioneel) TODO: Beschrijf.

GESCHIEDENIS


combine_tessdata(1) verscheen voor het eerst in versie 3.00 van Tesseract

Gebruik combine_tessdata online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

Linux-commando's

Ad