Dit is de opdracht tesseract die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator
PROGRAMMA:
NAAM
tesseract - opdrachtregel OCR-engine
KORTE INHOUD
tesseract afbeeldingsnaam|stdin uitvoerbasis|stdout [opties...] [configuratiebestand...]
PRODUCTBESCHRIJVING
tesseract(1) is een OCR-engine van commerciële kwaliteit die oorspronkelijk tussen 1985 door HP is ontwikkeld
en 1995. In 1995 behoorde deze motor tot de top 3 die door UNLV werd beoordeeld. Het was open source
door HP en UNLV in 2005, en is sindsdien ontwikkeld bij Google.
IN UIT ARGUMENTEN
afbeeldingsnaam
De naam van de invoerafbeelding. De meeste afbeeldingsbestandsindelingen (alles wat leesbaar is door Leptonica)
ondersteund.
stdin
Instructie om gegevens uit standaardinvoer te lezen
uitvoerbasis
De basisnaam van het uitvoerbestand (waaraan de juiste extensie wordt toegevoegd).
Standaard krijgt de uitvoer een naam outbase.txt.
stdout
Instructie om uitvoergegevens naar standaarduitvoer te sturen
OPTIES
--tessdata-dir /pad
Geef de locatie van het tessdata-pad op
--gebruikerswoorden /pad/naar/bestand
Specificeer de locatie van het gebruikerswoordenbestand
--gebruikerspatronen /pad/naar/bestand specificeren
De locatie van het bestand met gebruikerspatronen
-c configvar=waarde
Ingestelde waarde voor regelparameter. Meerdere -c argumenten zijn toegestaan.
-l LANG
De te gebruiken taal. Als er geen is opgegeven, wordt Engels aangenomen. Meerdere talen mogen
gespecificeerd worden, gescheiden door plustekens. Tesseract gebruikt ISO 3-639 met 2 tekens
taalcodes. (Zie TALEN)
-psm N
Stel Tesseract in om alleen een subset van lay-outanalyse uit te voeren en een bepaalde vorm van aan te nemen
afbeelding. De mogelijkheden voor N zijn:
0 = alleen oriëntatie en scriptdetectie (OSD).
1 = Automatische paginasegmentatie met OSD.
2 = Automatische paginasegmentatie, maar geen OSD of OCR.
3 = Volautomatische paginasegmentatie, maar geen OSD. (Standaard)
4 = Ga uit van een enkele tekstkolom van variabele grootte.
5 = Ga uit van een enkel uniform blok verticaal uitgelijnde tekst.
6 = Ga uit van één uniform blok tekst.
7 = Behandel de afbeelding als een enkele tekstregel.
8 = Behandel de afbeelding als een enkel woord.
9 = Behandel de afbeelding als een enkel woord in een cirkel.
10 = Behandel de afbeelding als een enkel teken.
configuratiebestand
De naam van een configuratie die moet worden gebruikt. Een configuratie is een bestand met platte tekst dat een lijst bevat van
variabelen en hun waarden, één per regel, met een spatie die de variabele van de waarde scheidt.
Interessante configuratiebestanden zijn onder andere:
· hocr - uitvoer in hOCR-indeling in plaats van als een tekstbestand.
· pdf - Uitvoer in pdf in plaats van een tekstbestand.
notitie goed: De opties -l LANG en -psm N moet vóór elk gebeuren configuratiebestand.
ENKEL OPTIES
-v
Retourneert de huidige versie van het tesseract(1) uitvoerbaar.
--lijst-langs
lijst met beschikbare talen voor de tesseract-engine. Kan gebruikt worden met --tessdata-dir.
--print-parameters
print tesseract-parameters naar de stdout.
TALEN
Er zijn momenteel taalpakketten beschikbaar voor de volgende talen (in
https://github.com/tesseract-ocr/tessdata):
afr (Afrikaans) amho (Amhaars) ara (Arabisch) aSM (Assamees) aze (Azerbeidzjaans) aze_cyrl
(Azerbeidzjaans - Cyrilisch) bel (Wit-Russisch) ben (Bengaals) bod (Tibetaans) bos (Bosnisch) bul
(Bulgaars) hoe (Catalaans; Valenciaans) ceb (Cebuano) ces (Tsjechisch) chi_sim (Chinees -
Vereenvoudigd) chi_tra (Chinese traditionele) chr (Cherokee) cym (Wels) Dan (Deens)
dan_frak (Deens - Fraktur) gaf (Duits) deu_frak (Duits - Fraktur) zo (Dzongkha) el
(Grieks, Modern (1453-)) eng (Engels) en M (Engels, Midden (1100-1500)) epo (Esperanto)
equ (Wiskunde / vergelijkingsdetectiemodule) is (Ests) Eus (Baskisch) fas (Pers) vin
(Fins) fra (Frans) prop (Frankisch) frm (Frans, Midden (ca.1400-1600)) gle (Iers) glg
(Galicisch) GRC (Grieks, Oud (tot 1453)) Guj (Gujarati) hoed (Haïtiaans; Haïtiaans Creools) Hebr
(Hebreeuws) naar beneden (Hindi) HRV (Kroatisch) Hun (Hongaars) iku (Inuktitut) ind (Indonesisch) isl
(IJslands) ita (Italiaans) ita_oud (Italiaans - Oud) jav (Javaans) jpn (Japans) kan
(Kanada) kat (Georgisch) kat_oud (Georgisch - Oud) gans (Kazachs) khm (Centrale Khmer) kir
(Kirgizisch; Kirgizisch) Kor (Koreaans) kur (Koerdisch) Laotiaans (Laotiaans) lat (Latijns) laag (Lets) lit
(Litouws) mal (Malayalam) bederven (Marath) MKD (Macedonisch) mlt (Maltees) msa (Maleis) mya
(Birmaans) niet (Nepalese) nld (Nederlands; Vlaams) noch (Noors) of (Oriya) osd (Oriëntatie
en scriptdetectiemodule) pan (Panjabi; Punjabi) pool (Pools) door (Portugees) pus
(Pushto; Pashto) ron (Roemeens; Moldavisch; Moldavisch) Russisch (Russisch) St. (Sanskriet) zonde
(Singalees; Singalees) slk (Slovaaks) slk_frak (Slowaaks - Fraktur) slv (Sloveens) spa
(Spaans; Castiliaans) spa_oud (Spaans; Castiliaans - Oud) vierkante meter (Albanees) srp (Servisch)
srp_latn (Servisch - Latijn) zw (Swahili) swe (Zweeds) kaas (Syrisch) tam (Tamil) tel
(Telugu) tgk (Tadzjieks) datum (Tagaloog) tha (Thais) tir (Tigrinya) tur (Turks) uig (Oeigoers;
Oeigoers) Oekraïens (Oekraïens) Urd (Urdu) uzb (Oezbeeks) uzb_cyrl (Oezbeeks - Cyrilisch) wedijveren (Vietnamees)
yid (Jiddisch)
Om een niet-standaard taalpakket genaamd foo.traineddata, stel de TESSDATA_PREFIX
omgevingsvariabele zodat het bestand kan worden gevonden op TESSDATA_PREFIX/tessdata/foo.getrainde gegevens
en geef Tesseract het argument -l foo.
CONFIG FILES EN VERGROTEN MET GEBRUIKER GEGEVENS
Tesseract-configuratiebestanden bestaan uit regels met variabele-waardeparen (spaties gescheiden). De
variabelen worden gedocumenteerd als vlaggen in de broncode zoals de volgende in
tesseractclass.h:
STRING_VAR_H(tessedit_char_blacklist, "", "Zwarte lijst met niet te herkennen karakters");
Deze variabelen kunnen verschillende functies van de engine in- of uitschakelen en kunnen dit veroorzaken
verschillende gegevens laden (of niet laden). Stel dat u OCR in het Engels wilt gebruiken,
maar onderdruk het normale woordenboek en laad een alternatieve woordenlijst en een alternatief
lijst met patronen — deze twee bestanden zijn de meest gebruikte extra gegevensbestanden.
Als uw taalpakket in /path/to/eng.traineddata staat en de hocr config is in
/pad/naar/configs/hocr maak vervolgens drie nieuwe bestanden aan:
/pad/naar/eng.user-woorden:
the
rápido
bruin
vos
sprong
/pad/naar/eng.user-patterns:
1-\d\d\d-GOOG-411
www.\n\\\*.com
/pad/naar/configs/bazaar:
laad_systeem_dawg F
load_freq_dawg F
user_words_suffix gebruikerswoorden
user_patterns_suffix gebruikerspatronen
Nu, als u het woord doorgeeft bazaar als een achterliggende opdrachtregelparameter voor Tesseract,
Tesseract zal niet de moeite nemen om het systeemwoordenboek of het woordenboek van frequent te laden
woorden en zal de bestanden eng.user-words en eng.user-patterns die u hebt opgegeven, laden en gebruiken.
De eerste is een eenvoudige woordenlijst, één per regel. Het formaat van de laatste is gedocumenteerd in
dict/trie.h op read_pattern_list().
GESCHIEDENIS
De motor is ontwikkeld bij Hewlett Packard Laboratories Bristol en bij Hewlett Packard
Co, Greeley Colorado tussen 1985 en 1994, met enkele meer wijzigingen aangebracht in 1996 naar bakboord naar
Windows, en wat C++ in 1998. Veel van de code is geschreven in C, en nog wat meer
is geschreven in C++. De C\++-code maakt intensief gebruik van een lijstsysteem met behulp van macro's. Dit
dateert van vóór stl, was draagbaar vóór stl en is efficiënter dan stl-lijsten, maar heeft de
groot negatief dat als u een segmentatieschending krijgt, het moeilijk is om te debuggen.
Versie 2.00 bracht ondersteuning voor Unicode (UTF-8), zes talen en de mogelijkheid om te trainen
tesseract
Tesseract werd opgenomen in UNLV's vierde jaarlijkse test van OCR-nauwkeurigheid. Zien
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. Met Tesseract 2.00,
scripts zijn nu opgenomen zodat iedereen sommige van deze tests kan reproduceren. Zien
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract voor meer details.
Tesseract 3.00 voegt een aantal nieuwe talen toe, waaronder Chinees, Japans en Koreaans. Het
introduceert ook een nieuw, op één bestand gebaseerd systeem voor het beheer van taalgegevens.
Tesseract 3.02 voegt bidirectionele tekstondersteuning toe, de mogelijkheid om meerdere te herkennen
talen in één afbeelding en verbeterde lay-outanalyse.
Zie voor meer details het bestand ReleaseNotes dat bij de distributie is geleverd.
KENNISDATABASE
Hoofdwebsite: https://github.com/tesseract-ocr Informatie over trainingen:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
Gebruik tesseract online met behulp van onworks.net-services