Tesserakt
Dies ist der Befehl tesseract, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
tesseract – Befehlszeilen-OCR-Engine
ZUSAMMENFASSUNG
Tesserakt Bildname|Standard Ausgabebasis|stdout [Optionen...] [Konfigurationsdatei...]
BESCHREIBUNG
Tesserakt(1) ist eine OCR-Engine in kommerzieller Qualität, die ursprünglich 1985 bei HP entwickelt wurde
und 1995. Im Jahr 1995 gehörte dieser Motor zu den Top 3 der UNLV-Bewertung. Es war Open-Source
von HP und UNLV im Jahr 2005 und wird seitdem bei Google entwickelt.
EIN / AUS ARGUMENTE
Bildname
Der Name des Eingabebildes. Die meisten Bilddateiformate (alles, was von Leptonica lesbar ist)
unterstützt.
Standard
Anweisung zum Lesen von Daten aus der Standardeingabe
Ausgabebasis
Der Basisname der Ausgabedatei (an den die entsprechende Erweiterung angehängt wird).
Standardmäßig wird die Ausgabe benannt outbase.txt.
stdout
Anweisung zum Senden von Ausgabedaten an die Standardausgabe
OPTIONAL
--tessdata-dir /Weg
Geben Sie den Speicherort des Tessdata-Pfads an
--user-words /Pfad/zu/Datei
Geben Sie den Speicherort der Benutzerwortdatei an
--user-patterns /Pfad/zu/Datei angeben
Der Speicherort der Benutzermusterdatei
-c configvar=Wert
Wert für Steuerparameter einstellen. Es sind mehrere -c-Argumente zulässig.
-l lang
Die zu verwendende Sprache. Wenn nichts angegeben ist, wird Englisch angenommen. Mehrere Sprachen möglich
angegeben werden, getrennt durch Pluszeichen. Tesseract verwendet 3-Zeichen ISO 639-2
Sprachcodes. (Siehe SPRACHEN)
-psm N
Stellen Sie Tesseract so ein, dass nur eine Teilmenge der Layoutanalyse ausgeführt wird und eine bestimmte Form davon angenommen wird
Bild. Die Optionen für N sind:
0 = Nur Ausrichtung und Skripterkennung (OSD).
1 = Automatische Seitensegmentierung mit OSD.
2 = Automatische Seitensegmentierung, aber kein OSD oder OCR.
3 = Vollautomatische Seitensegmentierung, aber kein OSD. (Standard)
4 = Gehen Sie von einer einzelnen Textspalte unterschiedlicher Größe aus.
5 = Gehen Sie von einem einzelnen einheitlichen Block vertikal ausgerichteten Texts aus.
6 = Gehen Sie von einem einzelnen einheitlichen Textblock aus.
7 = Behandeln Sie das Bild als einzelne Textzeile.
8 = Behandeln Sie das Bild als ein einzelnes Wort.
9 = Behandeln Sie das Bild als ein einzelnes Wort in einem Kreis.
10 = Behandeln Sie das Bild als einzelnes Zeichen.
Konfigurationsdatei
Der Name einer zu verwendenden Konfiguration. Eine Konfiguration ist eine Klartextdatei, die eine Liste von enthält
Variablen und ihre Werte, eine pro Zeile, mit einem Leerzeichen, das die Variable vom Wert trennt.
Zu den interessanten Konfigurationsdateien gehören:
· hocr – Ausgabe im hOCR-Format statt als Textdatei.
· pdf – Ausgabe im PDF-Format anstelle einer Textdatei.
Hinweis: Gut: Die Optionen -l lang und -psm N muss vor jedem auftreten Konfigurationsdatei.
SINGLE OPTIONAL
-v
Gibt die aktuelle Version von zurück Tesserakt(1) ausführbar.
--list-langs
Liste der verfügbaren Sprachen für die Tesseract-Engine. Kann mit --tessdata-dir verwendet werden.
--print-parameters
Tesseract-Parameter in der Standardausgabe ausgeben.
SPRACHEN
Derzeit sind Sprachpakete für die folgenden Sprachen verfügbar (in
https://github.com/tesseract-ocr/tessdata):
AFR (Afrikaans) roh (Amharisch) ara (Arabisch) asm (Assamesisch) aze (Aserbaidschanisch) aze_cyrl
(Aserbaidschanisch - Kyrillisch) schön (Belarussisch) ben (Bengali) bod (Tibetisch) bos (Bosnisch) finden
(Bulgarisch) Katze (Katalanisch; Valencianisch) ceb (Cebuano) ces (Tschechisch) chi_sim (Chinesisch -
Vereinfacht) chi_tra (Chinesische Tradition) chr (Indianer) Cym (Walisisch) Dan (Dänisch)
dan_frak (Dänisch - Fraktur) deu (Deutsch) deu_frak (Deutsch - Fraktur) dzo (Dzongkha) ell
(Griechisch, Modern (1453-)) de (Englisch) ähm (Englisch, Mittel (1100-1500)) epo (Esperanto)
equ (Mathe-/Gleichungserkennungsmodul) ist (Estnisch) eus (Baskisch) fas (Persisch) fein
(Finnisch) durch (Französisch) frk (Fränkisch) frm (Französisch, Mitte (ca. 1400-1600)) gle (Irisch) glg
(Galizisch) GRC (Griechisch, Antike (bis 1453)) guj (Gujarati) Hut (Haitianisch; Haitianisch-Kreolisch) heb
(Hebräisch) h (Hindi) HRV (Kroatisch) Hunne (Ungarisch) iku (Inuktitut) ind (Indonesisch) isl
(Isländisch) ITA (Italienisch) ita_old (Italienisch – Alt) jav (Javanesisch) jpn (Japanisch) Kan
(Kanada) Katze (Georgisch) kat_old (Georgisch - Alt) kaz (Kasachisch) khm (Zentrale Khmer) kir
(Kirgisisch; Kirgisisch) Kühe (Koreanisch) kur (Kurdisch) lao (Laotisch) lat (Latein) Klo (Lettisch) lit
(Litauisch) mal (Malayalam) beschädigen (Marathi) mkd (Mazedonisch) mlt (Maltesisch) msa (Malaiisch) mya
(Birmanisch) nicht (Nepal) nld (Niederländisch; Flämisch) noch (Norwegisch) oder (Oria) osd (Orientierung
und Skripterkennungsmodul) Pfanne (Panjabi; Punjabi) in. (Polieren) von (Portugiesisch) Eiter
(Puschtu; Paschtu) ron (Rumänisch; Moldauisch; Moldauisch) Russisch (Russisch) St. (Sanskrit) Sünde
(Singhalesisch; Singhalesisch) slk (Slowakisch) slk_frak (Slowakisch - Fraktur) SLV (Slowenisch) Spa
(Spanisch; Kastilisch) spa_old (Spanisch; Kastilisch – Alt) sqi (Albanisch) krank (Serbisch)
srp_latn (Serbisch - Latein) Schwa (Suaheli) swe (Schwedisch) syr (Syrien) tam (Tamil) tel
(Telugu) tgk (Tadschikisch) Datum (Tagalog) tha (Thailändisch) tir (Tigrinya) tur (Türkisch) uig (Uigur;
Uigurisch) ukrainisch (Ukrainisch) Urd (Urdu) usb (Usbekisch) uzb_cyrl (Usbekisch - Kyrillisch) Fr (Vietnamesisch)
Jid (Jiddisch)
Um ein nicht standardmäßiges Sprachpaket mit dem Namen zu verwenden foo.traineddataStellen Sie die TESSDATA_PREFIX
Umgebungsvariable, damit die Datei unter gefunden werden kann TESSDATA_PREFIX/tessdata/foo.trainierteDaten
und geben Sie Tesseract das Argument -l foo.
CONFIG DATEIEN UND ERWEITERUNG MIT USER DATEN
Tesseract-Konfigurationsdateien bestehen aus Zeilen mit Variablen-Wert-Paaren (durch Leerzeichen getrennt). Der
Variablen werden im Quellcode als Flags dokumentiert, wie das folgende in
tesseractclass.h:
STRING_VAR_H(tessedit_char_blacklist, "", "Schwarze Liste nicht zu erkennender Zeichen");
Diese Variablen können verschiedene Funktionen der Engine aktivieren oder deaktivieren und dazu führen, dass dies der Fall ist
verschiedene Daten laden (oder nicht laden). Nehmen wir zum Beispiel an, Sie möchten OCR auf Englisch durchführen,
aber unterdrücken Sie das normale Wörterbuch und laden Sie eine alternative Wortliste und eine Alternative
Liste der Muster – diese beiden Dateien sind die am häufigsten verwendeten zusätzlichen Datendateien.
Wenn sich Ihr Sprachpaket in /path/to/eng.traineddata befindet und die Hocr-Konfiguration in
/path/to/configs/hocr Erstellen Sie dann drei neue Dateien:
/path/to/eng.user-words:
die
schnell
braun
Fuchs
sprang
/path/to/eng.user-patterns:
1-\d\d\d-GOOG-411
www.\n\\\*.com
/path/to/configs/bazaar:
Load_system_dawg F
Load_freq_dawg F
user_words_suffix Benutzerwörter
user_patterns_suffix Benutzermuster
Nun, wenn Sie das Wort weitergeben Basar als nachgestellter Befehlszeilenparameter für Tesseract,
Tesseract wird sich nicht die Mühe machen, das Systemwörterbuch oder das häufige Wörterbuch zu laden
Wörter und lädt und verwendet die von Ihnen bereitgestellten Dateien eng.user-words und eng.user-patterns.
Ersteres ist eine einfache Wortliste, eines pro Zeile. Das Format des letzteren ist dokumentiert in
dict/trie.h auf read_pattern_list().
HISTORIEN
Der Motor wurde in den Hewlett Packard Laboratories Bristol und bei Hewlett Packard entwickelt
Co, Greeley Colorado zwischen 1985 und 1994, wobei 1996 einige weitere Änderungen vorgenommen wurden, um dorthin zu portieren
Windows und etwas C++ im Jahr 1998. Ein großer Teil des Codes wurde in C geschrieben, und noch mehr
wurde in C++ geschrieben. Der C++-Code nutzt stark ein Listensystem mit Makros. Das
ist älter als STL, war vor STL portierbar und ist effizienter als STL-Listen, verfügt aber über die
Der große Nachteil besteht darin, dass es schwierig ist, Fehler zu beheben, wenn es zu einer Segmentierungsverletzung kommt.
Version 2.00 brachte Unicode-Unterstützung (UTF-8), sechs Sprachen und die Möglichkeit zum Trainieren
Tesserakt.
Tesseract wurde in den vierten jährlichen Test der OCR-Genauigkeit der UNLV aufgenommen. Sehen
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. Mit Tesseract 2.00,
Es sind jetzt Skripte enthalten, die es jedem ermöglichen, einige dieser Tests zu reproduzieren. Sehen
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract für weitere Informationen an.
Tesseract 3.00 fügt eine Reihe neuer Sprachen hinzu, darunter Chinesisch, Japanisch und Koreanisch. Es
führt außerdem ein neues, auf einer einzigen Datei basierendes System zur Verwaltung von Sprachdaten ein.
Tesseract 3.02 bietet bidirektionale Textunterstützung und die Möglichkeit, mehrere zu erkennen
Sprachen in einem einzigen Bild und verbesserte Layout-Analyse.
Weitere Einzelheiten finden Sie in der Datei „ReleaseNotes“, die der Distribution beiliegt.
RESSOURCEN
Hauptwebsite: https://github.com/tesseract-ocr Informationen zur Ausbildung:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
Nutzen Sie Tesseract online über die Dienste von onworks.net