Jest to polecenie Combine_tessdata, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS
PROGRAM:
IMIĘ
Combine_tessdata - połącz/wyodrębnij/nadpisz dane Tesseract
STRESZCZENIE
connect_tessdata [OPCJA] FILE...
OPIS
connect_tessdata(1) to główny program do łączenia/wyodrębniania/nadpisywania komponentów tessdata
w plikach [lang].traineddata.
Aby połączyć wszystkie poszczególne komponenty tessdata (unicharset, DAWG, klasyfikator
szablony, niejasności, konfiguracje językowe) znajdujące się np. /Dom/$USER/temp/eng.* uruchom:
connect_tessdata /Dom/$USER/temp/ang.
Rezultatem będzie połączony plik tessdata /Dom/$USER/temp/ang.traineddata
Podaj opcję -e, jeśli chcesz wyodrębnić pojedyncze komponenty z kombinacji
przeszkolony plik danych. Na przykład, aby wyodrębnić plik konfiguracyjny języka i zestaw znaków unicharset
tessdata/eng.traineddata uruchom:
Combine_tessdata -e tessdata/eng.traineddata \
/Dom/$USER/temp/pol.config /Dom/$USER/temp/ang.unicharset
Żądany plik konfiguracyjny i zestaw znaków unicharset zostaną zapisane /Dom/$USER/temp/pol.config
/Dom/$USER/temp/ang.unicharset
Podaj opcję -o, aby nadpisać poszczególne komponenty podanego pliku [język].traineddata.
Na przykład, aby zastąpić pliki konfiguracyjne języka i pliki niejednoznaczności unichar w
tessdata/eng.traineddata użyj:
Combine_tessdata -o tessdata/eng.traineddata \
/Dom/$USER/temp/pol.config /Dom/$USER/temp/eng.unicharambigs
W rezultacie plik tessdata/eng.traineddata będzie zawierał nową konfigurację języka i znak unichar
ambigs, a także wszystkie oryginalne pliki DAWG, szablony klasyfikatorów itp.
Uwaga: nazwy plików do wyodrębnienia i nadpisania powinny mieć rozszerzenie
odpowiednie sufiksy plików (rozszerzenia) wskazujące typ ich komponentu tessdata
(.unicharset dla unicharset, .unicharambigs dla unichar ambigs itp.). Zobacz k*FileSuffix
zmienna w ccutil/tessdatamanager.h.
Podaj opcję -u, aby rozpakować wszystkie komponenty do określonej ścieżki:
Combine_tessdata -u tessdata/eng.traineddata /Dom/$USER/temp/ang.
To stworzy /Dom/Pliki $USER/temp/eng.* z poszczególnymi komponentami tessdata z
tessdata/eng.traineddata.
OPCJE
-e wyszkolone dane FILE...: wyodrębnia określone składniki z pliku .traineddata
-o wyszkolone dane FILE...: Zastępuje określone komponenty pliku .traineddata
te podane w wierszu poleceń.
-u wyszkolone dane PREFIKS ŚCIEŻKI Rozpakowuje .traineddata przy użyciu podanego prefiksu.
OSTRZEŻENIA
Prefiks odnosi się do pełnego przedrostka pliku, w tym kropki (.)
ELEMENTY
Komponenty w pliku Tesseract lang.traineddata począwszy od Tesseract 3.02 są pokrótce
Opisane poniżej; Aby uzyskać więcej informacji na temat wielu z tych plików, zobacz
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(Opcjonalnie) Dostosowane do języka zastąpienia domyślnych zmiennych konfiguracyjnych.
lang.unicharset
(Wymagane) Lista symboli rozpoznawanych przez Tesseract wraz z właściwościami. Widzieć
Unicharset(5).
lang.unicharambigs
(Opcjonalnie) Ten plik zawiera informacje o parach rozpoznawanych symboli, które są
często zdezorientowany. Na przykład, rn oraz m.
język.inttemp
(Wymagane) Szablony kształtów znaków dla każdego znaku unichar. Wyprodukowane przez szkolenie mf(1).
lang.pffmtable
(Wymagane) Liczba funkcji oczekiwanych dla każdego typu unichar. Wyprodukowane przez szkolenie mf(1)
od .tr akta.
język.normproto
(Wymagane) Prototypy normalizacji znaków wygenerowane przez cntrening(1) z .tr
akta.
lang.punc-dawg
(Opcjonalnie) Kreskówka wykonana ze znaków interpunkcyjnych znalezionych wokół słów. Część „słowa”.
zostaje zastąpiony pojedynczą spacją.
lang.word-dawg
(Opcjonalnie) Dawg utworzony ze słów ze słownika z danego języka.
lang.number-dawg
(Opcjonalnie) Dawg wykonany z tokenów, które pierwotnie zawierały cyfry. Każda cyfra jest
zastąpiony znakiem spacji.
lang.freq-dawg
(Opcjonalnie) Dawg utworzony z najczęstszych słów, które mogłyby się znaleźć
słowo-dawg.
lang.dawgs o stałej długości
(Opcjonalnie) Kilka dawgów o różnych stałych długościach — przydatne w językach takich jak
Chiński.
lang.cube-unicharset
(Opcjonalnie) Uniwersalny zestaw znaków dla kostki, jeśli kostka została przeszkolona na innym zestawie symboli.
lang.cube-word-dawg
(Opcjonalnie) Słowo dawg dla alternatywnego zestawu znaków uniwersalnych kostki. Niepotrzebne, jeśli Cube był szkolony
z unicharsetem Tesseracta.
lang.kształtowalny
(Opcjonalnie) Shapetable, jeśli występuje, jest dodatkową warstwą między postacią
klasyfikator i rozpoznawanie słów, które pozwala klasyfikatorowi znaków zwrócić a
zbiór identyfikatorów unichar i czcionek zamiast pojedynczego identyfikatora unichar i czcionki.
lang.bigram-dawg
(Opcjonalnie) Kawałek bigramów słów, w których słowa są oddzielone spacją i każdym z nich
cyfra zostaje zastąpiona przez a ?.
lang.unambig-dawg
(Opcjonalnie) DO ZROBIENIA: Opisz.
lang.params-trening-model
(Opcjonalnie) DO ZROBIENIA: Opisz.
HISTORIA
connect_tessdata(1) pojawił się po raz pierwszy w wersji 3.00 Tesseraktu
Korzystaj z Combine_tessdata online, korzystając z usług onworks.net