GoGPT Best VPN GoSearch

Ulubiona usługa OnWorks

Combine_tessdata – Online w chmurze

Uruchom Combine_tessdata w darmowym dostawcy hostingu OnWorks przez Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS

Jest to polecenie Combine_tessdata, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online systemu MAC OS

PROGRAM:

IMIĘ


Combine_tessdata - połącz/wyodrębnij/nadpisz dane Tesseract

STRESZCZENIE


connect_tessdata [OPCJA] FILE...

OPIS


connect_tessdata(1) to główny program do łączenia/wyodrębniania/nadpisywania komponentów tessdata
w plikach [lang].traineddata.

Aby połączyć wszystkie poszczególne komponenty tessdata (unicharset, DAWG, klasyfikator
szablony, niejasności, konfiguracje językowe) znajdujące się np. /Dom/$USER/temp/eng.* uruchom:

connect_tessdata /Dom/$USER/temp/ang.

Rezultatem będzie połączony plik tessdata /Dom/$USER/temp/ang.traineddata

Podaj opcję -e, jeśli chcesz wyodrębnić pojedyncze komponenty z kombinacji
przeszkolony plik danych. Na przykład, aby wyodrębnić plik konfiguracyjny języka i zestaw znaków unicharset
tessdata/eng.traineddata uruchom:

Combine_tessdata -e tessdata/eng.traineddata \
/Dom/$USER/temp/pol.config /Dom/$USER/temp/ang.unicharset

Żądany plik konfiguracyjny i zestaw znaków unicharset zostaną zapisane /Dom/$USER/temp/pol.config
/Dom/$USER/temp/ang.unicharset

Podaj opcję -o, aby nadpisać poszczególne komponenty podanego pliku [język].traineddata.
Na przykład, aby zastąpić pliki konfiguracyjne języka i pliki niejednoznaczności unichar w
tessdata/eng.traineddata użyj:

Combine_tessdata -o tessdata/eng.traineddata \
/Dom/$USER/temp/pol.config /Dom/$USER/temp/eng.unicharambigs

W rezultacie plik tessdata/eng.traineddata będzie zawierał nową konfigurację języka i znak unichar
ambigs, a także wszystkie oryginalne pliki DAWG, szablony klasyfikatorów itp.

Uwaga: nazwy plików do wyodrębnienia i nadpisania powinny mieć rozszerzenie
odpowiednie sufiksy plików (rozszerzenia) wskazujące typ ich komponentu tessdata
(.unicharset dla unicharset, .unicharambigs dla unichar ambigs itp.). Zobacz k*FileSuffix
zmienna w ccutil/tessdatamanager.h.

Podaj opcję -u, aby rozpakować wszystkie komponenty do określonej ścieżki:

Combine_tessdata -u tessdata/eng.traineddata /Dom/$USER/temp/ang.

To stworzy /Dom/Pliki $USER/temp/eng.* z poszczególnymi komponentami tessdata z
tessdata/eng.traineddata.

OPCJE


-e wyszkolone dane FILE...: wyodrębnia określone składniki z pliku .traineddata

-o wyszkolone dane FILE...: Zastępuje określone komponenty pliku .traineddata
te podane w wierszu poleceń.

-u wyszkolone dane PREFIKS ŚCIEŻKI Rozpakowuje .traineddata przy użyciu podanego prefiksu.

OSTRZEŻENIA


Prefiks odnosi się do pełnego przedrostka pliku, w tym kropki (.)

ELEMENTY


Komponenty w pliku Tesseract lang.traineddata począwszy od Tesseract 3.02 są pokrótce
Opisane poniżej; Aby uzyskać więcej informacji na temat wielu z tych plików, zobacz
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

lang.config
(Opcjonalnie) Dostosowane do języka zastąpienia domyślnych zmiennych konfiguracyjnych.

lang.unicharset
(Wymagane) Lista symboli rozpoznawanych przez Tesseract wraz z właściwościami. Widzieć
Unicharset(5).

lang.unicharambigs
(Opcjonalnie) Ten plik zawiera informacje o parach rozpoznawanych symboli, które są
często zdezorientowany. Na przykład, rn oraz m.

język.inttemp
(Wymagane) Szablony kształtów znaków dla każdego znaku unichar. Wyprodukowane przez szkolenie mf(1).

lang.pffmtable
(Wymagane) Liczba funkcji oczekiwanych dla każdego typu unichar. Wyprodukowane przez szkolenie mf(1)
od .tr akta.

język.normproto
(Wymagane) Prototypy normalizacji znaków wygenerowane przez cntrening(1) z .tr
akta.

lang.punc-dawg
(Opcjonalnie) Kreskówka wykonana ze znaków interpunkcyjnych znalezionych wokół słów. Część „słowa”.
zostaje zastąpiony pojedynczą spacją.

lang.word-dawg
(Opcjonalnie) Dawg utworzony ze słów ze słownika z danego języka.

lang.number-dawg
(Opcjonalnie) Dawg wykonany z tokenów, które pierwotnie zawierały cyfry. Każda cyfra jest
zastąpiony znakiem spacji.

lang.freq-dawg
(Opcjonalnie) Dawg utworzony z najczęstszych słów, które mogłyby się znaleźć
słowo-dawg.

lang.dawgs o stałej długości
(Opcjonalnie) Kilka dawgów o różnych stałych długościach — przydatne w językach takich jak
Chiński.

lang.cube-unicharset
(Opcjonalnie) Uniwersalny zestaw znaków dla kostki, jeśli kostka została przeszkolona na innym zestawie symboli.

lang.cube-word-dawg
(Opcjonalnie) Słowo dawg dla alternatywnego zestawu znaków uniwersalnych kostki. Niepotrzebne, jeśli Cube był szkolony
z unicharsetem Tesseracta.

lang.kształtowalny
(Opcjonalnie) Shapetable, jeśli występuje, jest dodatkową warstwą między postacią
klasyfikator i rozpoznawanie słów, które pozwala klasyfikatorowi znaków zwrócić a
zbiór identyfikatorów unichar i czcionek zamiast pojedynczego identyfikatora unichar i czcionki.

lang.bigram-dawg
(Opcjonalnie) Kawałek bigramów słów, w których słowa są oddzielone spacją i każdym z nich
cyfra zostaje zastąpiona przez a ?.

lang.unambig-dawg
(Opcjonalnie) DO ZROBIENIA: Opisz.

lang.params-trening-model
(Opcjonalnie) DO ZROBIENIA: Opisz.

HISTORIA


connect_tessdata(1) pojawił się po raz pierwszy w wersji 3.00 Tesseraktu

Korzystaj z Combine_tessdata online, korzystając z usług onworks.net


Darmowe serwery i stacje robocze

Pobierz aplikacje Windows i Linux

Komendy systemu Linux

Ad




×
reklama
❤️Zrób zakupy, zarezerwuj lub kup tutaj — bezpłatnie, co pomaga utrzymać bezpłatne usługi.