Este é o comando combine_tessdata que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
combine_tessdata - combinar / extrair / sobrescrever dados Tesseract
SINOPSE
combine_tessdata [OPÇÃO] ARQUIVO...
DESCRIÇÃO
combine_tessdata(1) é o programa principal para combinar / extrair / sobrescrever componentes tessdata
em arquivos [lang] .traineddata.
Para combinar todos os componentes individuais tessdata (unicharset, DAWGs, classificador
modelos, ambigüidades, configurações de idioma) localizados em, digamos, /casa/$ USER / temp / eng. * Run:
combine_tessdata /casa/$ USUÁRIO / temp / eng.
O resultado será um arquivo tessdata combinado /casa/$ USER / temp / eng.traineddata
Especifique a opção -e se desejar extrair componentes individuais de um combinado
arquivo de dados treinados. Por exemplo, para extrair o arquivo de configuração de idioma e o unicharset de
tessdata / eng.traineddata run:
combine_tessdata -e tessdata / eng.traineddata \
/casa/$ USER / temp / eng.config /casa/$ USER / temp / eng.unicharset
O arquivo de configuração e unicharset desejados serão gravados em /casa/$ USER / temp / eng.config
/casa/$ USER / temp / eng.unicharset
Especifique a opção -o para sobrescrever componentes individuais do arquivo [lang] .traineddata fornecido.
Por exemplo, para sobrescrever arquivos de configuração de idioma e ambigüidades unichar em
tessdata / eng.traineddata use:
combine_tessdata -o tessdata / eng.traineddata \
/casa/$ USER / temp / eng.config /casa/$ USER / temp / eng.unicharambigs
Como resultado, tessdata / eng.traineddata conterá a nova configuração de idioma e unichar
ambigs, além de todos os DAWGs originais, modelos de classificador, etc.
Nota: os nomes dos arquivos para extrair e sobrescrever devem ter o
sufixos de arquivo apropriados (extensões) indicando seu tipo de componente tessdata
(.unicharset para unicharset, .unicharambigs para unichar ambigs etc.). Veja k * FileSuffix
variável em ccutil / tessdatamanager.h.
Especifique a opção -u para descompactar todos os componentes para o caminho especificado:
combine_tessdata -u tessdata / eng.traineddata /casa/$ USUÁRIO / temp / eng.
Isso vai criar /casa/Arquivos $ USER / temp / eng. * Com componentes individuais tessdata de
tessdata / eng.traineddata.
OPÇÕES
-e .treinadosdados ARQUIVO...: Extrai os componentes especificados do arquivo .traineddata
-o .treinadosdados ARQUIVO...: sobrescreve os componentes especificados do arquivo .traineddata com
aqueles fornecidos na linha de comando.
-u .treinadosdados PATHPREFIX Descompacta o .traineddata usando o prefixo fornecido.
RESSALVAS
Prefixo refere-se ao prefixo completo do arquivo, incluindo ponto (.)
COMPONENTES
Os componentes em um arquivo Tesseract lang.traineddata a partir do Tesseract 3.02 são resumidamente
Descrito abaixo; Para obter mais informações sobre muitos desses arquivos, consulte
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
lang.config
(Opcional) Substituições específicas do idioma para variáveis de configuração padrão.
lang.unicharset
(Obrigatório) A lista de símbolos que Tesseract reconhece, com propriedades. Ver
conjunto de caracteres únicos(5).
lang.unicharambigs
(Opcional) Este arquivo contém informações sobre pares de símbolos reconhecidos que são
frequentemente confuso. Por exemplo, rn e m.
lang.inttemp
(Obrigatório) Modelos de formato de caractere para cada unichar. Produzido por treinamento(1).
lang.pffmtable
(Obrigatório) O número de recursos esperados para cada unichar. Produzido por treinamento(1)
da .tr arquivos.
lang.normproto
(Obrigatório) Protótipos de normalização de caractere gerados por treinamento(1) de .tr
arquivos.
lang.punc-dawg
(Opcional) Um dawg feito de padrões de pontuação encontrados em torno das palavras. A parte da "palavra"
é substituído por um único espaço.
lang.word-dawg
(Opcional) Um dawg feito de palavras do dicionário do idioma.
lang.number-dawg
(Opcional) Um dawg feito de tokens que originalmente continham dígitos. Cada dígito é
substituído por um caractere de espaço.
lang.freq-dawg
(Opcional) Um dawg feito a partir das palavras mais frequentes que teriam entrado em
palavra-dawg.
lang.comprimento fixo-dawgs
(Opcional) Vários dawgs de diferentes comprimentos fixos - úteis para linguagens como
Chinês.
lang.cube-unicharset
(Opcional) Um unicharset para cubo, se o cubo foi treinado em um conjunto diferente de símbolos.
lang.cube-word-dawg
(Opcional) Uma palavra dawg para unicharset alternativo do cubo. Não necessário se Cube foi treinado
com o unicharset de Tesseract.
lang.shapetável
(Opcional) Quando presente, um shapetable é uma camada extra entre o personagem
classificador e o reconhecedor de palavras que permite ao classificador de caracteres retornar um
coleção de unichar ids e fontes em vez de um único unichar-id e fonte.
lang.bigram-dawg
(Opcional) Um grupo de bigramas de palavras onde as palavras são separadas por um espaço e cada
dígito é substituído por um ?.
lang.unambig-dawg
(Opcional) TODO: Descreva.
lang.params-training-model
(Opcional) TODO: Descreva.
HISTÓRIA
combine_tessdata(1) apareceu pela primeira vez na versão 3.00 do Tesseract
Use combine_tessdata online usando serviços onworks.net