InglêsFrancêsEspanhol

Ad


favicon do OnWorks

combine_tessdata - Online na nuvem

Execute combine_tessdata no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando combine_tessdata que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


combine_tessdata - combinar / extrair / sobrescrever dados Tesseract

SINOPSE


combine_tessdata [OPÇÃO] ARQUIVO...

DESCRIÇÃO


combine_tessdata(1) é o programa principal para combinar / extrair / sobrescrever componentes tessdata
em arquivos [lang] .traineddata.

Para combinar todos os componentes individuais tessdata (unicharset, DAWGs, classificador
modelos, ambigüidades, configurações de idioma) localizados em, digamos, /casa/$ USER / temp / eng. * Run:

combine_tessdata /casa/$ USUÁRIO / temp / eng.

O resultado será um arquivo tessdata combinado /casa/$ USER / temp / eng.traineddata

Especifique a opção -e se desejar extrair componentes individuais de um combinado
arquivo de dados treinados. Por exemplo, para extrair o arquivo de configuração de idioma e o unicharset de
tessdata / eng.traineddata run:

combine_tessdata -e tessdata / eng.traineddata \
/casa/$ USER / temp / eng.config /casa/$ USER / temp / eng.unicharset

O arquivo de configuração e unicharset desejados serão gravados em /casa/$ USER / temp / eng.config
/casa/$ USER / temp / eng.unicharset

Especifique a opção -o para sobrescrever componentes individuais do arquivo [lang] .traineddata fornecido.
Por exemplo, para sobrescrever arquivos de configuração de idioma e ambigüidades unichar em
tessdata / eng.traineddata use:

combine_tessdata -o tessdata / eng.traineddata \
/casa/$ USER / temp / eng.config /casa/$ USER / temp / eng.unicharambigs

Como resultado, tessdata / eng.traineddata conterá a nova configuração de idioma e unichar
ambigs, além de todos os DAWGs originais, modelos de classificador, etc.

Nota: os nomes dos arquivos para extrair e sobrescrever devem ter o
sufixos de arquivo apropriados (extensões) indicando seu tipo de componente tessdata
(.unicharset para unicharset, .unicharambigs para unichar ambigs etc.). Veja k * FileSuffix
variável em ccutil / tessdatamanager.h.

Especifique a opção -u para descompactar todos os componentes para o caminho especificado:

combine_tessdata -u tessdata / eng.traineddata /casa/$ USUÁRIO / temp / eng.

Isso vai criar /casa/Arquivos $ USER / temp / eng. * Com componentes individuais tessdata de
tessdata / eng.traineddata.

OPÇÕES


-e .treinadosdados ARQUIVO...: Extrai os componentes especificados do arquivo .traineddata

-o .treinadosdados ARQUIVO...: sobrescreve os componentes especificados do arquivo .traineddata com
aqueles fornecidos na linha de comando.

-u .treinadosdados PATHPREFIX Descompacta o .traineddata usando o prefixo fornecido.

RESSALVAS


Prefixo refere-se ao prefixo completo do arquivo, incluindo ponto (.)

COMPONENTES


Os componentes em um arquivo Tesseract lang.traineddata a partir do Tesseract 3.02 são resumidamente
Descrito abaixo; Para obter mais informações sobre muitos desses arquivos, consulte
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

lang.config
(Opcional) Substituições específicas do idioma para variáveis ​​de configuração padrão.

lang.unicharset
(Obrigatório) A lista de símbolos que Tesseract reconhece, com propriedades. Ver
conjunto de caracteres únicos(5).

lang.unicharambigs
(Opcional) Este arquivo contém informações sobre pares de símbolos reconhecidos que são
frequentemente confuso. Por exemplo, rn e m.

lang.inttemp
(Obrigatório) Modelos de formato de caractere para cada unichar. Produzido por treinamento(1).

lang.pffmtable
(Obrigatório) O número de recursos esperados para cada unichar. Produzido por treinamento(1)
da .tr arquivos.

lang.normproto
(Obrigatório) Protótipos de normalização de caractere gerados por treinamento(1) de .tr
arquivos.

lang.punc-dawg
(Opcional) Um dawg feito de padrões de pontuação encontrados em torno das palavras. A parte da "palavra"
é substituído por um único espaço.

lang.word-dawg
(Opcional) Um dawg feito de palavras do dicionário do idioma.

lang.number-dawg
(Opcional) Um dawg feito de tokens que originalmente continham dígitos. Cada dígito é
substituído por um caractere de espaço.

lang.freq-dawg
(Opcional) Um dawg feito a partir das palavras mais frequentes que teriam entrado em
palavra-dawg.

lang.comprimento fixo-dawgs
(Opcional) Vários dawgs de diferentes comprimentos fixos - úteis para linguagens como
Chinês.

lang.cube-unicharset
(Opcional) Um unicharset para cubo, se o cubo foi treinado em um conjunto diferente de símbolos.

lang.cube-word-dawg
(Opcional) Uma palavra dawg para unicharset alternativo do cubo. Não necessário se Cube foi treinado
com o unicharset de Tesseract.

lang.shapetável
(Opcional) Quando presente, um shapetable é uma camada extra entre o personagem
classificador e o reconhecedor de palavras que permite ao classificador de caracteres retornar um
coleção de unichar ids e fontes em vez de um único unichar-id e fonte.

lang.bigram-dawg
(Opcional) Um grupo de bigramas de palavras onde as palavras são separadas por um espaço e cada
dígito é substituído por um ?.

lang.unambig-dawg
(Opcional) TODO: Descreva.

lang.params-training-model
(Opcional) TODO: Descreva.

HISTÓRIA


combine_tessdata(1) apareceu pela primeira vez na versão 3.00 do Tesseract

Use combine_tessdata online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

Comandos Linux

Ad