GoGPT Best VPN GoSearch

Icône de favori OnWorks

combine_tessdata - En ligne dans le Cloud

Exécutez combine_tessdata dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande combine_tessdata qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


combiner_tessdata - combiner/extraire/écraser les données Tesseract

SYNOPSIS


combiner_tessdata [OPTION] DOSSIER...

DESCRIPTION


combiner_tessdata(1) est le programme principal pour combiner/extraire/écraser les composants tessdata
dans les fichiers [lang].traineddata.

Pour combiner tous les composants individuels de tessdata (unicharset, DAWG, classificateur
modèles, ambiguïtés, configurations de langue) situés, par exemple, /maison/$USER/temp/eng.* exécuter :

combiner_tessdata /maison/$USER/temp/eng.

Le résultat sera un fichier tessdata combiné /maison/$USER/temp/eng.traineddata

Spécifiez l'option -e si vous souhaitez extraire des composants individuels d'un ensemble
fichier de données formé. Par exemple, pour extraire le fichier de configuration de langue et l'unicharset de
tessdata/eng.traineddata exécuter :

combine_tessdata -e tessdata/eng.traineddata \
/maison/$USER/temp/eng.config /maison/$USER/temp/eng.unicharset

Le fichier de configuration et l'unicharset souhaités seront écrits dans /maison/$USER/temp/eng.config
/maison/$USER/temp/eng.unicharset

Spécifiez l'option -o pour écraser les composants individuels du fichier [lang].traineddata donné.
Par exemple, pour écraser les fichiers de configuration de langue et d'ambiguïtés unichar dans
utilisation de tessdata/eng.traineddata :

combine_tessdata -o tessdata/eng.traineddata \
/maison/$USER/temp/eng.config /maison/$USER/temp/eng.unicharambigs

En conséquence, tessdata/eng.traineddata contiendra la nouvelle configuration de langue et unichar
ambigs, ainsi que tous les DAWG originaux, modèles de classificateur, etc.

Remarque : les noms de fichier des fichiers à extraire et à écraser doivent avoir le
suffixes de fichiers appropriés (extensions) indiquant leur type de composant tessdata
(.unicharset pour unicharset, .unicharambigs pour unichar ambigs, etc.). Voir k*FileSuffix
variable dans ccutil/tessdatamanager.h.

Spécifiez l'option -u pour décompresser tous les composants dans le chemin spécifié :

combine_tessdata -u tessdata/eng.traineddata /maison/$USER/temp/eng.

Cela créera /maison/Fichiers $USER/temp/eng.* avec des composants tessdata individuels de
tessdata/eng.traineddata.

OPTIONS


-e .traineddata DOSSIER... : extrait les composants spécifiés du fichier .traineddata

-o .traineddata DOSSIER... : écrase les composants spécifiés du fichier .traineddata avec
ceux fournis sur la ligne de commande.

-u .traineddata PRÉFIXE DE CHEMIN Décompresse le .traineddata à l'aide du préfixe fourni.

MISES EN GARDE


Titre fait référence au préfixe complet du fichier, y compris le point (.)

COMPOSANTS


Les composants d'un fichier Tesseract lang.traineddata à partir de Tesseract 3.02 sont brièvement
décrit ci-dessous; Pour plus d'informations sur bon nombre de ces fichiers, voir
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

lang.config
(Facultatif) Remplacements spécifiques à la langue des variables de configuration par défaut.

lang.unicharset
(Obligatoire) La liste des symboles que Tesseract reconnaît, avec des propriétés. Voir
jeu de caractères uni (5).

lang.unicharambigs
(Facultatif) Ce fichier contient des informations sur les paires de symboles reconnus qui sont
souvent confus. Par exemple, rn et m.

lang.inttemp
(Obligatoire) Modèles de forme de caractère pour chaque unichar. Produit par mfformation (1).

lang.pffmtable
(Obligatoire) Le nombre de fonctionnalités attendues pour chaque unichar. Produit par mfformation(1)
grâce au .tr fichiers.

lang.normproto
(Obligatoire) Prototypes de normalisation de caractères générés par entraînement(1) de .tr
fichiers.

lang.punc-dawg
(Facultatif) Un dawg composé de motifs de ponctuation trouvés autour des mots. La partie "mot"
est remplacé par un seul espace.

lang.word-dawg
(Facultatif) Un dawg composé de mots du dictionnaire de la langue.

lang.nombre-dawg
(Facultatif) Un dawg fabriqué à partir de jetons qui contenaient à l'origine des chiffres. Chaque chiffre est
remplacé par un espace.

lang.freq-dawg
(Facultatif) Un dawg composé des mots les plus fréquents qui seraient entrés dans
mot-dawg.

lang.fixed-length-dawgs
(Facultatif) Plusieurs dawgs de différentes longueurs fixes — utiles pour des langages comme
en chinois.

lang.cube-unicharset
(Facultatif) Un unicharset pour le cube, si le cube a été formé sur un autre ensemble de symboles.

lang.cube-mot-dawg
(Facultatif) Un mot dawg pour l'unicharset alternatif du cube. Pas nécessaire si Cube a été formé
avec l'unicharset de Tesseract.

lang.formable
(Facultatif) Lorsqu'elle est présente, une table de formes est une couche supplémentaire entre le caractère
classificateur et le reconnaisseur de mots qui permet au classificateur de caractères de renvoyer un
collection d'identifiants et de polices unichar au lieu d'un identifiant et d'une police uniques.

lang.bigram-dawg
(Facultatif) Un groupe de bigrammes de mots où les mots sont séparés par un espace et chacun
chiffre est remplacé par un ?.

lang.unambig-dawg
(Facultatif) À FAIRE : Décrivez.

lang.params-modèle-de-formation
(Facultatif) À FAIRE : Décrivez.

HISTOIRE


combiner_tessdata(1) apparu pour la première fois dans la version 3.00 de Tesseract

Utilisez combine_tessdata en ligne à l'aide des services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad




×
Publicité
❤ ️Achetez, réservez ou achetez ici — gratuitement, contribue à maintenir la gratuité des services.