InglésFrancésEspañol

Ad


icono de página de OnWorks

combine_tessdata - Online en la nube

Ejecute combine_tessdata en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando combine_tessdata que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


combine_tessdata - combinar / extraer / sobrescribir datos de Tesseract

SINOPSIS


combinar_tessdata [OPCIÓN] ARCHIVO...

DESCRIPCIÓN


combinar_tessdata(1) es el programa principal para combinar / extraer / sobrescribir componentes tessdata
en archivos [lang] .traineddata.

Para combinar todos los componentes individuales de tessdata (unicharset, DAWG, clasificador
plantillas, ambigüedades, configuraciones de idioma) ubicadas en, digamos, /casa/$ USER / temp / eng. * Ejecutar:

combinar_tessdata /casa/$ USUARIO / temp / eng.

El resultado será un archivo tessdata combinado /casa/$ USER / temp / eng.traineddata

Especifique la opción -e si desea extraer componentes individuales de una combinación
archivo de datos entrenados. Por ejemplo, para extraer el archivo de configuración de idioma y el unicharset de
tessdata / eng.traineddata ejecutar:

combine_tessdata -e tessdata / eng.traineddata \
/casa/$ USER / temp / eng.config /casa/$ USER / temp / eng.unicharset

El archivo de configuración deseado y unicharset se escribirán en /casa/$ USER / temp / eng.config
/casa/$ USER / temp / eng.unicharset

Especifique la opción -o para sobrescribir componentes individuales del archivo [lang] .traineddata dado.
Por ejemplo, para sobrescribir archivos de configuración de idioma y ambigüedades unichar en
uso de tessdata / eng.traineddata:

combine_tessdata -o tessdata / eng.traineddata \
/casa/$ USER / temp / eng.config /casa/$ USER / temp / eng.unicharambigs

Como resultado, tessdata / eng.traineddata contendrá la nueva configuración de idioma y unichar
ambigs, además de todos los DAWG originales, plantillas de clasificadores, etc.

Nota: los nombres de archivo de los archivos para extraer y sobrescribir deben tener la
sufijos de archivo apropiados (extensiones) que indican su tipo de componente tessdata
(.unicharset para unicharset, .unicharambigs para unichar ambigs, etc.). Ver k * FileSuffix
variable en ccutil / tessdatamanager.h.

Especifique la opción -u para descomprimir todos los componentes en la ruta especificada:

combine_tessdata -u tessdata / eng.traineddata /casa/$ USUARIO / temp / eng.

Esto creará /casa/$ USER / temp / eng. * Archivos con componentes tessdata individuales de
tessdata / eng.traineddata.

CAMPUS


-e .datosentrenados ARCHIVO...: extrae los componentes especificados del archivo .traineddata

-o .datosentrenados ARCHIVO...: sobrescribe los componentes especificados del archivo .traineddata con
los proporcionados en la línea de comando.

-u .datosentrenados PREFIJO DE LA RUTA Desempaqueta el .traineddata con el prefijo proporcionado.

AVISOS


Prefijo hace referencia al prefijo de archivo completo, incluido el punto (.)

COMPONENTES


Los componentes en un archivo Tesseract lang.traineddata a partir de Tesseract 3.02 son brevemente
descrito abajo; Para obtener más información sobre muchos de estos archivos, consulte
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract

idioma.config
(Opcional) Anulaciones específicas del idioma a las variables de configuración predeterminadas.

idioma.unicharset
(Obligatorio) La lista de símbolos que reconoce Tesseract, con propiedades. Ver
Unicharset(5).

idioma.unicharambigs
(Opcional) Este archivo contiene información sobre pares de símbolos reconocidos que son
a menudo confundido. Por ejemplo, rn y m.

idioma.inttemp
(Obligatorio) Plantillas de forma de personaje para cada unichar. Producido por entrenamiento(1).

idioma.pffmtable
(Obligatorio) La cantidad de características esperadas para cada unichar. Producido por entrenamiento(1)
Desde tr archivos.

idioma.normproto
(Obligatorio) Prototipos de normalización de caracteres generados por centrenamiento(1) de tr
archivos.

lang.punc-dawg
(Opcional) Un dawg hecho a partir de patrones de puntuación que se encuentran alrededor de las palabras. La parte de la "palabra"
se reemplaza por un solo espacio.

lang.word-dawg
(Opcional) Un dawg hecho a partir de palabras del diccionario del idioma.

idioma.número-dawg
(Opcional) Un dawg hecho a partir de tokens que originalmente contenían dígitos. Cada dígito es
reemplazado por un carácter de espacio.

lang.freq-dawg
(Opcional) Un dawg formado por las palabras más frecuentes que habrían entrado en
palabra-dawg.

idioma.dawgs-de-longitud-fija
(Opcional) Varios dawgs de diferentes longitudes fijas, útiles para lenguajes como
Chino.

idioma.cube-unicharset
(Opcional) Un conjunto de caracteres único para cubo, si el cubo se entrenó en un conjunto de símbolos diferente.

lang.cube-palabra-dawg
(Opcional) Una palabra dawg para unicharset alternativo del cubo. No es necesario si Cube fue entrenado
con unicharset de Tesseract.

idioma.shapetable
(Opcional) Cuando está presente, una tabla de formas es una capa adicional entre el personaje
clasificador y el reconocedor de palabras que permite que el clasificador de caracteres devuelva un
colección de unichar ids y fuentes en lugar de un solo unichar-id y fuente.

idioma.bigram-dawg
(Opcional) Un grupo de bigramas de palabras donde las palabras están separadas por un espacio y cada
el dígito se reemplaza por un ?.

lang.unambig-dawg
(Opcional) TODO: Describe.

lang.params-modelo-de-entrenamiento
(Opcional) TODO: Describe.

HISTORIA


combinar_tessdata(1) apareció por primera vez en la versión 3.00 de Tesseract

Use combine_tessdata en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

Comandos de Linux

Ad