InglésFrancésEspañol

Ad


icono de página de OnWorks

julius - Online en la nube

Ejecute julius en el proveedor de alojamiento gratuito OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando julius que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


Julius
- motor LVCSR multipropósito de código abierto

SINOPSIS


Julius [-C jconffile] [opciones...]

DESCRIPCIÓN


Julius es un motor de reconocimiento de voz de código abierto, multipropósito y de alto rendimiento para
investigadores y desarrolladores. Es capaz de realizar un reconocimiento casi en tiempo real de
habla continua con más de 60 palabras, modelo de lenguaje de 3 gramos y modelo HMM trífono, en la mayoría
PC actuales. Julius puede realizar el reconocimiento en archivos de audio, entrada de micrófono en vivo,
archivos de parámetros de funciones y entrada de red.

El módulo de reconocimiento principal se implementa como una biblioteca C llamada "JuliusLib". También puede ser
ampliado por la instalación de plug-in.

Soportado fexibles
Julius necesita un modelo de lenguaje y un modelo acústico para funcionar como un reconocedor de voz. Julius
admite los siguientes modelos.

Acústico modelo
Se admiten subpalabras HMM (modelo oculto de Markov) en formato HTK ascii. Fonema
modelos (monófono), modelos de fonemas dependientes del contexto (trífono), mezcla atada y
Se pueden utilizar modelos fonéticos de mezcla ligada de cualquier unidad. Cuando se usa dependiente del contexto
modelos, también se maneja la dependencia del contexto entre palabras. Función de transmisión múltiple y
También se admite MSD-HMM. Puede utilizar una herramienta adicional mkbinhmm convertir el ascii
Archivo HMM a un formato binario compacto para una carga más rápida.

Tenga en cuenta que Julius en sí mismo solo puede extraer características de MFCC de datos de voz. Si utiliza
HMM acústico entrenado para otra característica, debe ingresar la entrada en el parámetro HTK
archivo del mismo tipo de característica.

Idioma modelo: por el temor N-gramo
Se admite el modelo de lenguaje Word N-gram, hasta 10 gramos. Julius usa diferentes
N-gramo para cada pasada: 2 gramos de izquierda a derecha en la primera pasada y N-gramo de derecha a izquierda en
2do pase. Se recomienda utilizar tanto LR 2 gramos como RL N gramo para Julius.
Sin embargo, puede usar solo un N-gramo LR o N-gramo RL. En tal caso, aproximado
LR 2 gramos calculados a partir del N-gramo dado se aplicarán en la primera pasada.

Se admite el formato ARPA estándar. Además, un formato binario también es
apoyado para la eficiencia. La herramienta mkbingrama(1) puede convertir el formato ARPA N-gram a
formato binario.

Idioma modelo: gramática
El formato gramatical es original y herramientas para crear una gramática de reconocimiento.
están incluidos en la distribución. Una gramática consta de dos archivos: uno es un
archivo de 'gramática' que describe estructuras de oraciones en un estilo BNF, usando palabras
nombre de 'categoría' como símbolos de terminación. Otro es un archivo 'voca' que define palabras
con sus pronunciaciones (es decir, secuencias de fonemas) para cada categoría. Ellos deberían ser
convertido por mkdfa(1) a un archivo de autómata finito determinista (.dfa) y un
archivo de diccionario (.dict), respectivamente. También puede utilizar varias gramáticas.

Idioma modelo: aislado por el temor
Puede realizar el reconocimiento de palabras aisladas utilizando únicamente el diccionario de palabras. Con este
tipo de modelo, Julius realizará un reconocimiento rápido de una pasada con contexto estático
manejo. Se agregarán modelos de silencio al principio y al final de cada palabra. Usted puede
también use varios diccionarios en un proceso.

Buscar Algoritmo
Algoritmo de reconocimiento de Julius se basa en una estrategia de dos pasos. Palabra de 2 gramos y viceversa
La palabra 3 gramos se utiliza en los pases respectivos. Toda la entrada se procesa en el primer
pasar, y nuevamente el proceso de búsqueda final se realiza nuevamente para la entrada, usando el
resultado de la primera pasada para reducir el espacio de búsqueda. En concreto, el reconocimiento
El algoritmo se basa en una búsqueda heurística de trellis de árbol combinada con
búsqueda de haz sincrónico de trama y búsqueda de decodificación de pila de derecha a izquierda.

Cuando se utilizan teléfonos dependientes del contexto (trifonos), los contextos entre palabras se toman en
consideración. Para modelos de mezcla ligada y mezcla ligada fonética, acústica de alta velocidad
El cálculo de la probabilidad es posible mediante la poda gaussiana.

Para obtener más detalles, consulte los documentos relacionados.

CAMPUS


Estas opciones especifican los modelos, comportamientos del sistema y varios parámetros de búsqueda para
Julius. Estas opciones se pueden configurar en la línea de comando, pero se recomienda que escriba
en un archivo de texto como un "archivo jconf", y especifíquelo con la opción "-C".

Las aplicaciones que incorporan JuliusLib también usan estas opciones para establecer los parámetros del núcleo
motor de reconocimiento. Por ejemplo, un archivo jconf se puede cargar en enine llamando
j_config_load_file_new () con el nombre del archivo jconf como argumento.

Tenga en cuenta que las rutas relativas en un archivo jconf deben ser relativas al archivo jconf
sí mismo, no el directorio de trabajo actual.

A continuación se muestran los detalles de todas las opciones, reunidas por grupo.

Julius solicitud en línea. opción
Estas son opciones de aplicación de Julius, fuera de JuliusLib. Contiene parámetros y
conmutadores para opciones de salida de resultados, conversión de juego de caracteres, nivel de registro y modo de módulo.
Estas opciones son específicas de Julius y no se pueden usar en aplicaciones que usan JuliusLib.
que no sea Julius.

-archivo de salida
En la entrada de archivos, esta opción escribe el resultado del reconocimiento de cada archivo en un
Archivo. El archivo de salida de un archivo de entrada tendrá el mismo nombre pero el sufijo será
cambiado a ".out". (rev. 4.0)

-separatecore
Genere las partituras de idioma y acústicas por separado.

-depuración de devolución de llamada
Imprima los nombres de devolución de llamada en cada llamada para depuración. (rev. 4.0)

-charconv en a
Imprima con conversión de juego de caracteres. en es el juego de caracteres de origen utilizado en el
modelo de lenguaje, y a es el conjunto de caracteres de destino que desea obtener.

En Linux, los argumentos deben ser un nombre de código. Puede obtener la lista de disponibles
nombres de código invocando el comando "iconv --list". En Windows, los argumentos deben ser
un nombre de código o un número de página de códigos. El nombre del código debe ser "ansi", "mac", "oem",
"utf-7", "utf-8", "sjis", "euc". O puede especificar cualquier número de página de códigos admitido en
tu entorno.

-nocharconv
Desactiva la conversión de caracteres.

-módulo [Puerto]
Ejecute Julius en "Modo de módulo de servidor". Después del inicio, Julius espera la conexión tcp / ip
del cliente. Una vez establecida la conexión, Julius comienza a comunicarse con el cliente.
para procesar comandos entrantes del cliente, o para generar resultados de reconocimiento, entrada
información de activación y otro estado del sistema para el cliente. El número de puerto predeterminado es
10500.

-grabar dir
Guarde automáticamente todos los datos de voz de entrada en el directorio especificado. Cada entrada segmentada es
registrado cada uno por uno. El nombre de archivo de los datos registrados se genera a partir de la hora del sistema.
cuando finaliza la entrada, en un estilo de YYYY.MMDD.HHMMSS.wav. El formato de archivo es monoral de 16 bits
WAV. No válido para la entrada mfcfile.

Con rechazo de entrada por -rechazo corto, la entrada rechazada también se registrará incluso si
son rechazados.

-archivo de registro presentar
Guarde toda la salida del registro en un archivo en lugar de la salida estándar. (Rev.4.0)

-nolog
Desactive toda la salida del registro. (Rev.4.0)

-ayuda
Envíe el mensaje de ayuda y salga.

Buscar opciones
Estas son opciones dependientes del modelo / búsqueda relacionadas con la entrada de audio, detección de sonido, GMM,
algoritmo de decodificación, instalación de complementos y otros. Las opciones globales deben colocarse antes
cualquier declaración de instancia-SOY, -LMo -SR), o justo después de "-GLOBAL" opción.

Audio Las opciones de entrada
-aporte {mic | rawfile | mfcfile | adinnet | stdin | netaudio | alsa | oss | esd}
Elija la fuente de entrada de voz. Especifique 'archivo' o 'rawfile' para el archivo de forma de onda,
'htkparam' o 'mfcfile' para el archivo de parámetros HTK. En la entrada de archivos, los usuarios serán
se le solicita que ingrese el nombre de archivo de stdin, o puede usar -lista de archivos opción de
especificar lista de archivos para procesar.

´mic 'es obtener entrada de audio de un dispositivo de micrófono en vivo predeterminado, y' adinnet '
significa recibir datos de forma de onda a través de la red tcpip desde un cliente de adinnet.
'netaudio' es de la entrada DatLink / NetAudio, y 'stdin' significa entrada de datos desde
entrada estándar.

Para la entrada de archivos de forma de onda, solo WAV (sin compresión) y RAW (sin encabezado, 16 bits, grande
endian) son compatibles de forma predeterminada. Se puede leer otro formato cuando se compila con
biblioteca libsnd. Para ver qué formato es realmente compatible, consulte el mensaje de ayuda
usando la opción -ayuda. Para la entrada estándar, solo se admiten WAV y RAW. (defecto:
archivo mfc)

En Linux, puede elegir API en tiempo de ejecución especificando alsa, oss y esd.

-tamaño de porción cualquier
Tamaño del fragmento de audio en número de muestras. (predeterminado: 1000)

-lista de archivos nombre de archivo
(Con -aporte rawfile | mfcfile) realizar el reconocimiento en todos los archivos enumerados en el
Archivo. El archivo debe contener un archivo de entrada por línea. El motor se detendrá cuando todos
se procesan los archivos.

-notypecheck
Por defecto, Julius comprueba el tipo de parámetro de entrada si coincide con AM o
no. Esta opción deshabilitará la verificación y obligará al motor a usar el vector de entrada
como es.

-48
Grabe la entrada con muestreo de 48 kHz y haga un muestreo descendente a 16 kHz sobre la marcha. Esta
La opción es válida solo para el modelo de 16 kHz. La rutina de muestreo descendente se transfirió de
spkt. (Apocalipsis 4.0)

-N / A nombre del dispositivo
Nombre de host para la entrada del servidor DatLink (-aporte netaudio).

-aportar número de puerto
Con -aporte adnet, especifique el número de puerto de adinnet para escuchar. (predeterminado: 5530)

-cinta
Julius elimina por defecto muestras de cero sucesivas en los datos de voz de entrada. Esta
opción inhibe la eliminación.

-zmedia , -nozmedia
Esta opción habilita / deshabilita la eliminación de compensación de CC de la forma de onda de entrada. La compensación será
estimado a partir de toda la entrada. Para entrada de micrófono / red, media cero del
Las primeras 48000 muestras (3 segundos en muestreo de 16 kHz) se utilizarán para
Estimacion. (predeterminado: desactivado)

Esta opción utiliza un desplazamiento estático para el canal. Ver también -zmediafuente para
Eliminación de desplazamiento en el marco.

Speech detección by nivel y cruce por cero
-cortesilencio , -sin cortesilencio
Activar / desactivar la detección de voz por nivel y cruce por cero. El valor predeterminado está activado para
entrada mic / adinnet y desactivado para archivos.

-lv tres
Umbral de nivel para la detección de entrada de voz. Los valores deben estar en el rango de 0 a
32767. (predeterminado: 2000)

-zc tres
Umbral de cruce por cero por segundo. Única entrada que supera el nivel
umbral (-lv) serán contados. (predeterminado: 60)

-margen de cabeza mseg
Margen de silencio al comienzo del segmento de voz en milisegundos. (predeterminado: 300)

-margen de cola mseg
Margen de silencio al final del segmento de voz en milisegundos. (predeterminado: 400)

Entrada rechazo
Se implementan dos métodos simples de rechazo de entrada de front-end, basados ​​en la longitud de entrada
y potencia media del segmento detectado. El rechazo por potencia media es
experimental, y se puede habilitar mediante --enable-power-accept en la compilación. Valido para
Función MFCC con coeficiente de potencia y entrada en tiempo real únicamente.

Para el rechazo de entrada basado en GMM, consulte la sección GMM a continuación.

-rechazo corto mseg
Rechazar una entrada más corta que los milisegundos especificados. La búsqueda se terminará y
no se emitirá ningún resultado.

-powerthres tres
Rechace el segmento introducido por su energía media. Si la energía media del
La última entrada reconocida está por debajo del umbral, Julius rechazará la entrada.
(Rev.4.0)

Esta opción es válida cuando se especifica --enable-power-accept en la compilación
en las transacciones.

Gauss mezcla modelo / GMM-VAD
GMM se utilizará para el rechazo de entrada por puntuación acumulada o para el front-end
VAD basado en GMM cuando se especifica --enable-gmm-vad.

NOTA: También debe configurar los parámetros MFCC adecuados requeridos para el GMM,
especificando los parámetros acústicos descritos en la sección AM -AM_GMM.

Cuando se habilita el VAD basado en GMM, la puntuación de actividad de voz se calculará en cada
frame como procesamiento de front-end. El valor se calculará como \ [\ max_ {m \ in M_v}
p (x | m) - \ max_ {m \ in M_n} p (x | m) \] donde $ M_v $ es un conjunto de voz GMM y $ M_n $ es
un conjunto de ruido GMM cuyos nombres deben ser especificados por -gmmrechazar. La actividad
La puntuación se promediará para los últimos N fotogramas, donde N se especifica mediante
-gmmmargen. Julius actualiza la puntuación de actividad promedio en cada fotograma y detecta
Disparo de voz cuando el valor es mayor que un valor especificado por -gmmupy
Detecgt down-trigger cuando es menor que un valor de -gmmabajo.

-gmm archivo_hmmdefs
Archivo de definición GMM en formato HTK. Si se especifica, verificación de entrada basada en GMM
se realizará al mismo tiempo que la primera pasada, y puede rechazar la entrada
según el resultado especificado por -gmmrechazar. El GMM debe definirse como
HMM de un estado.

-gmmnum número
Número de componentes gaussianos que se calcularán por fotograma en el cálculo de GMM. Solo
los N mejores gaussianos se calcularán para un cálculo rápido. El valor predeterminado es 10
y especificar un valor más pequeño acelerará el cálculo de GMM, pero un valor demasiado pequeño
(1 o 2) puede provocar una degradación del rendimiento de la identificación.

-gmmrechazar cadena
Lista separada por comas de nombres de GMM que se rechazarán como entrada no válida. Cuándo
reconocimiento, las probabilidades logarítmicas de GMM acumuladas para toda la entrada
ser calculado al mismo tiempo que el primer paso. Si el nombre de GMM de la puntuación máxima
está dentro de esta cadena, la segunda pasada no se ejecutará y la entrada será
rechazado.

-gmmmargen marcos
(GMM_VAD) Margen de cabeza en fotogramas. Cuando un disparador de voz detectado por GMM,
el reconocimiento comenzará desde el cuadro actual menos este valor. (Rev.4.0)

Esta opción será válida solo si se compila con --enable-gmm-vad.

-gmmup propuesta de
(GMM_VAD) Umbral de activación superior de la puntuación de actividad de voz. (Rev.4.1)

Esta opción será válida solo si se compila con --enable-gmm-vad.

-gmmabajo propuesta de
(GMM_VAD) Umbral de activación descendente de la puntuación de actividad de voz. (Rev.4.1)

Esta opción será válida solo si se compila con --enable-gmm-vad.

Descodificación opción
El procesamiento en tiempo real significa el procesamiento simultáneo del primer paso del cálculo de MFCC
descodificación. De forma predeterminada, el procesamiento en tiempo real en el pase está activado para micrófono /
entrada adinnet / netaudio y para otros.

-tiempo real , -norealtime
Activar / desactivar explícitamente el procesamiento en tiempo real (canalización) en la primera pasada.
El valor predeterminado está desactivado para la entrada de archivos y activado para el micrófono, adinnet y NetAudio.
aporte. Esta opción se relaciona con la forma en que se realiza el CMN y la normalización energética:
si están desactivados, se realizarán utilizando características promedio de toda la entrada. Si está activado, MAP-CMN
y normalización de energía para realizar un procesamiento en tiempo real.

Otra información. opciones
-C jconffile
Cargue un archivo jconf aquí. El contenido del jconffile se ampliará en este
punto.

-versión
Imprima la información de la versión en error estándar y salga.

-configuración
Imprima la información de configuración del motor a error estándar y salga.

-tranquilo
Salida menos registro. Para obtener resultados, solo se imprimirá la mejor secuencia de palabras.

-depurar
(Para depuración) genera un enorme mensaje interno e información de depuración para registrar.

-cheque {wchmm | trellis | triphone}
Para depurar, ingrese al modo de verificación interactiva.

-plugindir lista de direcciones
Especifique el directorio para cargar el complemento. Si existen varios directorios, especifíquelos por
lista separada por dos puntos.

Ejemplo declaración para múltiples descodificación
Los siguientes argumentos crearán un nuevo conjunto de configuración con parámetros predeterminados, y
cambie el ajuste actual a él. Los parámetros de Jconf especificados después de la opción se establecerán en el
conjunto actual.

Para realizar una decodificación de varios modelos, estos argumentos deben especificarse al principio de cada modelo.
/ buscar instancias con diferentes nombres. Cualquier opción antes de la definición de la primera instancia
será IGNORADO.

Cuando no se encuentra una definición de instancia (como la versión anterior de Julius), todas las opciones son
asignado a una instancia predeterminada llamada _default.

Tenga en cuenta que la decodificación con un solo LM y varios AM no es totalmente compatible. Para
Por ejemplo, es posible que desee construir el archivo jconf de la siguiente manera.
Este tipo de uso compartido de modelos aún no se admite, ya que una parte del procesamiento LM depende
en el AM asignado. En cambio, puede obtener el mismo resultado definiendo los mismos LM para cada
AM, así:

-SOY nombre
Cree un nuevo conjunto de configuración de AM y cambie la corriente al nuevo. Deberías dar un
nombre único. (Rev.4.0)

-LM nombre
Cree un nuevo conjunto de configuración de LM y cambie el actual al nuevo. Deberías dar un
nombre único. (Rev.4.0)

-SR nombre soy_nombre nombre_lm
Cree un nuevo conjunto de configuración de búsqueda y cambie el actual al nuevo. El especificado
Se le asignarán AM y LM. El soy_nombre y nombre_lm puede ser nombre o ID
número. Deberías dar un nombre único. (Rev.4.0)

-AM_GMM
Al utilizar GMM para el procesamiento de front-end, puede especificar acústica específica de GMM
parámetros después de esta opción. Si no especifica -AM_GMM con GMM, el GMM
comparten el mismo vector de parámetros que el último AM. El AM actual se cambiará al
GMM uno, así que tenga cuidado de no confundirlo con las configuraciones AM normales. (Rev.4.0)

-GLOBAL
Inicie una sección global. Las opciones globales deben colocarse antes de cualquier instancia
declaración, o después de esta opción en el reconocimiento de modelos múltiples. Esto se puede utilizar
varias veces. (Rev.4.1)

-comprobación de la nariz , -sección de verificación
Deshabilite / habilite la verificación de ubicación de la opción en la decodificación de múltiples modelos. Cuando está habilitado, el
Las opciones entre la declaración de instancia se tratan como "secciones" y solo las
se pueden escribir tipos de opciones. Por ejemplo, cuando una opción -SOY se especifica, solo el AM
La opción relacionada se puede colocar después de la opción hasta que se encuentre otra declaración. También,
las opciones globales deben colocarse en la parte superior, antes de cualquier declaración de instancia. Esto es
habilitado por defecto. (Rev.4.1)

Idioma modelo (-LM)
Este grupo contiene opciones para la definición del modelo de cada tipo de modelo de lenguaje. Cuando usas
múltiples LM, una instancia solo puede tener un LM.

Solo se puede especificar un tipo de LM para una configuración de LM. Si desea utilizar varios
modelo, debe definirlos como un nuevo LM.

N-gramo
-d archivo_bingram
Utilice el formato binario N-gram. Un archivo ARPA N-gram se puede convertir a binario Julius
formato de mkbingram.

-nlr archivo_arpa_ngram
Un modelo de lenguaje N-gram avanzado, de izquierda a derecha en formato ARPA estándar. Cuándo
se especifican tanto un N-gramo hacia adelante como hacia atrás, Julius usa este
2 gramos hacia adelante para la primera pasada y N-gramo hacia atrás para la segunda pasada.

Dado que el archivo ARPA a menudo se vuelve enorme y requiere mucho tiempo para cargarse, puede ser
mejor convertir el archivo ARPA a formato binario Julius por mkbingram. Tenga en cuenta que
Si se utiliza N-grama tanto hacia adelante como hacia atrás para el reconocimiento, juntos
convertirse en un solo binario.

Cuando solo se especifica un N-grama hacia adelante con esta opción y no hacia atrás N-grama
especificado por -nrl, Julius realiza el reconocimiento solo con el N-grama hacia adelante. El
El primer pase utilizará la entrada de 1 gramos en el N-gramo dado, y el segundo pase
usar el N-gramo dado, con la conversión de probabilidades hacia adelante en hacia atrás
probabilidades según la regla de Bayes. (Rev.4.0)

-nrl archivo_arpa_ngram
Un modelo de lenguaje N-gram hacia atrás, de derecha a izquierda en formato ARPA estándar. Cuándo
se especifican tanto un N-gramo hacia adelante como hacia atrás, Julius usa el
2 gramos para la primera pasada, y este N-gramo hacia atrás para la segunda pasada.

Dado que el archivo ARPA a menudo se vuelve enorme y requiere mucho tiempo para cargarse, puede ser
mejor convertir el archivo ARPA a formato binario Julius por mkbingram. Tenga en cuenta que
Si se utiliza N-grama tanto hacia adelante como hacia atrás para el reconocimiento, juntos
convertirse en un solo binario.

Cuando solo se especifica un N-gramo hacia atrás con esta opción y ningún N-grama hacia adelante
especificado por -nlr, Julius realiza el reconocimiento solo con el N-grama hacia atrás.
La primera pasada utilizará la probabilidad de 1 gramos hacia adelante calculada a partir de la
2 gramos usando la regla de Bayes. La segunda pasada usa completamente el N-gramo hacia atrás dado.
(Rev.4.0)

-v archivo_dict
Archivo de diccionario de palabras.

-silhead cadena_de_palabras -siltail cadena_de_palabras
Silencio palabra definida en el diccionario, para silencios al comienzo de
frase y final de frase. (predeterminado: " ", " ")

-mapunk cadena_de_palabras
Especifique una palabra desconocida. El valor predeterminado es " " o " ". Esto se utilizará para asignar
probabilidad de palabras en palabras desconocidas, es decir, palabras en el diccionario que no están en
Vocabulario de N-gram.

-iwsppalabra
Agregue una entrada de palabra al diccionario que debe corresponder a las pausas entre palabras.
Esto puede mejorar la precisión del reconocimiento en algunos modelos de lenguaje que no tienen
Modelado explícito de pausas entre palabras. La entrada de palabra que se agregará se puede cambiar mediante
-iwpentry.

-iwpentry palabra_entrada_cadena
Especifique la entrada de palabra que agregará -iwsppalabra. (defecto: " [sp] sp
sp ")

-sepnum número
Número de palabras de alta frecuencia que se deben aislar del árbol de léxico, para facilitar
error de aproximación que puede ser causado por la mejor aproximación en el 1er.
aprobar. (predeterminado: 150)

Gramática
Se pueden especificar varias gramáticas repitiendo -gramo y -lista de gramática. Tenga en cuenta que esto
es un comportamiento inusual de otras opciones (en la opción Julius normal, la última
anular los anteriores). Puedes usar -nograma para restablecer las gramáticas ya
especificado antes del punto.

-gramo gramprefix1 [, gramprefix2 [, gramprefix3, ...]]
Lista de gramáticas separadas por comas que se utilizarán. el argumento debe ser un prefijo de
una gramática, es decir, si tienes foo.dfa y foo.dict, debe especificarlos con un
único argumento foo. Se pueden especificar varias gramáticas a la vez como
lista separada por comas.

-lista de gramática lista_archivo
Especifique un archivo de lista de gramática que contenga la lista de gramáticas que se utilizarán. La lista
El archivo debe contener los prefijos de las gramáticas, cada uno por línea. Un camino relativo en
el archivo de lista se tratará como relativo al archivo, no a la ruta actual o
archivo de configuración.

-dfa archivo_dfa -v archivo_dict
Una forma antigua de especificar archivos gramaticales por separado. Esto es falso y no debería
ser utilizado más.

-nograma
Elimina la lista actual de gramáticas ya especificada por -gramo, -lista de gramática, -dfa
y -v.

Aislado por el temor
El diccionario se puede especificar usando -w y -lista. Cuando especifica varios
veces, todos ellos se leerán al inicio. Puedes usar -nograma para restablecer el
diccionarios ya especificados en ese momento.

-w archivo_dict
Diccionario de palabras para el reconocimiento de palabras aisladas. El formato de archivo es el mismo que otros
LM. (Rev.4.0)

-lista lista_archivo
Especifique un archivo de lista de diccionarios que contenga la lista de diccionarios que se utilizarán.
El archivo de lista debe contener el nombre de archivo de los diccionarios, cada uno por línea. A
La ruta relativa en el archivo de lista se tratará como relativa al archivo de lista, no
la ruta actual o el archivo de configuración. (Rev.4.0)

-nograma
Elimina la lista actual de diccionarios ya especificada por -w y -lista.

-wil head_sil_nombre_modelo nombre_modelo_tail_sil nombre_contexto_sil
En el reconocimiento de palabras aisladas, se agregarán modelos de silencio a la cabeza y
cola de cada palabra en el reconocimiento. Esta opción especifica los modelos de silencio que se
adjunto. nombre_contexto_sil es el nombre del modelo head sil y el modelo tail sil
como contexto de word head phone y tail phone. Por ejemplo, si especifica
-wsil silB silE sp, una palabra con secuencia telefónica b eh t se traducirá como silB
sp-b + eh b-eh + t eh-t + sp silE. (Rev.4.0)

Usuario definido LM
-usuario
Declare utilizar funciones LM de usuario en el programa. Esta opción debe especificarse
si utiliza funciones LM definidas por el usuario. (Rev.4.0)

Otra información. LM opciones
-dicto forzado
Omita las palabras de error en el diccionario y fuerce la ejecución.

Acústico modelo y característica análisis (-SOY) (-AM_GMM)
Esta sección trata sobre las opciones para el modelo acústico, extracción de características, características
normalizaciones y resta espectral.

Después del nombre -AM, se debe escribir un modelo acústico y la especificación relacionada. Puedes usar
múltiples AM entrenados con diferentes tipos de MFCC. Para GMM, la condición de parámetro requerida
debe especificarse de la misma manera que los AM después -AM_GMM.

Cuando se utilizan varios AM, los valores de -smpPeríodo, -smpFreq, -ftamaño y -fshift debiera ser
lo mismo entre todos los MA.

Acústico HMM
-h archivo_hmmdef
Archivo de definición de HMM acústico. Debe estar en formato ascii HTK o binario Julius
formato. Puede convertir el formato ascii HTK al formato binario Julius usando mkbinhmm.

-hlista archivo_hmmlist
Archivo HMMList para mapeo telefónico. Este archivo proporciona mapeo entre lógica
nombres de triphone generados en el diccionario y los nombres HMM definidos en hmmdefs.
Esta opción debe especificarse para el modelo dependiente del contexto.

-tmix número
Especifique el número de gaussianos superiores que se calcularán en un libro de códigos de mezcla.
Un número pequeño acelerará el cálculo acústico, pero la precisión de AM puede ser
peor con un valor demasiado pequeño. Ver también -gpoda. (predeterminado: 2)

-spmodelo nombre
Especifique el nombre del modelo HMM que corresponda a una pausa corta en un enunciado. El
El nombre del modelo de pausa corta se utilizará como reconocimiento: salto de pausa corta en
reconocimiento gramatical, inserción de modelo de pausa corta al final de la palabra con -iwsp en N-gram,
o segmentación de pausa corta (-segmento). (predeterminado: "sp")

-multitrayecto
Habilite el modo de ruta múltiple. Para hacer la decodificación más rápida, Julius impone por defecto un
límite en las transiciones HMM que cada modelo debe tener solo una transición desde
estado inicial y estado final. En el modo de rutas múltiples, Julius realiza un manejo adicional
en la transición entre modelos para permitir la transición de salto de modelo y múltiples
transiciones de salida / entrada. Tenga en cuenta que especificar esta opción convertirá a Julius en un
un poco más lento, y es posible que se requiera un ancho de haz mayor.

Esta función era una opción en tiempo de compilación en Julius 3.xy ahora se convierte en una
opción de tiempo de ejecución. De forma predeterminada (sin esta opción), Julius comprueba la transición
tipo de HMM especificados y habilite el modo de ruta múltiple si es necesario. Usted puede
forzar el modo de ruta múltiple con esta opción. (rev. 4.0)

-gpoda {seguro | heurístico | haz | ninguno | predeterminado}
Configure el algoritmo de poda gaussiano que se utilizará. Para el modelo de mezcla ligada, Julius realiza
Poda gaussiana para reducir el cálculo acústico, calculando solo el N superior
Gaussianos en cada libro de códigos en cada fotograma. Se establecerá la configuración predeterminada
según el tipo de modelo y el reglaje del motor. por defecto obligará a aceptar
la configuración predeterminada. Establezca esto en none para deshabilitar la poda y realizar
cálculo. safe garantiza el cálculo de los N gaussianos superiores. heurístico y
haz una reducción de costos computacional más agresiva, pero puede resultar en una pequeña
modelo de pérdida de precisión (predeterminado: seguro (estándar), haz (rápido) para mezcla atada
modelo, ninguno para el modelo de mezcla no ligada).

-iwcd1 {max | avg | mejor número}
Seleccione el método para aproximar el trífono entre palabras al principio y al final de una palabra
en la primera pasada.

max aplicará la probabilidad máxima de trifonos del mismo contexto. media voluntad
Aplicar la probabilidad media de trifonos del mismo contexto. el mejor número lo hará
Aplicar el promedio de las N mejores probabilidades del mismo trófono de contexto.

El valor predeterminado es el mejor 3 para usar con N-gram y avg para gramática y palabra. Cuando esto
AM es compartido por LM de ambos tipos, se elegirá el último.

-iwspenalty flotar
Penalización de inserción para pausas breves al final de la palabra agregadas por -iwsp.

-gshmm archivo_hmmdef
Si se especifica esta opción, Julius realiza la selección de mezcla gaussiana para
decodificación eficiente. Las hmmdefs deben ser un modelo monofónico generado a partir de un
Modelo HMM monófono ordinario, utilizando mkgshmm.

-gsnum número
En GMS, especifique el número de estados monofónicos para calcular los trifonos correspondientes en
detalle. (predeterminado: 24)

Speech análisis
Solo la extracción de características de MFCC es compatible con Julius actual. Así, al reconocer
una entrada de forma de onda desde un archivo o micrófono, AM debe ser entrenado por MFCC. El parámetro
La condición también debe establecerse exactamente igual que la condición de entrenamiento por el
opciones a continuación.

Cuando da una entrada en el archivo de parámetro HTK, puede usar cualquier tipo de parámetro para
SOY. En este caso, a Julius no le importa el tipo de función de entrada y AM, solo
léalos como una secuencia de vectores y combínelos con el AM dado. Julius solo comprueba
si los tipos de parámetros son los mismos. Si no funciona bien, puede desactivar
esta comprobación por -notypecheck.

En Julius, el tipo de parámetro y los calificadores (como TARGETKIND en HTK) y el número
de parámetros cepstrales (NUMCEPS) se establecerán automáticamente a partir del contenido de la
Encabezado AM, por lo que no es necesario especificarlos mediante opciones.

Otros parámetros deben establecerse exactamente igual que la condición de entrenamiento. Tú también puedes
dar un archivo de configuración HTK que usó para entrenar AM a Julius por -htkconf. Cuando esto
se aplica la opción, Julius analizará el archivo de configuración y establecerá el parámetro apropiado.

Puede incrustar aún más la configuración de los parámetros de análisis en un archivo HMM binario utilizando
mkbinhmm.

Si las opciones se especifican de varias formas, se evaluarán en el orden siguiente.
El parámetro integrado AM se cargará primero si lo hay. Luego, el archivo de configuración HTK
dada por -htkconf será analizado. Si un valor ya establecido por AM valor incorporado, HTK
config los anulará. Por fin, se cargarán las opciones directas, que
anular la configuración cargada antes. Tenga en cuenta que, cuando se especifican las mismas opciones
varias veces, más tarde anulará la anterior, excepto que -htkconf será evaluado
primero como se describe arriba.

-smpPeríodo período
Período de muestreo del habla de entrada, en unidades de 100 nanosegundos. La tasa de muestreo puede
también ser especificado por -smpFreq. Tenga en cuenta que la frecuencia de entrada debe ser
establecer igual a las condiciones de entrenamiento de AM. (predeterminado: 625, corresponde a
16,000Hz)

Esta opción corresponde a la opción HTK SOURCERATE. El mismo valor puede ser
dado a esta opción.

Cuando se utilizan varios AM, este valor debe ser el mismo entre todos los AM.

-smpFreq Hz
Establezca la frecuencia de muestreo del habla de entrada en Hz. La tasa de muestreo también se puede
especificado usando -smpPeríodo. Tenga en cuenta que esta frecuencia debe establecerse igual
a las condiciones de entrenamiento de AM. (predeterminado: 16,000)

Cuando se utilizan varios AM, este valor debe ser el mismo entre todos los AM.

-ftamaño núm_muestra
Tamaño de ventana en número de muestras. (predeterminado: 400)

Esta opción corresponde a la opción HTK WINDOWSIZE, pero el valor debe estar en
muestras (valor HTK / smpPeriod).

Cuando se utilizan varios AM, este valor debe ser el mismo entre todos los AM.

-fshift núm_muestra
Cambio de cuadro en el número de muestras. (predeterminado: 160)

Esta opción corresponde a la opción HTK TARGETRATE, pero el valor debe estar en
muestras (valor HTK / smpPeriod).

Cuando se utilizan varios AM, este valor debe ser el mismo entre todos los AM.

-preempf flotar
Coeficiente de preacentuación. (predeterminado: 0.97)

Esta opción corresponde a la Opción HTK PREEMCOEF. Se puede dar el mismo valor
a esta opción.

-fbanco número
Número de canales del banco de filtros. (predeterminado: 24)

Esta opción corresponde a la opción HTK NUMCHANS. Se puede dar el mismo valor
a esta opción. Tenga en cuenta que el valor predeterminado no es el mismo que en HTK (22).

-cepif número
Coeficiente de levantamiento cepstral. (predeterminado: 22)

Esta opción corresponde a la Opción HTK CEPLIFTER. Se puede dar el mismo valor
a esta opción.

-crudo , -norawe
Habilitar / deshabilitar el uso de energía bruta antes del énfasis previo (predeterminado: deshabilitado)

Esta opción corresponde a la opción HTK RAWENERGY. Tenga en cuenta que el valor predeterminado
el valor difiere de HTK (habilitado en HTK, deshabilitado en Julius).

-enormal , -no normal
Activar / desactivar la normalización de la energía del registro. En la entrada en vivo, esta normalización será
aproximado del promedio de la última entrada. (predeterminado: desactivado)

Esta opción corresponde a la opción HTK ENORMALISE. Tenga en cuenta que el valor predeterminado
el valor difiere de HTK (habilitado en HTK, deshabilitado en Julius).

-escala escala_flotante
Factor de escala de la energía logarítmica al normalizar la energía logarítmica. (predeterminado: 1.0)

Esta opción corresponde a la opción HTK ESCALE. Tenga en cuenta que el valor predeterminado
el valor difiere de HTK (0.1).

-suelo flotar
Piso de silencio energético en dB al normalizar la energía de logaritmo. (predeterminado: 50.0)

Esta opción corresponde a la opción HTK SILFLOOR.

-delwin marco
Tamaño de ventana delta en número de marcos. (predeterminado: 2)

Esta opción corresponde a la opción HTK DELTAWINDOW. El mismo valor puede ser
dado a esta opción.

-acwin marco
Tamaño de la ventana de aceleración en número de fotogramas. (predeterminado: 2)

Esta opción corresponde a la opción HTK ACCWINDOW. Se puede dar el mismo valor
a esta opción.

-alta frecuencia Hz
Habilite la limitación de banda para el cálculo del banco de filtros MFCC: establezca la frecuencia superior
cortar. El valor de -1 lo desactivará. (predeterminado: -1)

Esta opción corresponde a la opción HTK HIFREQ. Se puede dar el mismo valor a
esta opción.

-lofreq Hz
Habilite la limitación de banda para el cálculo del banco de filtros MFCC: establezca una frecuencia más baja
cortar. El valor de -1 lo desactivará. (predeterminado: -1)

Esta opción corresponde a la opción HTK LOFREQ. Se puede dar el mismo valor a
esta opción.

-zmeanframe , -nozmeanframe
Con la entrada de voz, esta opción habilita / deshabilita la eliminación de compensación de CC por cuadro.
Esto corresponde a la configuración HTK ZMEANSOURCE. Esto no se puede usar en conjunto
-zmedia. (predeterminado: desactivado)

-utilizar el poder
Utilice potencia en lugar de magnitud en el análisis de bancos de filtros. (predeterminado: desactivado)

Normalización
Julius puede realizar la normalización media cepstral (CMN) para las entradas. CMN será
activado cuando el AM dado fue entrenado con CMN (es decir, tiene el calificador "_Z" en el
encabezamiento).

La media cepstral se estimará de diferente forma según el tipo de entrada.
En la entrada del archivo, la media se calculará a partir de toda la entrada. En entrada en vivo como
como entrada de micrófono y de red, la media cepal de la entrada se desconoce en el
comienzo. Entonces se usará MAP-CMN. En MAP-CMN, se aplicará un vector medio inicial
al principio, y el vector medio se difuminará a la media del
incrementando el vector de entrada a medida que avanza la entrada. Las siguientes opciones pueden controlar el comportamiento de
MAPA-CMN.

-cvn
Habilite la normalización de la varianza cepstral. En la entrada del archivo, la varianza de todo
la entrada se calculará y luego se aplicará. En la entrada de micrófono en vivo, variación de
se aplicará la última entrada. CVN solo es compatible con una entrada de audio.

-vtln alfa Corte bajo hipo
Realice deformaciones de frecuencia, normalmente para una normalización de la longitud del tracto vocal (VTLN).
Los argumentos son factor de deformación, corte de alta frecuencia y baja frecuencia. cortar. Ellos
corresponden a los valores de HTK Config, WARPFREQ, WARPHCUTOFF y WARPLCUTOFF.

-cmncargar presentar
Cargue el vector medio cepstral inicial desde el archivo al inicio. El presentar debería ser uno
salvado por -cmsave. La carga de una media cepstral inicial permite a Julius mejorar
reconocer el primer enunciado en una entrada en tiempo real. Cuando se usa junto con
-cmnnoupdate, este valor inicial se utilizará para todas las entradas.

-cmsave presentar
Guarde el vector medio cepstral calculado en presentar. Los parámetros se guardarán
en cada extremo de entrada. Si el archivo de salida ya existe, se anulará.

-cmnactualizar -cmnnoupdate
Controle si actualizar la media cepstral en cada entrada en la entrada en tiempo real.
Deshabilitando esto y especificando -cmncargar hará que el motor utilice siempre el cargado
media cepstral inicial estática.

-cmnmappeso flotar
Especifique el peso de la media cepstral inicial para MAP-CMN. Especifique un valor mayor para
retener la media cepstral inicial durante un período más largo, y un valor menor para hacer
la media cepstral depende más de la entrada de corriente. (predeterminado: 100.0)

Interfaz tratamiento
Julius puede realizar una resta espectral para reducir algo de ruido estacionario del audio
aporte. Aunque no es un método poderoso, puede funcionar en alguna situación.
Julius tiene dos formas de estimar el espectro de ruido. Una forma es asumir que la primera
El segmento corto de una entrada de voz es un segmento de ruido y estima el espectro de ruido.
como el promedio del segmento. Otra forma es calcular el espectro promedio de
entrada de solo ruido con otra herramienta mkss y cárguela en Julius. El primero es
popular para la entrada de archivos de voz, y este último debería usarse en la entrada en vivo. Las opciones
a continuación cambiará / controlará el comportamiento.

-sscalc
Realice una resta espectral utilizando la parte principal de cada archivo como parte de silencio. El
La longitud de la parte de la cabeza debe especificarse mediante -sscalclen. Válido solo para la entrada de archivos.
Conflicto con -sscargar.

-sscalclen mseg
Con -sscalc, especifique la longitud del silencio de la cabeza para la estimación del espectro de ruido
en milisegundos. (predeterminado: 300)

-sscargar presentar
Realice una resta espectral para la entrada de voz utilizando un espectro de ruido estimado previamente
cargado desde presentar. El archivo de espectro de ruido puede ser creado por mkss. Valido para todos
entrada de voz. Conflicto con -sscalc.

-salfa flotar
Coeficiente alfa de resta espectral para -sscalc y -sscargar. El ruido sera
restado más fuerte a medida que este valor aumenta, pero la distorsión de la resultante
la señal también se vuelve notable. (predeterminado: 2.0)

-suelo flotar
Coeficiente de suelo de sustracción espectral. El poder espectral que va por debajo
cero después de la resta será sustituido por la señal fuente con este
coeficiente multiplicado. (predeterminado: 0.5)

Otra información. AM opciones
-htkconf presentar
Analice el archivo de configuración HTK dado y establezca los parámetros correspondientes en Julius.
Al usar esta opción, los valores de los parámetros predeterminados se cambian de Julius
predeterminado a los valores predeterminados de HTK.

Reconocimiento y Buscar (-SR)
Esta sección contiene opciones para los parámetros de búsqueda en el 1er / 2do paso, como el haz
ancho y pesos LM, configuraciones para segmentación de pausa corta, interruptores por palabra
salida de celosía y salida de red de confusión, alineaciones forzadas y otras opciones relacionadas
proceso de reconocimiento y salida de resultados.

Los valores predeterminados para el ancho del haz y los pesos LM cambiarán según la configuración del tiempo de compilación
de JuliusLib, tipo de modelo AM y tamaño LM. Consulte el registro de inicio para conocer el
valores.

1 pass parámetros
-lmp peso multa
(N-gram) Pesos del modelo de lenguaje y penalizaciones por inserción de palabras para la primera pasada.

-penalización1 multa
(Gramática) penalización por inserción de palabras en la primera pasada. (predeterminado: 0.0)

-b anchura
Ancho de haz en número de nodos HMM para la transmisión de rango en la primera pasada. Este valor
define el ancho de búsqueda en la primera pasada y tiene un efecto dominante en el total
Tiempo de procesamiento. Un ancho más pequeño acelerará la decodificación, pero un valor demasiado pequeño
resultará en un aumento sustancial de errores de reconocimiento debido a la búsqueda
falla. Un valor mayor hará que la búsqueda sea estable y conducirá a una búsqueda libre de fallas.
búsqueda, pero el tiempo de procesamiento aumentará en proporción al ancho.

El valor predeterminado depende del tipo de modelo acústico: 400 (monófono), 800
(triphone) o 1000 (triphone, setup = v2.1)

-nlímite número
Límite superior de token por nodo. Esta opción es válida cuando --enable-wpair y
--enable-wpair-nlimit están habilitados en el momento de la compilación.

-progout
Habilite la salida progresiva de los resultados parciales en la primera pasada.

-progintervalo mseg
Establecer el intervalo de tiempo para -progout en milisegundos. (predeterminado: 300)

2nd pass parámetros
-lmp2 peso multa
(N-grama) Pesos del modelo de lenguaje y penalizaciones por inserción de palabras para el segundo
pasar.

-penalización2 multa
(Gramática) penalización por inserción de palabras para la segunda pasada. (predeterminado: 0.0)

-b2 anchura
Ancho de haz envolvente (número de hipótesis) en la segunda pasada. Si el recuento de
La expansión de palabras en una cierta longitud de hipótesis alcanza este límite mientras que la búsqueda,
las hipótesis más breves no se amplían más. Esto evita que la búsqueda caiga en
Situación similar a la amplitud que se apila en la misma posición y mejora la búsqueda
falla principalmente por condición de vocabulario extenso. (predeterminado: 30)

-sb flotar
Anchura del sobre de puntuación para puntuación envuelta. Al calcular la puntuación de hipótesis
para cada hipótesis generada, su expansión de espaldera y el funcionamiento de Viterbi
ser podado en medio del discurso si la puntuación en un marco va por debajo del ancho.
Dar un valor pequeño hace que la segunda pasada sea más rápida, pero el error de cálculo puede
ocurrir. (predeterminado: 80.0)

-s número
Tamaño de pila, es decir, el número máximo de hipótesis que se pueden almacenar en el
apilar durante la búsqueda. Un valor mayor puede dar resultados más estables, pero
aumenta la cantidad de memoria necesaria. (predeterminado: 500)

-m contar
Número de hipótesis ampliadas necesarias para interrumpir la búsqueda. Si el numero
de hipótesis expandidas es mayor que este umbral, entonces, la búsqueda es
descontinuado en ese momento. Cuanto mayor sea este valor, más tiempo llegará Julius a
renunciar a la búsqueda. (predeterminado: 2000)

-n número
El número de candidatos que Julius intenta encontrar. La búsqueda continúa hasta este
Se han encontrado varias hipótesis de oraciones. Las hipótesis de oración obtenidas
se ordenan por puntuación, y el resultado final se muestra en el orden (consulte también el
-producción). La posibilidad de que la hipótesis óptima se encuentre correctamente
aumenta a medida que aumenta este valor, pero el tiempo de procesamiento también se vuelve
más extenso. El valor predeterminado depende de la configuración del motor en el tiempo de compilación: 10
(estándar) o 1 (rápido o v2.1)

-producción número
La hipótesis de las primeras N frases se generará al final de la búsqueda. Usar con -n
(predeterminado: 1)

-buscar rango marco
Establezca el número de fotogramas antes y después para buscar hipótesis de la siguiente palabra en el
enrejado de palabras en la segunda pasada. Esto evita la omisión de palabras cortas, pero
con un valor grande, el número de hipótesis expandidas aumenta y el sistema
se vuelve lento. (predeterminado: 5)

-looktrellis
(Gramática) Expanda solo las palabras que sobrevivieron en la primera pasada en lugar de expandir
todas las palabras predichas por la gramática. Esta opción realiza una decodificación de segundo paso.
más rápido, especialmente para condiciones de vocabulario extenso, pero puede aumentar la eliminación
error de palabras cortas. (predeterminado: desactivado)

Pausa corta segmentación / decodificador-VAD
Cuando se compila con --enable-decoder-vad, la segmentación de pausa corta será
extendido para admitir VAD basado en decodificadores.

-segmento
Habilite el modo de segmentación de pausa corta. La entrada se segmentará cuando se produzca una breve pausa.
palabra (palabra con solo modelo de silencio en la pronunciación) obtiene la mayor probabilidad
en ciertos fotogramas sucesivos en la primera pasada. Cuando se detecta el final del segmento,
Julius detiene el primer pase en el punto, realiza el segundo pase y continúa con el siguiente
segmento. El contexto de la palabra se considerará entre los segmentos. (Rev.4.0)

Cuando se compila con --enable-decoder-vad, esta opción habilita VAD basado en decodificador,
para saltarse un largo silencio.

-spdur marco
Duración de la pausa corta para detectar el final del segmento de entrada, en número de fotogramas.
(predeterminado: 10)

-modelos de pausa cadena
Una lista separada por comas de nombres de modelos de pausa que se utilizarán en pausas cortas
segmentación. La palabra cuya pronunciación consta solo de los modelos de pausa.
se tratará como "palabra de pausa" y se utilizará para la detección de pausas. Si no se especifica,
nombre de -spmodelo, -silhead y -siltail se utilizará. (Rev.4.0)

-spmargen marco
Margen de retroceso en el disparo hacia arriba para VAD basado en decodificador. Cuando el habla se dispara
encontrado por el decodificador-VAD, Julius rebobinará el parámetro de entrada por este valor, y
iniciar el reconocimiento en el punto. (Rev.4.0)

Esta opción será válida solo si se compila con --enable-decoder-vad.

-spdelay marco
Disparo de trama de retardo de decisión en el disparo para VAD basado en decodificador. (Rev.4.0)

Esta opción será válida solo si se compila con --enable-decoder-vad.

Palabra enrejado / confusión del sistema, salida
-enrejado , -norejilla
Activar / desactivar la generación de gráficos de palabras. El algoritmo de búsqueda también ha cambiado a
optimizar para una mejor generación de gráficos de palabras, por lo que el resultado de la oración puede no ser el
Igual que el reconocimiento normal de N-best. (Rev.4.0)

-confnet , -noconfnet
Activar / desactivar la generación de red de confusión. Habilitar esto también
activa -enrejado internamente. (Rev.4.0)

-grafo-rango marco
Fusionar las mismas palabras en la posición vecina al generar el gráfico. Si el tiempo de inicio
y la hora de finalización de dos palabras candidatas de la misma palabra está dentro del
rango, se fusionarán. El valor predeterminado es 0 (permitir fusionar las mismas palabras en
exactamente la misma ubicación) y especificar un valor mayor resultará en una menor
salida del gráfico. Establecer este valor en -1 deshabilitará la fusión, en ese caso lo mismo
las palabras en la misma ubicación de diferentes partituras se dejarán como están.
(predeterminado: 0)

-grabado profundidad
Corte el gráfico resultante por su profundidad de palabras en la etapa de posprocesamiento. La profundidad
valor es el número de palabras que se permitirán en un marco. Establecer en -1 deshabilita
Esta característica. (predeterminado: 80)

-bucle enlazado al gráfico contar
Limite el número de bucles de ajuste de límites en la etapa de posprocesamiento. Esta
El parámetro evita que Julius se bloquee mediante un bucle de ajuste infinito por corto
oscilación de palabras. (predeterminado: 20)

-graphsearchdelay , -nographsearchdelay
Cuando esta opción está habilitada, Julius modifica su algoritmo de generación de gráficos en
el segundo paso para no terminar la búsqueda por fusión de gráficos, hasta la primera oración
se encuentra candidato. Esta opción puede mejorar la precisión del gráfico, especialmente cuando
generarán un gráfico de palabras enorme configurando la búsqueda amplia. Es decir, puede
resulta en una mejor precisión del gráfico cuando establece haces anchos en la primera pasada -b y
2do pase -b2, y gran número para -n. (predeterminado: desactivado)

Multi-gramo / multidic reconocimiento
-multigrama , -nomultigrama
En el reconocimiento gramatical que utiliza varias gramáticas, Julius producirá solo las mejores
resultado entre todas las gramáticas. Habilitar esta opción hará que Julius genere
resultado para cada gramática. (predeterminado: desactivado)

Forzado alineación
-walign
Realice una alineación de viterbi por unidades de palabra para el resultado del reconocimiento. La palabra
Se calcularán los marcos límite y las puntuaciones acústicas promedio por marco.

-palign
Realice una alineación de viterbi por unidades telefónicas para obtener el resultado del reconocimiento. El teléfono
Se calcularán los marcos límite y las puntuaciones acústicas promedio por marco.

-alinear
Realice una alineación de viterbi por estado para obtener el resultado del reconocimiento. El límite del estado
fotogramas y se calcularán las puntuaciones acústicas medias por fotograma.

Otra información. Buscar opciones
-inactivo
Inicie esta instancia de proceso de reconocimiento con un estado inactivo. (Rev.4.0)

-1 paso
Realice solo la primera pasada.

-fallback1pass
Cuando falla el segundo pase, Julius termina el reconocimiento sin resultado. Esta opción
dígale a Julius que emita el resultado del primer paso como resultado final cuando el segundo pase
falla. Tenga en cuenta que algunos resultados de puntuación (confianza, etc.) pueden no ser útiles. Esto era
el comportamiento predeterminado de Julius-3.x.

-no_ccd , -force_ccd
Cambie explícitamente el manejo del contexto del teléfono en la búsqueda. Normalmente Julius determina
si el uso de AM es un modelo dependiente del contexto o no de los nombres del modelo,
es decir, si los nombres contienen el carácter + y -. Esta opción anulará la
Detección automática.

-cmalfa flotar
Parámetro de suavizado para puntuación de confianza. (predeterminado: 0.05)

-iwsp
(Solo modo de ruta múltiple) Habilite la inserción de pausas breves sin contexto entre palabras.
Esta opción agrega un modelo de pausa corta que se puede omitir para cada final de palabra. El
El modelo de pausa corta se puede especificar mediante -spmodelo.

-transp flotar
Penalización de inserción adicional para palabras transparentes. (predeterminado: 0.0)

manifestación
Equivalente a -progout -tranquilo.

MEDIO AMBIENTE VARIABLES


ALSADEV
(usando la entrada de micrófono con un dispositivo alsa) especifique un nombre de dispositivo de captura. Si no se especifica,
se utilizará "predeterminado".

DISPOSITIVO DE AUDIO
(usando la entrada de micrófono con un dispositivo oss) especifique una ruta de dispositivo de captura. Si no se especifica,
"/ dev / dsp" se utilizará.

LATENCIA_MSEC
Intente establecer la latencia de entrada de la entrada del micrófono en milisegundos. Un valor menor
acortan la latencia pero a veces hacen que el proceso sea inestable. El valor predeterminado dependerá de la
ejecutando SO.

EJEMPLOS


Para ver ejemplos del uso del sistema, consulte la sección de tutoriales en los documentos de Julius.

AVISO


Nota sobre los archivos jconf: las rutas relativas en un archivo jconf se interpretan como relativas al
jconf en sí mismo, no al directorio actual.

Utilice julius en línea utilizando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS ofrece funciones ANSI SQL
    y se ejecuta en Linux, Windows y
    varias plataformas Unix. Características
    excelente concurrencia y rendimiento
    & energía...
    Descargar pájaro de fuego
  • 2
    KompoZer
    KompoZer
    KompoZer es un editor HTML wysiwyg que utiliza
    el código base de Mozilla Composer. Como
    El desarrollo de Nvu se ha detenido.
    en 2005, KompoZer corrige muchos errores y
    agrega una f...
    Descargar KompoZer
  • 3
    Descargador gratuito de manga
    Descargador gratuito de manga
    Free Manga Downloader (FMD) es un
    aplicación de código abierto escrita en
    Object-Pascal para gestionar y
    descargar manga de varios sitios web.
    esto es un espejo...
    Descargar descargador de manga gratuito
  • 4
    UNetbootin
    UNetbootin
    UNetbootin le permite crear booteables
    Unidades USB en vivo para Ubuntu, Fedora y
    otras distribuciones de Linux sin
    quemando un CD. Se ejecuta en Windows, Linux,
    y ...
    Descargar UNetbootin
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM es un fácil de usar
    Paquete de software de código abierto ERP y CRM
    (ejecutar con un servidor web php o como
    software independiente) para empresas,
    cimientos...
    Descargar Dolibarr ERP - CRM
  • 6
    Cliente SQL SQuirreL
    Cliente SQL SQuirreL
    SQuirreL SQL Client es un SQL gráfico
    cliente escrito en Java que permitirá
    para ver la estructura de un JDBC
    base de datos compatible, busque los datos en
    mesas...
    Descargar cliente SQL SQuirreL
  • Más "

Comandos de Linux

Ad