Il s'agit de la commande julius qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
julius
- moteur LVCSR multi-usages open source
SYNOPSIS
julius [-C fichier jconf] [Options...]
DESCRIPTION
julius est un moteur de reconnaissance vocale open source hautes performances et polyvalent pour
chercheurs et développeurs. Il est capable d'effectuer une reconnaissance presque en temps réel de
discours continu avec plus de 60 3 mots de modèle de langue de XNUMX grammes et modèle de triphone HMM, sur la plupart
PC actuels. julius peut effectuer la reconnaissance sur les fichiers audio, entrée microphone en direct,
entrée réseau et fichiers de paramètres de fonction.
Le module de reconnaissance de base est implémenté en tant que bibliothèque C appelée "JuliusLib". Il peut aussi être
étendu par l'installation de plug-in.
Appareils Modèles
julius a besoin d'un modèle de langage et d'un modèle acoustique pour fonctionner comme un outil de reconnaissance vocale. julius
prend en charge les modèles suivants.
Acoustique modèle
Les sous-mots HMM (Hidden Markov Model) au format HTK ascii sont pris en charge. Phonème
modèles (monophone), modèles de phonèmes dépendant du contexte (triphone), mélange lié et
des modèles phonétiques à mélange lié de n'importe quelle unité peuvent être utilisés. Lors de l'utilisation en fonction du contexte
modèles, la dépendance de contexte entre mots est également gérée. Fonctionnalité multi-flux et
MSD-HMM est également pris en charge. Vous pouvez également utiliser un outil mkbinhmm convertir l'ASCII
HMM dans un format binaire compact pour un chargement plus rapide.
Notez que julius lui-même ne peut extraire que les caractéristiques MFCC des données vocales. Si tu utilises
HMM acoustique formé pour d'autres fonctionnalités, vous devez donner l'entrée dans le paramètre HTK
fichier du même type d'entité.
Langue modèle: mot N-gramme
Le modèle de langage Word N-gram, jusqu'à 10 grammes, est pris en charge. Julius utilise différents
N-gramme pour chaque passage : 2 grammes de gauche à droite au 1er passage et N-gramme de droite à gauche au
2ème passage. Il est recommandé d'utiliser à la fois LR 2-gramme et RL N-gramme pour Julius.
Cependant, vous ne pouvez utiliser qu'un seul N-gramme LR ou RL N-gramme. Dans un tel cas, approximé
Le LR 2-gramme calculé à partir du N-gramme donné sera appliqué au premier passage.
Le format ARPA standard est pris en charge. De plus, un format binaire est également
pris en charge pour plus d'efficacité. L'outil mkbingram(1) peut convertir le format ARPA N-gramme en
format binaire.
Langue modèle: grammaire
Le format grammatical est original, et des outils pour créer une grammaire de reconnaissance
sont inclus dans la distribution. Une grammaire se compose de deux fichiers : l'un est un
fichier 'grammaire' qui décrit les structures de phrases dans un style BNF, en utilisant word
nom 'catégorie' comme symboles de fin. Un autre est un fichier 'voca' qui définit les mots
avec ses prononciations (ie séquences de phonèmes) pour chaque catégorie. Ils devraient être
converti par mkdfa(1) à un fichier d'automates finis déterministes (.dfa) et un
fichier de dictionnaire (.dict), respectivement. Vous pouvez également utiliser plusieurs grammaires.
Langue modèle: isolé mot
Vous pouvez effectuer une reconnaissance de mots isolés en utilisant uniquement un dictionnaire de mots. Avec ça
type de modèle, Julius effectuera une reconnaissance rapide en un seul passage avec un contexte statique
manutention. Des modèles de silence seront ajoutés à la fois en tête et en queue de chaque mot. Vous pouvez
également utiliser plusieurs dictionnaires dans un processus.
Rechercher Algorithme
Algorithme de reconnaissance de julius repose sur une stratégie à deux passes. Mot 2-gramme et inverse
le mot 3-gramme est utilisé sur les passes respectives. L'entièreté de l'entrée est traitée le premier
passer, et à nouveau le processus de recherche final est exécuté à nouveau pour l'entrée, en utilisant le
résultat du premier passage pour rétrécir l'espace de recherche. Concrètement, la reconnaissance
L'algorithme est basé sur une recherche heuristique en treillis d'arbres combinée à une recherche de gauche à droite
recherche de faisceau synchrone trame et recherche de décodage de pile de droite à gauche.
Lors de l'utilisation de téléphones dépendants du contexte (triphones), les contextes intermots sont pris en compte
considération. Pour les modèles à mélange lié et phonétique à mélange lié, acoustique à grande vitesse
le calcul de vraisemblance est possible en utilisant l'élagage gaussien.
Pour plus de détails, consultez les documents associés.
OPTIONS
Ces options spécifient les modèles, les comportements du système et divers paramètres de recherche à
Jules. Ces options peuvent être définies sur la ligne de commande, mais il est recommandé d'écrire
dans un fichier texte en tant que "fichier jconf", et spécifiez-le par l'option "-C".
Les applications intégrant JuliusLib utilisent également ces options pour définir les paramètres de base
moteur de reconnaissance. Par exemple, un fichier jconf peut être chargé sur l'enine en appelant
j_config_load_file_new() avec le nom de fichier jconf en argument.
Veuillez noter que les chemins relatifs dans un fichier jconf doivent être relatifs au fichier jconf
lui-même, pas le répertoire de travail actuel.
Vous trouverez ci-dessous les détails de toutes les options, regroupés par groupe.
Julius application option
Ce sont des options d'application de Julius, en dehors de JuliusLib. Il contient des paramètres et
commutateurs pour la sortie des résultats, la conversion du jeu de caractères, le niveau de journalisation et les options de mode module.
Ces options sont spécifiques à Julius et ne peuvent pas être utilisées dans les applications utilisant JuliusLib
autre que Jules.
-fichier de sortie
Lors de l'entrée du fichier, cette option écrit le résultat de la reconnaissance de chaque fichier dans un
déposer. Le fichier de sortie d'un fichier d'entrée portera le même nom mais le suffixe sera
changé en ".out". (rév.4.0)
-score séparé
Sortez les partitions linguistiques et acoustiques séparément.
-rappeldebug
Imprimez les noms de rappel à chaque appel pour le débogage. (rév.4.0)
-charconv grâce au à
Imprimer avec conversion de jeu de caractères. grâce au est le jeu de caractères source utilisé dans le
modèle de langage, et à est le jeu de caractères cible que vous souhaitez obtenir.
Sous Linux, les arguments doivent être un nom de code. Vous pouvez obtenir la liste des disponibles
les noms de code en appelant la commande "iconv --list". Sous Windows, les arguments doivent être
un nom de code ou un numéro de page de codes. Le nom de code doit être l'un des "ansi", "mac", "oem",
"utf-7", "utf-8", "sjis", "euc". Ou vous pouvez spécifier n'importe quel numéro de page de code pris en charge à
votre environnement.
-nocharconv
Désactiver la conversion de caractères.
-module [Port]
Exécutez Julius en "Mode module serveur". Après le démarrage, Julius attend la connexion TCP/IP
du client. Une fois la connexion établie, Julius commence la communication avec le client
pour traiter les commandes entrantes du client, ou pour sortir les résultats de la reconnaissance, entrez
informations de déclenchement et autres états du système au client. Le numéro de port par défaut est
10500.
-record dir
Enregistrez automatiquement toutes les données vocales d'entrée dans le répertoire spécifié. Chaque entrée segmentée est
enregistrés chacun par un. Le nom de fichier des données enregistrées est généré à partir de l'heure système
lorsque l'entrée se termine, dans un style de AAAA.MMJJ.HHMMSS.wav. Le format de fichier est monoral 16 bits
WAV. Invalide pour l'entrée mfcfile.
Avec rejet d'entrée par -rejetercourt, l'entrée rejetée sera également enregistrée même si
ils sont rejetés.
-fichier journal filet
Enregistrez toutes les sorties de journal dans un fichier au lieu de la sortie standard. (Rév.4.0)
-nolog
Désactivez toutes les sorties de journal. (Rév.4.0)
-Aide
Afficher le message d'aide et quitter.
Global Options
Ce sont des options dépendantes du modèle/de la recherche concernant l'entrée audio, la détection du son, GMM,
algorithme de décodage, installation de plug-in et autres. Les options globales doivent être placées avant
toute déclaration d'instance (-UN M, -LM, ou -SR), ou juste après "-MONDIAL"option.
Audio contribution
-saisir {mic|fichier brut|mfcfile|adinnet|stdin|netaudio|alsa|oss|esd}
Choisissez la source d'entrée vocale. Spécifiez 'file' ou 'rawfile' pour le fichier de forme d'onde,
'htkparam' ou 'mfcfile' pour le fichier de paramètres HTK. Lors de la saisie du fichier, les utilisateurs seront
invité à entrer le nom du fichier à partir de stdin, ou vous pouvez utiliser -liste de fichiers Option de
spécifier la liste des fichiers à traiter.
« mic » permet d'obtenir une entrée audio à partir d'un périphérique de microphone en direct par défaut et « dinnet »
signifie recevoir des données de forme d'onde via le réseau tcpip à partir d'un client adinnet.
« netaudio » provient de l'entrée DatLink/NetAudio et « stdin » signifie une entrée de données à partir de
entrée standard.
Pour l'entrée de fichier de forme d'onde, uniquement WAV (pas de compression) et RAW (pas d'en-tête, 16 bits, gros
endian) sont pris en charge par défaut. Un autre format peut être lu lorsqu'il est compilé avec
bibliothèque libsnd. Pour voir quel format est réellement pris en charge, consultez le message d'aide
en utilisant l'option -Aide. Pour l'entrée stdin, seuls WAV et RAW sont pris en charge. (défaut:
fichier mfc)
Sous Linux, vous pouvez choisir l'API au moment de l'exécution en spécifiant alsa, oss et esd.
-chunk_size échantillons
Taille des fragments audio en nombre d'échantillons. (par défaut : 1000)
-liste de fichiers nom de fichier
(Avec -saisir fichier raw|fichier mfc) effectuer la reconnaissance sur tous les fichiers répertoriés dans le
déposer. Le fichier doit contenir un fichier d'entrée par ligne. Le moteur s'arrêtera lorsque tous
les fichiers sont traités.
-notypecheck
Par défaut, Julius vérifie le type de paramètre d'entrée s'il correspond à AM ou
ne pas. Cette option désactivera le moteur de vérification et de force pour utiliser le vecteur d'entrée
comme si.
- 48
Enregistrez l'entrée avec un échantillonnage de 48 kHz et sous-échantillonnez-la à 16 kHz à la volée. Cette
L'option n'est valable que pour le modèle 16 kHz. La routine de sous-échantillonnage a été portée de
sptk. (Rév. 4.0)
-NA nom de l'appareil
Nom d'hôte pour l'entrée du serveur DatLink (-saisir netaudio).
-adporter numéro de port
et -saisir Adinnet, spécifiez le numéro de port adinnet à écouter. (par défaut : 5530)
-nostrip
Julius supprime par défaut les échantillons zéro successifs dans les données vocales d'entrée. Cette
L'option inhibe la suppression.
-zsignifie , -nozmean
Cette option active/désactive la suppression du décalage CC de la forme d'onde d'entrée. Le décalage sera
estimé à partir de l'ensemble des entrées. Pour l'entrée microphone/réseau, moyenne nulle du
48000 3 premiers échantillons (16 secondes en échantillonnage XNUMX kHz) seront utilisés pour le
estimation. (par défaut : désactivé)
Cette option utilise un décalage statique pour le canal. Voir également -zmeansource pour
suppression du décalage par image.
La parole détection by niveau et zéro-croix
-silence , -pas de silence
Activez / désactivez la détection de la parole par niveau et par zéro. La valeur par défaut est activée pour
entrée micro/adinnet, et désactivé pour les fichiers.
-nv trois
Seuil de niveau pour la détection d'entrée vocale. Les valeurs doivent être comprises entre 0 et
32767. (par défaut : 2000)
-zc trois
Seuil de passage à zéro par seconde. Seule entrée qui dépasse le niveau
seuil (-nv) sera compté. (par défaut : 60)
-marge d'avance Msec
Marge de silence au début du segment de parole en millisecondes. (par défaut : 300)
-marge arrière Msec
Marge de silence à la fin du segment de parole en millisecondes. (par défaut : 400)
Entrée rejet
Deux méthodes simples de rejet d'entrée frontale sont mises en œuvre, en fonction de la longueur d'entrée
et la puissance moyenne du segment détecté. La réjection par puissance moyenne est
expérimental, et peut être activé par --enable-power-reject à la compilation. Valable
Fonction MFCC avec coefficient de puissance et entrée en temps réel uniquement.
Pour le rejet d'entrée basé sur GMM, voir la section GMM ci-dessous.
-rejetercourt Msec
Rejeter l'entrée plus courte que les millisecondes spécifiées. La recherche sera terminée et
aucun résultat ne sera affiché.
-seuils de puissance trois
Rejetez le segment entré par son énergie moyenne. Si l'énergie moyenne du
la dernière entrée reconnue est inférieure au seuil, Julius rejettera l'entrée.
(Rév.4.0)
Cette option est valide lorsque --enable-power-reject est spécifié à la compilation
le temps.
Gaussienne mélange modèle / GMM-VAD
GMM sera utilisé pour le rejet d'entrée par score accumulé, ou pour le front-end
VAD basé sur GMM lorsque --enable-gmm-vad est spécifié.
REMARQUE : Vous devez également définir les paramètres MFCC appropriés requis pour le GMM,
spécifiant les paramètres acoustiques décrits dans la section AM -AM_GMM.
Lorsque le VAD basé sur GMM est activé, le score d'activité vocale sera calculé à chaque
cadre comme traitement frontal. La valeur sera calculée comme \[ \max_{m \in M_v}
p(x|m) - \max_{m \in M_n} p(x|m) \] où $M_v$ est un ensemble de voix GMM, et $M_n$ est
un ensemble de bruit GMM dont les noms doivent être spécifiés par -gmmrejeter. L'activité
le score sera ensuite moyenné pour les N dernières images, où N est spécifié par
-gmmmarge. Julius met à jour le score d'activité moyen à chaque image et détecte
déclenchement de la parole lorsque la valeur devient supérieure à une valeur spécifiée par -gmmupet
detecgt down-trigger quand il devient inférieur à une valeur de -gmmdown.
-gmm fichier_hmmdefs
Fichier de définition GMM au format HTK. Si spécifié, vérification d'entrée basée sur GMM
sera effectué en même temps que le 1er passage, et vous pouvez rejeter l'entrée
selon le résultat spécifié par -gmmrejeter. Le GMM doit être défini comme
HMM à un état.
-numérogmm nombre
Nombre de composantes gaussiennes à calculer par trame sur le calcul GMM. Seul
les N-meilleures gaussiennes seront calculées pour un calcul rapide. La valeur par défaut est 10
et spécifier une valeur plus petite accélérera le calcul GMM, mais une valeur trop petite
(1 ou 2) peut entraîner une dégradation des performances d'identification.
-gmmrejeter un magnifique
Liste de noms GMM séparés par des virgules à rejeter en tant qu'entrée non valide. Lorsque
reconnaissance, le log des probabilités des MGM accumulés pour l'ensemble de l'entrée sera
être calculé en même temps que le 1er passage. Si le nom GMM du score maximum
est dans cette chaîne, la 2ème passe ne sera pas exécutée et l'entrée sera
rejeté.
-gmmmarge cadres
(GMM_VAD) Marge de tête dans les cadres. Lorsqu'un déclencheur vocal est détecté par GMM,
la reconnaissance commencera à partir de l'image actuelle moins cette valeur. (Rév.4.0)
Cette option ne sera valide que si elle est compilée avec --enable-gmm-vad.
-gmmup Plus-value
(GMM_VAD) Seuil de déclenchement supérieur du score d'activité vocale. (Rév.4.1)
Cette option ne sera valide que si elle est compilée avec --enable-gmm-vad.
-gmmdown Plus-value
(GMM_VAD) Seuil de déclenchement bas du score d'activité vocale. (Rév.4.1)
Cette option ne sera valide que si elle est compilée avec --enable-gmm-vad.
Le décryptage option
Le traitement en temps réel signifie le traitement simultané du calcul MFCC 1ère passe
décodage. Par défaut, le traitement en temps réel sur le pass est activé pour le microphone /
entrée adinnet / netaudio, et pour les autres.
-temps réel , -en temps réel
Activer/désactiver explicitement le traitement en temps réel (pipeline) lors du premier passage.
La valeur par défaut est désactivée pour l'entrée de fichier et activée pour le microphone, l'adinnet et NetAudio
saisir. Cette option concerne la manière dont la CMN et la normalisation énergétique sont effectuées :
si elle est désactivée, elles seront effectuées en utilisant les caractéristiques moyennes de l'ensemble de l'entrée. Si activé, MAP-CMN
et la normalisation de l'énergie pour effectuer un traitement en temps réel.
Divers. Options
-C fichier jconf
Chargez un fichier jconf ici. Le contenu du fichier jconf sera étendu à ce stade
point.
-version
Imprimez les informations de version sur l'erreur standard et quittez.
-réglage
Imprimez les informations de réglage du moteur sur l'erreur standard et quittez.
-silencieux
Sortez moins de journal. Pour le résultat, seule la meilleure séquence de mots sera imprimée.
-déboguer
(Pour le débogage) génère un énorme message interne et des informations de débogage à consigner.
-vérifier {wchmm|treillis|triphone}
Pour le débogage, entrez en mode de vérification interactif.
-plugindir liste d'annuaire
Spécifiez le répertoire pour charger le plugin. Si plusieurs répertoires existent, précisez-les par
liste séparée par des deux points.
Instance déclaration pour multi décodage
Les arguments suivants créeront un nouveau jeu de configuration avec les paramètres par défaut, et
commutez le courant réglé sur celui-ci. Les paramètres Jconf spécifiés après l'option seront définis dans le
ensemble actuel.
Pour effectuer un décodage multi-modèle, ces arguments doivent être spécifiés au premier de chaque modèle
/ rechercher des instances avec des noms différents. Toutes les options avant la définition de première instance
sera IGNORÉ.
Lorsqu'aucune définition d'instance n'est trouvée (comme l'ancienne version de Julius), toutes les options sont
affecté à une instance par défaut nommée _default.
Veuillez noter que le décodage avec un seul LM et plusieurs AM n'est pas entièrement pris en charge. Pour
exemple, vous voudrez peut-être construire le fichier jconf comme suit.
Ce type de partage de modèle n'est pas encore pris en charge, car une partie du traitement LM dépend
sur l'AM assigné. Au lieu de cela, vous pouvez obtenir le même résultat en définissant les mêmes LM pour chaque
AM, comme ceci :
-UN M prénom
Créez un nouveau jeu de configuration AM et basculez le courant vers le nouveau. Vous devriez donner un
nom unique. (Rév.4.0)
-LM prénom
Créez un nouveau jeu de configuration LM et basculez le courant vers le nouveau. Vous devriez donner un
nom unique. (Rév.4.0)
-SR prénom suis_nom nom_lm
Créez un nouvel ensemble de configuration de recherche et basculez vers le nouveau. Le spécifié
AM et LM lui seront affectés. Les suis_nom et nom_lm peut être un nom ou un identifiant
numéro. Vous devez donner un nom unique. (Rév.4.0)
-AM_GMM
Lorsque vous utilisez GMM pour le traitement frontal, vous pouvez spécifier une acoustique spécifique à GMM
paramètres après cette option. Si vous ne précisez pas -AM_GMM avec GMM, le GMM sera
partagent le même vecteur de paramètres que le dernier AM. L'AM actuel sera commuté sur le
GMM un, alors faites attention à ne pas confondre avec les configurations AM normales. (Rév.4.0)
-MONDIAL
Démarrer une section globale. Les options globales doivent être placées avant toute instance
déclaration, ou après cette option sur la reconnaissance de modèle multiple. Cela peut être utilisé
plusieurs fois. (Rév.4.1)
-nosectioncheck , -sectioncheck
Désactiver / activer la vérification de l'emplacement des options dans le décodage multi-modèle. Lorsqu'il est activé, le
les options entre la déclaration d'instance sont traitées comme des "sections" et seules les
les types d'options peuvent être écrits. Par exemple, lorsqu'une option -UN M est spécifié, seul le AM
L'option associée peut être placée après l'option jusqu'à ce qu'une autre déclaration soit trouvée. Aussi,
les options globales doivent être placées en haut, avant toute déclaration d'instance. C'est
activé par défaut. (Rév.4.1)
Langue modèle (-LM)
Ce groupe contient des options pour la définition de modèle de chaque type de modèle de langage. Lors de l'utilisation
plusieurs LM, une instance ne peut avoir qu'un seul LM.
Un seul type de LM peut être spécifié pour une configuration LM. Si vous souhaitez utiliser plusieurs
modèle, vous devez les définir comme un nouveau LM.
N-gramme
-d fichier_bingram
Utilisez le format binaire N-gramme. Un fichier ARPA N-gram peut être converti en binaire Julius
formater par mkbingram.
-nlr arpa_ngram_file
Un modèle de langage N-gram avant, de gauche à droite au format ARPA standard. Lorsque
un N-gramme vers l'avant et un N-gramme vers l'arrière sont spécifiés, Julius utilise ceci
2 grammes vers l'avant pour le 1er passage et le N-gramme vers l'arrière pour le 2e passage.
Étant donné que le fichier ARPA devient souvent énorme et nécessite beaucoup de temps à charger, il peut être
il est préférable de convertir le fichier ARPA au format binaire Julius par mkbingram. Noter que
si à la fois le N-gramme avant et arrière est utilisé pour la reconnaissance, ils seront ensemble
être converti en un seul binaire.
Lorsque seul un N-gramme vers l'avant est spécifié par cette option et aucun N-gramme vers l'arrière
spécifié par -nrl, Julius effectue la reconnaissance avec uniquement le N-gramme avant. Les
Le 1er passage utilisera l'entrée de 2 grammes dans le N-gramme donné, et le 2ème passage
utiliser le N-gramme donné, en convertissant les probabilités avant en arrière
probabilités par la règle de Bayes. (Rév.4.0)
-nrl arpa_ngram_file
Un modèle de langage N-gram inversé de droite à gauche au format ARPA standard. Lorsque
un N-gramme avant et un N-gramme arrière sont spécifiés, Julius utilise le
2-gramme pour le 1er passage, et ce N-gramme en arrière pour le 2ème passage.
Étant donné que le fichier ARPA devient souvent énorme et nécessite beaucoup de temps à charger, il peut être
il est préférable de convertir le fichier ARPA au format binaire Julius par mkbingram. Noter que
si à la fois le N-gramme avant et arrière est utilisé pour la reconnaissance, ils seront ensemble
être converti en un seul binaire.
Lorsque seul un N-gramme vers l'arrière est spécifié par cette option et aucun N-gramme vers l'avant
spécifié par -nlr, Julius effectue la reconnaissance avec uniquement le N-gramme arrière.
Le 1er passage utilisera la probabilité avant de 2 grammes calculée à partir de l'arrière
2 grammes en utilisant la règle de Bayes. Le 2ème passage utilise pleinement le N-gramme arrière donné.
(Rév.4.0)
-v fichier_dict
Fichier de dictionnaire de mots.
-silhead chaîne_mot -queue de sil chaîne_mot
Mot de silence défini dans le dictionnaire, pour les silences au début de
phrase et fin de phrase. (par défaut : " ", " ")
-mapunk chaîne_mot
Spécifiez le mot inconnu. La valeur par défaut est " " ou " ". Cela sera utilisé pour attribuer
probabilité de mot sur des mots inconnus, c'est-à-dire des mots dans le dictionnaire qui ne sont pas dans
Vocabulaire N-gramme.
-iwspword
Ajoutez une entrée de mot au dictionnaire qui doit correspondre aux pauses entre les mots.
Cela peut améliorer la précision de la reconnaissance dans certains modèles de langage qui n'ont pas
modélisation explicite des pauses inter-mots. L'entrée de mot à ajouter peut être modifiée en
-iwspentry.
-iwspentry word_entry_string
Spécifiez l'entrée de mot qui sera ajoutée par -iwspword. (défaut: " [sp] sp
sp")
-sepnum nombre
Nombre de mots à haute fréquence à isoler de l'arbre lexical, pour faciliter
erreur d'approximation pouvant être causée par la meilleure approximation au 1er
passe. (par défaut : 150)
Grammaire
Plusieurs grammaires peuvent être spécifiées en répétant -gramme et -liste de grammes. Notez que ceci
est un comportement inhabituel d'autres options (dans l'option Julius normale, la dernière sera
remplacer les précédents). Vous pouvez utiliser -nogramme pour réinitialiser les grammaires déjà
spécifié avant le point.
-gramme gramprefix1[,gramprefix2[,gramprefix3,...]]
Liste des grammaires à utiliser, séparées par des virgules. l'argument doit être un préfixe de
une grammaire, c'est-à-dire si vous avez foo.dfa et foo.dict, vous devez les spécifier avec un
seul argument foo. Plusieurs grammaires peuvent être spécifiées à la fois en tant que
liste séparée par des virgules.
-liste de grammes fichier_liste
Spécifiez un fichier de liste de grammaires qui contient la liste des grammaires à utiliser. La liste
doit contenir les préfixes des grammaires, chacun par ligne. Un chemin relatif dans
le fichier de liste sera traité comme relatif au fichier, pas le chemin actuel ou
fichier de configuration.
-dfa fichier_dfa -v fichier_dict
Une ancienne façon de spécifier les fichiers de grammaire séparément. Ceci est faux et ne devrait pas
être utilisé plus.
-nogramme
Supprimer la liste actuelle des grammaires déjà spécifiées par -gramme, -liste de grammes, -dfa
et -v.
Isolé mot
Le dictionnaire peut être spécifié en utilisant -w et -liste. Lorsque vous spécifiez plusieurs
fois, ils seront tous lus au démarrage. Vous pouvez utiliser -nogramme pour réinitialiser le
dictionnaires déjà spécifiés à ce stade.
-w fichier_dict
Dictionnaire de mots pour la reconnaissance de mots isolés. Le format de fichier est le même que les autres
LM. (Rév.4.0)
-liste fichier_liste
Spécifiez un fichier de liste de dictionnaires contenant la liste des dictionnaires à utiliser.
Le fichier de liste doit contenir le nom de fichier des dictionnaires, chacun par ligne. UNE
chemin relatif dans le fichier de liste sera traité comme relatif au fichier de liste, pas
le chemin ou le fichier de configuration actuel. (Rév.4.0)
-nogramme
Supprimer la liste actuelle des dictionnaires déjà spécifiés par -w et -liste.
-wsil head_sil_model_name tail_sil_model_name sil_context_name
Sur la reconnaissance de mots isolés, des modèles de silence seront ajoutés à la tête et
queue de chaque mot lors de la reconnaissance. Cette option spécifie les modèles de silence à
ajouté sil_context_name est le nom du modèle head sil et tail sil model
comme contexte de mot head phone et tail phone. Par exemple, si vous spécifiez
-wsil silB silE sp, un mot avec une séquence téléphonique be eh t sera traduit par silB
sp-b+eh b-eh+t eh-t+sp silE. (Rév.4.0)
Défini par l'utilisateur LM
-utilisateurlm
Déclarez utiliser les fonctions LM utilisateur dans le programme. Cette option doit être spécifiée
si vous utilisez des fonctions LM définies par l'utilisateur. (Rév.4.0)
Divers. LM Options
-forcedict
Ignorez les mots d'erreur dans le dictionnaire et forcez l'exécution.
Acoustique modèle et caractéristique analyse (-UN M) (-AM_GMM)
Cette section concerne les options pour le modèle acoustique, l'extraction de caractéristiques, les caractéristiques
normalisations et soustraction spectrale.
Après le nom -AM, un modèle acoustique et les spécifications associées doivent être écrits. Vous pouvez utiliser
plusieurs AM formés avec différents types de MFCC. Pour GMM, la condition de paramètre requise
doivent être spécifiés de la même manière que les AM après -AM_GMM.
Lors de l'utilisation de plusieurs AM, les valeurs de -smpPériode, -smpFréq, -ftaille et -fshift devrait être
le même parmi tous les AM.
Acoustique HMM
-h fichier_hmmdef
Fichier de définition HMM acoustique. Il doit être au format HTK ascii, ou binaire Julius
format. Vous pouvez convertir le format HTK ascii au format binaire Julius à l'aide de mkbinhmm.
-hlist hmmlist_file
Fichier HMMList pour le mappage téléphonique. Ce fichier fournit un mappage entre les
noms de triphone générés dans le dictionnaire et les noms HMM définis dans hmmdefs.
Cette option doit être spécifiée pour le modèle dépendant du contexte.
-tmix nombre
Spécifiez le nombre de gaussiennes supérieures à calculer dans un livre de codes de mélange.
Un petit nombre accélérera le calcul acoustique, mais la précision AM peut devenir
pire avec une valeur trop petite. Voir également -gprune. (par défaut : 2)
-spmodèle prénom
Spécifiez le nom du modèle HMM qui correspond à une courte pause dans un énoncé. Les
le nom du modèle à courte pause sera utilisé pour la reconnaissance :
reconnaissance grammaticale, insertion de modèle de courte pause de fin de mot avec -iwsp sur N-gramme,
ou segmentation à courte pause (-ssegment). (par défaut : "sp")
-multivoies
Activez le mode multi-chemins. Pour rendre le décodage plus rapide, Julius impose par défaut un
limite sur les transitions HMM que chaque modèle ne devrait avoir qu'une seule transition de
état initial et à l'état final. En mode multi-chemins, Julius effectue une gestion supplémentaire
sur la transition inter-modèle pour permettre la transition de saut de modèle et plusieurs
transitions sortie/entrée. Notez que spécifier cette option fera de Julius un
peu plus lent, et la plus grande largeur de faisceau peut être nécessaire.
Cette fonction était une option de compilation sur Julius 3.x, et devient maintenant un
option d'exécution. Par défaut (sans cette option), Julius vérifie la transition
type de HMM spécifié et activez le mode multi-chemin si nécessaire. Vous pouvez
forcer le mode multi-chemin avec cette option. (rév.4.0)
-gprune {sûr|heuristique|faisceau|aucun|défaut}
Définissez l'algorithme d'élagage gaussien à utiliser. Pour le modèle à mélange lié, Julius effectue
Élagage gaussien pour réduire le calcul acoustique, en ne calculant que le N supérieur
Gaussiennes dans chaque livre de codes à chaque image. Le paramètre par défaut sera défini
selon le type de modèle et le réglage du moteur. par défaut forcera l'acceptation
le paramètre par défaut. Définissez ce paramètre sur aucun pour désactiver l'élagage et effectuer
calcul. safe garantit le calcul des N gaussiennes les plus élevées. heuristique et
le faisceau fait une réduction des coûts de calcul plus agressive, mais peut entraîner de petits
modèle de perte de précision (par défaut : sûr (standard), faisceau (rapide) pour le mélange lié
modèle, aucun pour le modèle à mélange non lié).
-iwcd1 {max|moy|meilleur nombre}
Sélectionnez la méthode pour approximer le triphone inter-mot sur la tête et la queue d'un mot
au premier passage.
max appliquera le maximum de vraisemblance des mêmes triphones de contexte. volonté moyenne
appliquer la vraisemblance moyenne des mêmes triphones de contexte. le meilleur nombre sera
appliquer la moyenne des N-meilleures probabilités du même triphone de contexte.
La valeur par défaut est la meilleure 3 pour une utilisation avec N-gram et avg pour la grammaire et le mot. Quand ce
AM est partagé par les LM des deux types, le dernier sera choisi.
-iwspenalty flotter
Pénalité d'insertion pour les courtes pauses de fin de mot ajoutées par -iwsp.
-gshmm fichier_hmmdef
Si cette option est spécifiée, Julius effectue une sélection de mélange gaussien pour
décodage efficace. Les hmmdefs doivent être un modèle monophone généré à partir d'un
modèle HMM monophonique ordinaire, utilisant mkgshmm.
-gsnum nombre
Sur GMS, spécifiez le nombre d'états monophoniques pour calculer les triphones correspondants dans
détail. (par défaut : 24)
La parole analyse
Seule l'extraction de caractéristiques MFCC est prise en charge dans Julius actuel. Ainsi en reconnaissant
une entrée de forme d'onde à partir d'un fichier ou d'un microphone, AM doit être formé par MFCC. Le paramètre
la condition doit également être définie exactement comme la condition d'entraînement par le
options ci-dessous.
Lorsque vous fournissez une entrée dans le fichier de paramètres HTK, vous pouvez utiliser n'importe quel type de paramètre pour
UN M. Dans ce cas, Julius ne se soucie pas du type de fonction d'entrée et AM, juste
les lire comme une séquence vectorielle et les faire correspondre à l'AM donné. Julius ne vérifie que
si les types de paramètres sont les mêmes. Si cela ne fonctionne pas bien, vous pouvez désactiver
cette vérification par -notypecheck.
Dans Julius, le type de paramètre et les qualificatifs (comme TARGETKIND dans HTK) et le nombre
des paramètres cepstraux (NUMCEPS) sera réglé automatiquement à partir du contenu du
AM en-tête, vous n'avez donc pas besoin de les spécifier par des options.
Les autres paramètres doivent être réglés exactement de la même manière que les conditions d'entraînement. Vous pouvez également
donnez un fichier de configuration HTK que vous avez utilisé pour former AM à Julius en -htkconf. Quand cela
est appliquée, Julius analysera le fichier de configuration et définira le paramètre approprié.
Vous pouvez également intégrer ces paramètres d'analyse dans un fichier HMM binaire en utilisant
mkbinhmm.
Si les options sont spécifiées de plusieurs manières, elles seront évaluées dans l'ordre ci-dessous.
Le paramètre intégré AM sera chargé en premier, le cas échéant. Ensuite, le fichier de configuration HTK
donné par -htkconf sera analysé. Si une valeur déjà définie par la valeur intégrée AM, HTK
config les remplacera. Enfin, les options directes seront chargées, ce qui
remplacer les paramètres chargés auparavant. Notez que, lorsque les mêmes options sont spécifiées
plusieurs fois, plus tard remplacera précédent, sauf que -htkconf sera évalué
d'abord comme décrit ci-dessus.
-smpPériode période
Période d'échantillonnage de la parole d'entrée, en unité de 100 nanosecondes. Le taux d'échantillonnage peut
également être spécifié par -smpFréq. Veuillez noter que la fréquence d'entrée doit être
fixé égal aux conditions de formation de l'AM. (par défaut : 625, correspond à
16,000Hz)
Cette option correspond à l'option HTK SOURCERATE. La même valeur peut être
accordé à cette option.
Lors de l'utilisation de plusieurs AM, cette valeur doit être la même pour tous les AM.
-smpFréq Hz
Réglez la fréquence d'échantillonnage de la parole d'entrée en Hz. Le taux d'échantillonnage peut également être
spécifié à l'aide -smpPériode. Veuillez noter que cette fréquence doit être réglée sur la même
aux conditions de formation d'AM. (par défaut : 16,000 XNUMX)
Lors de l'utilisation de plusieurs AM, cette valeur doit être la même pour tous les AM.
-ftaille num_échantillon
Taille de la fenêtre en nombre d'échantillons. (par défaut : 400)
Cette option correspond à l'option HTK WINDOWSIZE, mais la valeur doit être dans
échantillons (valeur HTK / smpPeriod).
Lors de l'utilisation de plusieurs AM, cette valeur doit être la même pour tous les AM.
-fshift num_échantillon
Décalage de trame en nombre d'échantillons. (par défaut : 160)
Cette option correspond à l'option HTK TARGETRATE, mais la valeur doit être dans
échantillons (valeur HTK / smpPeriod).
Lors de l'utilisation de plusieurs AM, cette valeur doit être la même pour tous les AM.
-préemph flotter
Coefficient de préaccentuation. (par défaut : 0.97)
Cette option correspond à l'Option HTK PREEMCOEF. La même valeur peut être donnée
à cette option.
-fbanque num
Nombre de canaux de banque de filtres. (par défaut : 24)
Cette option correspond à l'option HTK NUMCHANS. La même valeur peut être donnée
à cette option. Sachez que la valeur par défaut n'est pas la même que dans HTK (22).
-céplif num
Coefficient de levage ceptral. (par défaut : 22)
Cette option correspond à l'option HTK CEPLIFTER. La même valeur peut être donnée
à cette option.
-cru , -norawe
Activer/désactiver l'utilisation de l'énergie brute avant la préaccentuation (par défaut : désactivé)
Cette option correspond à l'Option HTK RAWENERGY. Sachez que la valeur par défaut
la valeur diffère de HTK (activé à HTK, désactivé à Julius).
-anormal , -pas normal
Activer/désactiver la normalisation de l'énergie du journal. En entrée en direct, cette normalisation sera
approximée à partir de la moyenne de la dernière entrée. (par défaut : désactivé)
Cette option correspond à l'option HTK ENORMALISE. Sachez que la valeur par défaut
la valeur diffère de HTK (activé à HTK, désactivé à Julius).
-escale float_scale
Facteur d'échelle de l'énergie du journal lors de la normalisation de l'énergie du journal. (par défaut : 1.0)
Cette option correspond à l'option HTK ESCALE. Sachez que la valeur par défaut
la valeur diffère de HTK (0.1).
-silfloor flotter
Plancher de silence énergétique en dB lors de la normalisation de l'énergie du journal. (par défaut : 50.0)
Cette option correspond à l'option HTK SILFLOOR.
-delwin cadre
Taille de la fenêtre delta en nombre d'images. (par défaut : 2)
Cette option correspond à l'option HTK DELTAWINDOW. La même valeur peut être
accordé à cette option.
-Accwin cadre
Taille de la fenêtre d'accélération en nombre d'images. (par défaut : 2)
Cette option correspond à l'option HTK ACCWINDOW. La même valeur peut être donnée
à cette option.
-hifréq Hz
Activer la limitation de bande pour le calcul du banc de filtres MFCC : définir la fréquence supérieure
couper. La valeur -1 le désactivera. (par défaut : -1)
Cette option correspond à l'option HTK HIFREQ. La même valeur peut être donnée à
cette option.
-lofréq Hz
Activer la limitation de bande pour le calcul du banc de filtres MFCC : définir une fréquence inférieure
couper. La valeur -1 le désactivera. (par défaut : -1)
Cette option correspond à l'Option HTK LOFREQ. La même valeur peut être donnée à
cette option.
-zmeanframe , -nozmeanframe
Avec l'entrée vocale, cette option active/désactive la suppression du décalage CC par trame.
Cela correspond à la configuration HTK ZMEANSOURCE. Cela ne peut pas être utilisé ensemble
avec -zsignifie. (par défaut : désactivé)
-utilisation de la puissance
Utilisez la puissance au lieu de la magnitude sur l'analyse des bancs de filtres. (par défaut : désactivé)
Normalisation
Julius peut effectuer une normalisation moyenne cepstrale (CMN) pour les entrées. Le CMN sera
activé lorsque l'AM donné a été formé avec CMN (c'est-à-dire qu'il a le qualificateur "_Z" dans le
entête).
La moyenne cepstrale sera estimée de manière différente selon le type d'entrée.
Lors de l'entrée du fichier, la moyenne sera calculée à partir de l'ensemble de l'entrée. Sur une entrée en direct telle
comme entrée microphone et réseau, la moyenne ceptrale de l'entrée est inconnue à la
début. Donc MAP-CMN sera utilisé. Sur MAP-CMN, un vecteur moyen initial sera appliqué
au début, et le vecteur moyen sera étalé à la moyenne du
incrémenter le vecteur d'entrée au fur et à mesure que l'entrée va. Les options ci-dessous peuvent contrôler le comportement de
CARTE-CMN.
-cvn
Activer la normalisation de la variance cepstrale. A l'entrée du fichier, la variance de l'ensemble
l'entrée sera calculée puis appliquée. À l'entrée du microphone en direct, la variance de
la dernière entrée sera appliquée. CVN n'est pris en charge que pour une entrée audio.
-vtln Alpha Coupe-bas hicut
Faites une déformation de fréquence, généralement pour une normalisation de la longueur des voies vocales (VTLN).
Les arguments sont le facteur de déformation, la coupure haute fréquence et la basse fréquence. couper. Ils
correspondent aux valeurs de configuration HTK, WARPFREQ, WARPHCUTOFF et WARPLCUTOFF.
-cmnload filet
Chargez le vecteur moyen ceptral initial à partir du fichier au démarrage. Les filet devrait être un
sauvé par -cmnsave. Le chargement d'une moyenne cepstrale initiale permet à Julius de mieux
reconnaître le premier énoncé sur une entrée en temps réel. Lorsqu'il est utilisé avec
-cmnnoupdate, cette valeur initiale sera utilisée pour toutes les entrées.
-cmnsave filet
Enregistrez le vecteur moyen cepstral calculé dans filet. Les paramètres seront sauvegardés
à chaque extrémité d'entrée. Si le fichier de sortie existe déjà, il sera remplacé.
-cmnupdate -cmnnoupdate
Contrôlez s'il faut mettre à jour la moyenne cepstrale à chaque entrée sur l'entrée en temps réel.
Désactiver ceci et spécifier -cmnload fera du moteur pour toujours utiliser le chargé
moyenne cepstrale initiale statique.
-cmnmapweight flotter
Précisez le poids de la moyenne cepstrale initiale pour MAP-CMN. Spécifiez une valeur plus élevée à
conserver la moyenne cepstrale initiale pendant une période plus longue, et une valeur plus petite à faire
la moyenne cepstrale s'appuie davantage sur l'entrée actuelle. (par défaut : 100.0)
L'extrémité avant traitement
Julius peut effectuer une soustraction spectrale pour réduire certains bruits stationnaires de l'audio
saisir. Bien que ce ne soit pas une méthode puissante, elle peut fonctionner dans certaines situations.
Julius a deux façons d'estimer le spectre de bruit. Une façon est de supposer que le premier
segment court d'une entrée vocale est un segment de bruit, et estimer le spectre de bruit
comme moyenne du segment. Une autre méthode consiste à calculer le spectre moyen à partir de
entrée bruit uniquement à l'aide d'un autre outil mkss et chargez-la dans Julius. Le premier est
populaire pour l'entrée de fichiers vocaux, et ce dernier devrait être utilisé dans l'entrée en direct. Les options
ci-dessous va changer / contrôler le comportement.
-sscalc
Effectuez une soustraction spectrale en utilisant la partie principale de chaque fichier comme partie silencieuse. Les
la longueur de la tête doit être spécifiée par -sscalcen. Valable uniquement pour l'entrée de fichier.
Un conflit avec -ssload.
-sscalcen Msec
et -sscalc, spécifiez la durée du silence de la tête pour l'estimation du spectre de bruit
en millisecondes. (par défaut : 300)
-ssload filet
Effectuez une soustraction spectrale pour l'entrée vocale à l'aide d'un spectre de bruit pré-estimé
chargé depuis filet. Le fichier de spectre de bruit peut être créé par mkss. Valable pour tous
entrée vocale. Un conflit avec -sscalc.
-ssalpha flotter
Coefficient alpha de soustraction spectrale pour -sscalc et -ssload. Le bruit sera
soustrait plus fort à mesure que cette valeur augmente, mais la distorsion du résultat
le signal devient également remarquable. (par défaut : 2.0)
-sssol flotter
Coefficient de plancher de soustraction spectrale. La puissance spectrale qui descend en dessous
zéro après soustraction sera remplacé par le signal source avec ce
coefficient multiplié. (par défaut : 0.5)
Divers. AM Options
-htkconf filet
Analysez le fichier de configuration HTK donné et définissez les paramètres correspondants sur Julius.
Lorsque vous utilisez cette option, les valeurs de paramètre par défaut sont commutées de Julius
par défaut les valeurs par défaut HTK.
Reconnaissance processus et recherche (-SR)
Cette section contient des options pour les paramètres de recherche sur la 1ère / 2ème passe tels que le faisceau
largeur et poids LM, configurations pour la segmentation à courte pause, commutateurs pour mot
sortie de treillis et sortie de réseau de confusion, alignements forcés et autres options relatives
processus de reconnaissance et sortie des résultats.
Les valeurs par défaut pour la largeur du faisceau et les poids LM changeront en fonction de la configuration au moment de la compilation
de JuliusLib , le type de modèle AM et la taille LM. S'il vous plaît voir le journal de démarrage pour le réel
valeurs.
1 pass paramètres
-lmp poids peine
(N-gramme) Poids du modèle de langue et pénalités d'insertion de mots pour le premier passage.
-pénalité1 peine
Pénalité d'insertion de mot (grammaire) pour la première passe. (par défaut : 0.0)
-b largeur
Largeur du faisceau en nombre de nœuds HMM pour le faisceau de rang lors du premier passage. Cette valeur
définit la largeur de recherche sur le 1er passage, et a un effet dominant sur le total
temps de traitement. Une largeur plus petite accélérera le décodage, mais une valeur trop petite
entraînera une augmentation substantielle des erreurs de reconnaissance dues à la recherche
échec. Une valeur plus élevée rendra la recherche stable et conduira à une absence d'échec
recherche, mais le temps de traitement augmentera proportionnellement à la largeur.
La valeur par défaut dépend du type de modèle acoustique : 400 (monophone), 800
(triphone), ou 1000 (triphone, setup=v2.1)
-nlimite num
Limite supérieure de jeton par nœud. Cette option est valide lorsque --enable-wpair et
--enable-wpair-nlimit sont activés au moment de la compilation.
-progout
Activer la sortie progressive des résultats partiels au premier passage.
-progintervalle Msec
Réglez l'intervalle de temps pour -progout en millisecondes. (par défaut : 300)
2nd pass paramètres
-lmp2 poids peine
(N-gramme) Poids du modèle de langue et pénalités d'insertion de mots pour le second
passer.
-pénalité2 peine
Pénalité d'insertion de mot (grammaire) pour la deuxième passe. (par défaut : 0.0)
-b2 largeur
Largeur du faisceau enveloppe (nombre d'hypothèses) au deuxième passage. Si le compte de
l'expansion du mot à une certaine longueur d'hypothèse atteint cette limite pendant la recherche,
les hypothèses plus courtes ne sont pas développées davantage. Cela empêche la recherche de tomber
empilement de situations similaires à la largeur d'abord sur la même position et amélioration de la recherche
échec la plupart du temps pour une grande condition de vocabulaire. (par défaut : 30)
-sb flotter
Largeur de l'enveloppe de score pour la notation enveloppée. Lors du calcul du score d'hypothèse
pour chaque hypothèse générée, son expansion en treillis et son opération de Viterbi seront
être élagué au milieu du discours si le score sur un cadre passe sous la largeur.
Donner une petite valeur rend la deuxième passe plus rapide, mais une erreur de calcul peut
se produire. (par défaut : 80.0)
-s num
La taille de la pile, c'est-à-dire le nombre maximum d'hypothèses pouvant être stockées sur le
pile pendant la recherche. Une valeur plus élevée peut donner des résultats plus stables, mais
augmente la quantité de mémoire requise. (par défaut : 500)
-m compter
Nombre d'hypothèses élargies nécessaires pour interrompre la recherche. Si le nombre
d'hypothèses élargies est supérieur à ce seuil alors, la recherche est
interrompu à ce moment-là. Plus cette valeur est grande, plus Julius obtient
abandonner la recherche. (par défaut : 2000)
-n num
Le nombre de candidats que Julius essaie de trouver. La recherche continue jusqu'à ce
nombre d'hypothèses de phrases ont été trouvées. Les hypothèses de phrases obtenues
sont triés par score, et le résultat final est affiché dans l'ordre (voir aussi le
-sortir). La possibilité que l'hypothèse optimale soit correctement trouvée
augmente à mesure que cette valeur augmente, mais le temps de traitement devient également
plus long. La valeur par défaut dépend de la configuration du moteur au moment de la compilation : 10
(standard) ou 1 (rapide ou v2.1)
-sortir num
L'hypothèse des N premières phrases à sortir à la fin de la recherche. Utiliser avec -n
(par défaut : 1)
-plage de recherche cadre
Définissez le nombre d'images avant et après pour rechercher les hypothèses du mot suivant dans le
mot treillis au deuxième passage. Cela évite l'omission de mots courts, mais
avec une valeur élevée, le nombre d'hypothèses étendues augmente et le système
devient lent. (par défaut : 5)
-treillis
(Grammaire) Développez uniquement les mots qui ont survécu au premier passage au lieu de développer
tous les mots prédits par la grammaire. Cette option rend le décodage en deuxième passe
plus rapide, en particulier pour les conditions de vocabulaire volumineux, mais peut augmenter la suppression
erreur de mots courts. (par défaut : désactivé)
Pause courte segmentation / décodeur-VAD
Lorsqu'elle est compilée avec --enable-decoder-vad, la segmentation à courte pause sera
étendu pour prendre en charge le VAD basé sur un décodeur.
-ssegment
Activez le mode de segmentation à courte pause. L'entrée sera segmentée lors d'une courte pause
mot (mot avec seulement le modèle de silence dans la prononciation) obtient la plus haute probabilité
à certaines trames successives du premier passage. Lorsque le segment détecté se termine,
Julius arrête le 1er passage au point, effectue le 2e passage et continue avec le suivant
segment. Le mot contexte sera pris en compte parmi les segments. (Rév.4.0)
Lorsqu'elle est compilée avec --enable-decoder-vad, cette option active le VAD basé sur un décodeur,
sauter un long silence.
-spdur cadre
Durée de pause courte pour détecter la fin du segment d'entrée, en nombre d'images.
(par défaut : 10)
-pausemodèles un magnifique
Une liste de noms de modèles de pause séparés par des virgules à utiliser lors d'une courte pause
segmentation. Le mot dont la prononciation se compose uniquement des modèles de pause
sera traité comme un "mot de pause" et utilisé pour la détection de pause. Si non spécifié,
nom de -spmodèle, -silhead et -queue de sil sera utilisé. (Rév.4.0)
-spmarge cadre
Marge de recul au déclenchement pour le VAD basé sur un décodeur. Lorsque la parole est déclenchée
trouvé par decoder-VAD, Julius rembobinera le paramètre d'entrée de cette valeur, et
commencer la reconnaissance au point. (Rév.4.0)
Cette option ne sera valide que si elle est compilée avec --enable-decoder-vad.
-spdélai cadre
Trame de retard de décision de déclenchement au déclenchement pour VAD basé sur un décodeur. (Rév.4.0)
Cette option ne sera valide que si elle est compilée avec --enable-decoder-vad.
Word treillis / confusion réseau sortie
-treillis , -pas de réseau
Activer/désactiver la génération du graphe de mots. L'algorithme de recherche a également changé pour
optimiser pour une meilleure génération de graphique de mots, de sorte que le résultat de la phrase peut ne pas être le
identique à la reconnaissance N-meilleure normale. (Rév.4.0)
-confnet , -noconfnet
Activer / désactiver la génération de réseau de confusion. L'activation de ceci sera également
active -treillis intérieurement. (Rév.4.0)
-gamme graphique cadre
Fusionner les mêmes mots à la position voisine lors de la génération du graphique. Si l'heure de début
et l'heure de fin de deux mots candidats du même mot se situe dans la plage spécifiée
plage, ils seront fusionnés. La valeur par défaut est 0 (autoriser la fusion des mêmes mots sur
exactement le même emplacement) et la spécification d'une valeur plus grande entraînera une plus petite
sortie graphique. Définir cette valeur sur -1 désactivera la fusion, dans ce cas même
les mots sur le même emplacement de différentes partitions seront laissés tels quels.
(par défaut : 0)
-gravure profondeur
Coupez le graphique résultant par sa profondeur de mot au stade du post-traitement. La profondeur
valeur est le nombre de mots autorisés dans une trame. Le réglage à -1 désactive
cette fonctionnalité. (par défaut : 80)
-graphboundloop compter
Limitez le nombre de boucles d'ajustement des limites au stade du post-traitement. Cette
paramètre empêche Julius de bloquer par boucle de réglage infinie par court
oscillation de mot. (par défaut : 20)
-graphsearchdelay , -nographsearchdelay
Lorsque cette option est activée, Julius modifie son algorithme de génération de graphe sur
la 2ème passe pour ne pas terminer la recherche par fusion de graphes, jusqu'à la première phrase
candidat est trouvé. Cette option peut améliorer la précision du graphique, en particulier lorsque vous
vont générer un énorme graphique de mots en définissant une recherche large. A savoir, il peut
résulte en une meilleure précision graphique lorsque vous définissez des faisceaux larges sur les deux 1er passage -b et
2e passage -b2, et un grand nombre pour -n. (par défaut : désactivé)
Multi-gramme / multi-dic reconnaissance
-multigramme , -pas de multigramme
Lors de la reconnaissance grammaticale utilisant plusieurs grammaires, Julius n'affichera que le meilleur
résultat parmi toutes les grammaires. L'activation de cette option fera sortir Julius
résultat pour chaque grammaire. (par défaut : désactivé)
Forcé alignement
-waligner
Faites un alignement de Viterbi par unités de mot pour le résultat de la reconnaissance. Le mot
cadres de délimitation et les scores acoustiques moyens par cadre seront calculés.
-paligner
Faites l'alignement Viterbi par unités de téléphone pour le résultat de la reconnaissance. Le téléphone
cadres de délimitation et les scores acoustiques moyens par cadre seront calculés.
-saligner
Faites un alignement de Viterbi par état pour le résultat de la reconnaissance. La frontière de l'État
trames et les notes acoustiques moyennes par trame seront calculées.
Divers. recherche Options
-inactif
Démarrez cette instance de processus de reconnaissance avec l'état inactif. (Rév.4.0)
-1passe
N'effectuez que le premier passage.
-repli1pass
Lorsque la 2e passe échoue, Julius termine la reconnaissance sans résultat. Cette option
dire à Julius de sortir le résultat du 1er passage comme résultat final lors du 2ème passage
échoue. Notez que certains résultats de score (confiance, etc.) peuvent ne pas être utiles. C'était
le comportement par défaut de Julius-3.x.
-no_ccd , -force_ccd
Changer explicitement la gestion du contexte téléphonique lors de la recherche. Normalement Julius détermine
si l'utilisation de l'AM est un modèle dépendant du contexte ou non des noms de modèle,
c'est-à-dire si les noms contiennent les caractères + et -. Cette option remplacera le
détection automatique.
-cmalpha flotter
Paramètre de lissage pour le score de confiance. (par défaut : 0.05)
-iwsp
(Mode multi-chemins uniquement) Activez l'insertion de courte pause sans contexte entre les mots.
Cette option ajoute un modèle de pause courte sautable pour chaque fin de mot. Les
le modèle à courte pause peut être spécifié par -spmodèle.
-transp flotter
Pénalité d'insertion supplémentaire pour les mots transparents. (par défaut : 0.0)
démo
Équivalent à -progout -silencieux.
ENVIRONNEMENT VARIABLES
ALSADEV
(en utilisant l'entrée micro avec le périphérique alsa) spécifiez un nom de périphérique de capture. Si non spécifié,
"default" sera utilisé.
AUDIODEV
(à l'aide d'une entrée micro avec un périphérique oss) spécifiez un chemin de périphérique de capture. Si non spécifié,
"/dev/dsp" sera utilisé.
LATENCY_MSEC
Essayez de définir la latence d'entrée de l'entrée du microphone en millisecondes. Une valeur plus petite sera
raccourcir la latence mais rendre parfois le processus instable. La valeur par défaut dépendra de la
OS en cours d'exécution.
EXEMPLES
Pour des exemples d'utilisation du système, reportez-vous à la section tutoriel dans les documents Julius.
AVIS
Remarque sur les fichiers jconf : les chemins relatifs dans un fichier jconf sont interprétés comme relatifs au
jconf lui-même, pas dans le répertoire courant.
Utilisez Julius en ligne en utilisant les services onworks.net