영어프랑스어스페인어

Ad


온웍스 파비콘

julius - 온라인 인 더 클라우드

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 공급자에서 julius 실행

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 julius 명령입니다.

프로그램:

이름


줄리어스
- 오픈 소스 다목적 LVCSR 엔진

개요


줄리어스 [-씨 jconf 파일] [옵션...]

기술


줄리어스 고성능 다목적 오픈 소스 음성 인식 엔진입니다.
연구자와 개발자. 거의 실시간으로 인식할 수 있습니다.
대부분의 경우 60k 단어 이상의 3-gram 언어 모델 및 triphone HMM 모델을 사용한 연속 음성
현재 PC. 줄리어스 오디오 파일, 라이브 마이크 입력,
네트워크 입력 및 기능 매개변수 파일.

핵심 인식 모듈은 "JuliusLib"라는 C 라이브러리로 구현됩니다. 그것은 또한 될 수 있습니다
플러그인 기능으로 확장.

지원 모델
줄리어스 음성 인식기로 실행하려면 언어 모델과 음향 모델이 필요합니다. 줄리어스
다음 모델을 지원합니다.

음향 효과 모델
HTK ASCII 형식의 하위 단어 HMM(Hidden Markov Model)이 지원됩니다. 음소
모델(모노폰), 상황에 따른 음소 모델(트리폰), 묶음 혼합 및
모든 단위의 음성 연결 혼합 모델을 사용할 수 있습니다. 상황에 따라 사용하는 경우
모델, 단어 간 컨텍스트 종속성도 처리됩니다. 멀티 스트림 기능 및
MSD-HMM도 지원됩니다. 도구를 추가로 사용할 수 있습니다. mkbinhmm 아스키로 변환하기
빠른 로딩을 위해 HMM 파일을 압축 바이너리 형식으로 변환합니다.

참고 줄리어스 자체는 음성 데이터에서 MFCC 기능만 추출할 수 있습니다. 당신이 사용하는 경우
다른 기능에 대해 훈련된 음향 HMM, HTK 매개변수에 입력을 제공해야 합니다.
동일한 기능 유형의 파일.

지원하는 언어 모델: 워드 N-그램
Word N-gram 언어 모델을 최대 10-gram까지 지원합니다. Julius는 다른
각 패스에 대한 N-그램: 첫 번째 패스에서 왼쪽에서 오른쪽으로 2-그램, 오른쪽에서 왼쪽으로 N-그램
2차 패스. Julius에는 LR 2-gram과 RL N-gram을 모두 사용하는 것이 좋습니다.
그러나 단일 LR N-gram 또는 RL N-gram만 사용할 수 있습니다. 이 경우 근사치
주어진 N-gram에서 계산된 LR 2-gram은 첫 번째 패스에서 적용됩니다.

표준 ARPA 형식이 지원됩니다. 또한 바이너리 형식도
효율성을 위해 지원됩니다. 도구 맥빙그램(1) ARPA 형식 N-gram을 다음으로 변환할 수 있습니다.
바이너리 형식.

지원하는 언어 모델: 문법
문법 형식은 독창적이며 인식 문법을 만드는 도구입니다.
분포에 포함됩니다. 문법은 두 개의 파일로 구성됩니다. 하나는
단어를 사용하여 BNF 스타일로 문장 구조를 설명하는 'grammar' 파일
종료 기호로 '카테고리' 이름. 다른 하나는 단어를 정의하는 'voca' 파일입니다.
각 범주에 대한 발음(예: 음소 시퀀스). 그들은 있어야합니다
에 의해 변환 mkdfa(1) 결정적 유한 오토마톤 파일(.dfa) 및
사전 파일(.dict). 여러 문법을 사용할 수도 있습니다.

지원하는 언어 모델: 외딴 워드
단어 사전만을 사용하여 고립된 단어 인식을 수행할 수 있습니다. 이것으로
모델 유형, Julius는 정적 컨텍스트로 신속한 원패스 인식을 수행합니다.
손질. 묵음 모델은 각 단어의 머리와 꼬리에 추가됩니다. 당신은 할 수 있습니다
또한 프로세스에서 여러 사전을 사용합니다.

검색 암호알고리즘
의 인식 알고리즘 줄리어스 투 패스 전략을 기반으로 합니다. 워드 2그램 및 반전
워드 3-그램은 각각의 패스에 사용됩니다. 전체 입력은 첫 번째에서 처리됩니다.
통과하고 다시 입력에 대해 다시 최종 검색 프로세스를 수행합니다.
검색 공간을 좁히기 위한 첫 번째 패스의 결과. 구체적으로, 인식
알고리즘은 왼쪽에서 오른쪽으로 결합된 트리 격자 휴리스틱 검색을 기반으로 합니다.
프레임 동기식 빔 검색 및 오른쪽에서 왼쪽 스택 디코딩 검색.

상황에 따른 전화(트리폰)를 사용하는 경우 단어 간 컨텍스트가
고려 사항. 묶음 혼합 및 음성 묶음 혼합 모델의 경우 고속 음향
Gaussian pruning을 사용하여 우도 계산이 가능합니다.

자세한 내용은 관련 문서를 참조하십시오.

옵션


이러한 옵션은 모델, 시스템 동작 및 다양한 검색 매개변수를 지정하여
율리우스. 이 옵션은 명령줄에서 설정할 수 있지만 다음과 같이 작성하는 것이 좋습니다.
"jconf 파일"로 텍스트 파일에 저장하고 "-C" 옵션으로 지정합니다.

JuliusLib를 통합한 애플리케이션도 이러한 옵션을 사용하여 코어 매개변수를 설정합니다.
인식 엔진. 예를 들어 jconf 파일은 다음을 호출하여 enine에 로드할 수 있습니다.
j_config_load_file_new() jconf 파일 이름을 인수로 사용합니다.

jconf 파일의 상대 경로는 jconf 파일에 상대적이어야 합니다.
현재 작업 디렉토리가 아닌 자체.

다음은 그룹별로 수집된 모든 옵션의 세부 정보입니다.

율리우스 신청 선택권
JuliusLib 외부에 있는 Julius의 응용 프로그램 옵션입니다. 그것은 매개 변수를 포함하고
결과 출력, 문자 집합 변환, 로그 수준 및 모듈 모드 옵션을 위한 스위치입니다.
이 옵션은 Julius에만 적용되며 JuliusLib를 사용하는 애플리케이션에서는 사용할 수 없습니다.
율리우스 외.

-아웃파일
파일 입력 시 이 옵션은 각 파일의 인식 결과를 별도의
파일. 입력 파일의 출력 파일은 이름은 같지만 접미사는
".out"으로 변경되었습니다. (rev.4.0)

-별도
언어 및 음향 점수를 별도로 출력합니다.

-콜백디버그
디버그를 위해 각 호출에서 콜백 이름을 인쇄합니다. (rev.4.0)

-charconv
문자 집합 변환으로 인쇄합니다. 에서 사용되는 소스 문자 집합입니다.
언어 모델 및 얻으려는 대상 문자 집합입니다.

Linux에서 인수는 코드 이름이어야 합니다. 사용 가능한 목록을 얻을 수 있습니다.
"iconv --list" 명령을 호출하여 코드 이름을 지정합니다. Windows에서 인수는 다음과 같아야 합니다.
코드 이름 또는 코드 페이지 번호. 코드명은 "ansi", "mac", "oem",
"utf-7", "utf-8", "sjis", "euc". 또는 다음에서 지원되는 코드 페이지 번호를 지정할 수 있습니다.
당신의 환경.

-nocharconv
문자 변환을 비활성화합니다.

-기준 치수 [포트]
"서버 모듈 모드"에서 Julius를 실행합니다. 시작 후 Julius는 tcp/ip 연결을 기다립니다.
클라이언트에서. 연결이 설정되면 Julius는 클라이언트와 통신을 시작합니다.
클라이언트에서 들어오는 명령을 처리하거나 인식 결과를 출력하려면 입력
클라이언트에 정보 및 기타 시스템 상태를 트리거합니다. 기본 포트 번호는
10500.

-기록 DIR
모든 입력 음성 데이터를 지정된 디렉토리에 자동 저장합니다. 각 세그먼트 입력은 다음과 같습니다.
하나씩 기록했다. 기록된 데이터의 파일명은 시스템 시간으로부터 생성됩니다.
입력이 끝나면 YYYY.MMDD.HHMMSS.wav 형식으로 입력됩니다. 파일 형식은 16비트 모노럴입니다.
WAV. mfcfile 입력에 유효하지 않습니다.

에 의한 입력 거부 -거절단축, 거부된 입력은 다음과 같은 경우에도 기록됩니다.
그들은 거부됩니다.

-로그 파일 파일
모든 로그 출력을 표준 출력 대신 파일에 저장합니다. (개정 4.0)

-nolog
모든 로그 출력을 비활성화합니다. (개정 4.0)

-도움
도움말 메시지를 출력하고 종료합니다.

글로벌 옵션
오디오 입력, 사운드 감지, GMM,
디코딩 알고리즘, 플러그인 기능 및 기타. 전역 옵션은 앞에 위치해야 합니다.
모든 인스턴스 선언(-오전, -LM-SR), 또는 " 바로 뒤에-글로벌"옵션.

오디오 입력
-입력 {mic|rawfile|mfcfile|adinnet|stdin|netaudio|alsa|oss|esd}
음성 입력 소스를 선택합니다. 파형 파일의 경우 'file' 또는 'rawfile'을 지정하고,
HTK 매개변수 파일의 경우 'htkparam' 또는 'mfcfile'. 파일 입력 시 사용자는
stdin에서 파일 이름을 입력하라는 메시지가 표시되거나 다음을 사용할 수 있습니다. -파일 목록 ~에 대한 옵션
처리할 파일 목록을 지정합니다.

'mic'는 기본 라이브 마이크 장치에서 오디오 입력을 받고, 'adinnet'은
adinnet 클라이언트에서 tcpip 네트워크를 통해 파형 데이터를 수신하는 것을 의미합니다.
'netaudio'는 DatLink/NetAudio 입력에서, 'stdin'은 데이터 입력을 의미합니다.
표준 입력.

파형 파일 입력의 경우 WAV(압축 없음) 및 RAW(헤더 없음, 16비트,
endian)이 기본적으로 지원됩니다. 다음과 같이 컴파일하면 다른 형식을 읽을 수 있습니다.
libsnd 라이브러리. 실제로 지원되는 형식을 확인하려면 도움말 메시지를 참조하세요.
옵션 사용 -도움. stdin 입력의 경우 WAV 및 RAW만 지원됩니다. (기본:
mfc 파일)

Linux에서는 alsa, oss 및 esd를 지정하여 런타임에 API를 선택할 수 있습니다.

-청크 크기 샘플
샘플 수의 오디오 조각 크기입니다. (기본값: 1000)

-파일 목록 파일 이름
(와 -입력 원시 파일|mfcfile)에 나열된 모든 파일에 대해 인식을 수행합니다.
파일. 파일은 줄마다 입력 파일을 포함해야 합니다. 엔진은 모든
파일이 처리됩니다.

-notypecheck
기본적으로 Julius는 입력 매개변수 유형이 AM 또는
아니다. 이 옵션은 검사를 비활성화하고 엔진이 입력 벡터를 사용하도록 합니다.
그대로.

-48
48kHz 샘플링으로 입력을 녹음하고 즉시 16kHz로 다운샘플링합니다. 이것
옵션은 16kHz 모델에만 유효합니다. 다운 샘플링 루틴은
sptk. (계 4.0)

-NA 장치 이름
DatLink 서버 입력을 위한 호스트 이름(-입력 넷오디오).

-입장 포트 번호
-입력 애드넷, 수신할 adinnet 포트 번호를 지정하십시오. (기본값: 5530)

-콧구멍
기본적으로 Julius는 입력 음성 데이터에서 연속적인 XNUMX 샘플을 제거합니다. 이것
옵션은 제거를 금지합니다.

-zmean , -nozmean
이 옵션은 입력 파형의 DC 오프셋 제거를 활성화/비활성화합니다. 오프셋은
전체 입력에서 추정됩니다. 마이크/네트워크 입력의 경우
처음 48000개 샘플(3kHz 샘플링에서 16초)은
견적. (기본: 비활성화)

이 옵션은 채널에 정적 오프셋을 사용합니다. 또한보십시오 -zmeansource for
프레임별 오프셋 제거.

스피치 병리학자 검색 by 수평 제로 크로스
-절단 , - 무절제
수준 및 제로 크로스로 음성 감지를 켜거나 끕니다. 기본값은 켜져 있습니다.
mic / adinnet 입력, 파일의 경우 꺼짐.

-lv 쓰레스
음성 입력 감지를 위한 레벨 임계값입니다. 값은 0에서
32767. (기본값: 2000)

-zc 쓰레스
초당 제로 크로싱 임계값. 레벨을 넘는 입력만
한계점 (-lv)가 계산됩니다. (기본: 60)

- 헤드 마진 msec
음성 세그먼트 시작 시 묵음 마진(밀리초)입니다. (기본값: 300)

-꼬리 여백 msec
음성 세그먼트 끝의 묵음 여백(밀리초)입니다. (기본값: 400)

입력 거부
입력 길이에 따라 두 가지 간단한 프런트 엔드 입력 거부 방법이 구현됩니다.
감지된 세그먼트의 평균 전력. 평균 전력에 의한 거부는
실험적이며 컴파일 시 --enable-power-reject로 활성화할 수 있습니다. 유효한
전력 계수 및 실시간 입력만 있는 MFCC 기능.

GMM 기반 입력 거부에 대해서는 아래 GMM 섹션을 참조하십시오.

-거절단축 msec
지정된 밀리초보다 짧은 입력을 거부합니다. 검색이 종료되고
결과가 출력되지 않습니다.

-파워쓰레스 쓰레스
평균 에너지로 입력된 세그먼트를 거부합니다. 평균 에너지의 경우
마지막으로 인식된 입력이 임계값 미만이면 Julius가 입력을 거부합니다.
(개정 4.0)

이 옵션은 --enable-power-reject가 컴파일 시 지정된 경우에 유효합니다.
시간.

가우시안 혼합물 모델 / GMM-VAD
GMM은 누적 점수에 의한 입력 거부 또는 프런트엔드에 사용됩니다.
--enable-gmm-vad가 지정된 경우 GMM 기반 VAD.

참고: GMM에 필요한 적절한 MFCC 매개변수도 설정해야 합니다.
AM 섹션에 설명된 음향 매개변수 지정 -AM_GMM.

GMM 기반 VAD가 활성화되면 음성 활동 점수는 각 시간에 계산됩니다.
프런트 엔드 처리로 프레임. 값은 \[ \max_{m \in M_v}로 계산됩니다.
p(x|m) - \max_{m \in M_n} p(x|m) \] 여기서 $M_v$는 음성 GMM의 집합이고 $M_n$은
이름이 다음과 같이 지정되어야 하는 노이즈 GMM 세트 -gmm거부. 활동
점수는 마지막 N 프레임에 대해 평균화됩니다. 여기서 N은 다음으로 지정됩니다.
-gmm마진. Julius는 각 프레임에서 평균 활동 점수를 업데이트하고 감지합니다.
값이 지정된 값보다 높을 때 음성 상향 트리거 -gmmup
값보다 낮아지면 다운 트리거 감지 -gmmdown.

-gmm hmmdefs_파일
HTK 형식의 GMM 정의 파일입니다. 지정된 경우 GMM 기반 입력 검증
1차 패스와 동시에 진행되며 입력을 거부할 수 있습니다.
에 의해 지정된 결과에 따라 -gmm거부. GMM은 다음과 같이 정의되어야 합니다.
단일 상태 HMM.

-gmmnum 번호
GMM 계산에서 프레임당 계산할 가우시안 구성 요소의 수입니다. 오직
빠른 계산을 위해 N-최고 가우시안이 계산됩니다. 기본값은 10입니다.
더 작은 값을 지정하면 GMM 계산 속도가 빨라지지만 값이 너무 작습니다.
(1 또는 2) 식별 성능이 저하될 수 있습니다.

-gmm거부
잘못된 입력으로 거부될 GMM 이름의 쉼표로 구분된 목록입니다. 언제
전체 입력에 대해 누적된 GMM의 로그 우도는
첫 번째 패스와 동시에 계산됩니다. 최대 점수의 GMM 이름인 경우
이 문자열 내에 있으면 두 번째 패스가 실행되지 않고 입력이
거부되었습니다.

-gmm마진 프레임
(GMM_VAD) 프레임의 헤드 마진. GMM에서 음성 트리거가 감지되면
인식은 현재 프레임에서 이 값을 뺀 값에서 시작됩니다. (개정 4.0)

이 옵션은 --enable-gmm-vad로 컴파일된 경우에만 유효합니다.

-gmmup 가치
(GMM_VAD) 음성 활동 점수의 상향 트리거 임계값. (개정 4.1)

이 옵션은 --enable-gmm-vad로 컴파일된 경우에만 유효합니다.

-gmmdown 가치
(GMM_VAD) 음성 활동 점수의 다운 트리거 임계값. (개정 4.1)

이 옵션은 --enable-gmm-vad로 컴파일된 경우에만 유효합니다.

디코딩 선택권
실시간 처리는 MFCC 계산 1st pass의 동시 처리를 의미합니다.
디코딩. 기본적으로 패스의 실시간 처리는 마이크/
adinnet / netaudio 입력 및 기타.

-실시간 , -실시간 없음
첫 번째 패스에서 실시간(파이프라인) 처리를 명시적으로 켜거나 끕니다.
기본값은 파일 입력의 경우 꺼져 있고 마이크, adinnet 및 NetAudio의 경우 켜짐입니다.
입력. 이 옵션은 CMN 및 에너지 정규화가 수행되는 방식과 관련이 있습니다.
꺼져 있으면 전체 입력의 평균 기능을 사용하여 수행됩니다. 켜져 있으면 MAP-CMN
실시간 처리를 위한 에너지 정규화.

기타. 옵션
-C jconf 파일
여기에서 jconf 파일을 로드합니다. jconffile의 내용은 이 위치에서 확장됩니다.
포인트.

-번역
버전 정보를 표준 오류로 출력하고 종료합니다.

-환경
엔진 설정 정보를 표준 오류로 인쇄하고 종료합니다.

-조용한
더 적은 로그를 출력합니다. 결과적으로 최상의 단어 시퀀스만 인쇄됩니다.

-디버그
(디버그용) 방대한 내부 메시지와 디버그 정보를 로그에 출력합니다.

-검사 {wchmm|격자|트리폰}
디버그를 위해 대화형 확인 모드로 들어갑니다.

-플러그인 디렉토리 디렉토리
플러그인을 로드할 디렉토리를 지정합니다. 디렉토리가 여러 개인 경우 다음과 같이 지정하십시오.
콜론으로 구분된 목록입니다.

선언 for 멀티 디코딩
다음 인수는 기본 매개변수로 새 구성 세트를 생성하고
스위치 전류 세트. 옵션 뒤에 지정된 Jconf 매개변수는
현재 세트.

다중 모델 디코딩을 수행하려면 이러한 인수를 각 모델의 첫 번째에 지정해야 합니다.
/ 이름이 다른 인스턴스를 검색합니다. 첫 번째 인스턴스 정의 이전의 모든 옵션
무시됩니다.

인스턴스 정의를 찾을 수 없는 경우(Julius의 이전 버전) 모든 옵션은 다음과 같습니다.
_default라는 기본 인스턴스에 할당됩니다.

단일 LM 및 다중 AM을 사용한 디코딩은 완전히 지원되지 않습니다. 을 위한
예를 들어 다음과 같이 jconf 파일을 구성할 수 있습니다.
이러한 유형의 모델 공유는 아직 지원되지 않습니다.
할당된 AM에. 대신 각각에 대해 동일한 LM을 정의하여 동일한 결과를 얻을 수 있습니다.
오전, 다음과 같이:

-오전 name
새 AM 구성 집합을 생성하고 현재를 새 것으로 전환합니다. 당신은
독특한 이름. (개정 4.0)

-LM name
새 LM 구성 집합을 만들고 현재를 새 것으로 전환합니다. 당신은
독특한 이름. (개정 4.0)

-SR name 오전_이름 lm_name
새 검색 구성 집합을 만들고 현재를 새 것으로 전환합니다. 지정된
AM과 LM이 할당됩니다. 그만큼 오전_이름lm_name 이름 또는 ID일 수 있습니다.
숫자. 고유한 이름을 지정해야 합니다. (개정 4.0)

-AM_GMM
프런트엔드 처리에 GMM을 사용하는 경우 GMM별 음향을 지정할 수 있습니다.
이 옵션 뒤의 매개변수. 지정하지 않으면 -AM_GMM GMM을 사용하면 GMM은
마지막 AM과 동일한 매개변수 벡터를 공유합니다. 현재 AM이 다음으로 전환됩니다.
GMM 4.0이므로 일반 AM 구성과 혼동하지 않도록 주의하세요. (개정 XNUMX)

-글로벌
전역 섹션을 시작합니다. 전역 옵션은 모든 인스턴스 앞에 위치해야 합니다.
선언, 또는 다중 모델 인식에서 이 옵션 이후. 이것은 사용할 수 있습니다
여러 번. (개정 4.1)

-nosectioncheck , -섹션체크
다중 모델 디코딩에서 옵션 위치 확인을 비활성화/활성화합니다. 활성화되면
인스턴스 선언 사이의 옵션은 "섹션"으로 취급되며
옵션 유형을 작성할 수 있습니다. 예를 들어 옵션이 있을 때 -오전 가 지정되면 AM만
관련 옵션은 다른 선언이 발견될 때까지 옵션 뒤에 위치할 수 있습니다. 또한,
전역 옵션은 모든 인스턴스 선언 전에 맨 위에 위치해야 합니다. 이것은
기본적으로 활성화됩니다. (개정 4.1)

지원하는 언어 모델 (-LM)
이 그룹에는 각 언어 모델 유형의 모델 정의에 대한 옵션이 포함되어 있습니다. 사용할 때
여러 LM, 하나의 인스턴스는 하나의 LM만 가질 수 있습니다.

LM 구성에는 한 가지 유형의 LM만 지정할 수 있습니다. 멀티를 사용하고 싶다면
모델을 새로운 LM으로 정의해야 합니다.

N-그램
-d 빙그램_파일
바이너리 형식 N-gram을 사용합니다. ARPA N-gram 파일을 Julius 바이너리로 변환 가능
mkbingram으로 포맷합니다.

-nlr arpa_ngram_파일
표준 ARPA 형식의 정방향 왼쪽에서 오른쪽 N-gram 언어 모델입니다. 언제
순방향 N-그램과 역방향 N-그램이 모두 지정되면 Julius는 이를 사용합니다.
2차 패스는 정방향 1그램, 2차 패스는 역방향 N그램입니다.

ARPA 파일은 종종 거대해지고 로드하는 데 많은 시간이 필요하기 때문에
ARPA 파일을 mkbingram으로 Julius 바이너리 형식으로 변환하는 것이 좋습니다. 참고
정방향 및 역방향 N-gram을 모두 인식에 사용하면 함께
단일 바이너리로 변환됩니다.

이 옵션으로 순방향 N-그램만 지정하고 역방향 N-그램은 지정하지 않은 경우
에 의해 지정된 -nrl, Julius는 정방향 N-gram만으로 인식을 수행합니다. 그만큼
1차 패스는 주어진 N-그램에서 2그램 항목을 사용하고 2차 패스는
정방향 확률을 역방향으로 변환하여 주어진 N-그램을 사용합니다.
베이즈 규칙에 의한 확률. (개정 4.0)

-nrl arpa_ngram_파일
표준 ARPA 형식의 역방향 오른쪽에서 왼쪽으로 N-gram 언어 모델입니다. 언제
정방향 N-그램과 역방향 N-그램이 모두 지정되면 Julius는 정방향 N-그램을 사용합니다.
첫 번째 패스에는 2-그램, 두 번째 패스에는 이 역방향 N-그램입니다.

ARPA 파일은 종종 거대해지고 로드하는 데 많은 시간이 필요하기 때문에
ARPA 파일을 mkbingram으로 Julius 바이너리 형식으로 변환하는 것이 좋습니다. 참고
정방향 및 역방향 N-gram을 모두 인식에 사용하면 함께
단일 바이너리로 변환됩니다.

이 옵션에 의해 역방향 N-그램만 지정되고 정방향 N-그램이 지정되지 않은 경우
에 의해 지정된 -nlr, Julius는 역방향 N-gram만으로 인식을 수행합니다.
첫 번째 패스는 역방향에서 계산된 정방향 1그램 확률을 사용합니다.
베이즈 규칙을 사용한 2그램. 두 번째 패스는 주어진 역방향 N-그램을 완전히 사용합니다.
(개정 4.0)

-v dict_file
단어 사전 파일.

-실헤드 단어_문자열 -실테일 단어_문자열
시작 부분의 침묵에 대한 사전에 정의된 침묵 단어
문장과 문장의 끝. (기본값: " ", " ")

-마펑크 단어_문자열
알 수 없는 단어를 지정하십시오. 기본값은 " " 또는 " ". 할당하는 데 사용됩니다.
알 수 없는 단어, 즉 사전에 없는 단어에 대한 단어 확률
N-그램 어휘.

-iwspword
단어 간 일시 중지에 해당하는 단어 항목을 사전에 추가합니다.
이 기능이 없는 일부 언어 모델에서 인식 정확도를 향상시킬 수 있습니다.
명시적인 단어 간 일시 중지 모델링. 추가할 단어 항목은 다음을 통해 변경할 수 있습니다.
-iwspentry.

-iwspentry word_entry_string
추가할 단어 항목 지정 -iwspword. (기본: " [sp] sp
sp")

- 격막 번호
쉽게 하기 위해 어휘 트리에서 격리할 고주파 단어 수
1st의 one-best approximation으로 발생할 수 있는 approximation error
통과하다. (기본값: 150)

문법
반복하여 여러 문법을 지정할 수 있습니다. -그램-그램리스트. 이
다른 옵션의 비정상적인 동작입니다(일반적인 Julius 옵션에서 마지막 옵션은
이전 것보다 우선합니다). 당신이 사용할 수있는 -노그램 이미 문법을 재설정하려면
지점 앞에 지정됩니다.

-그램 그램프리픽스1[,그램프리픽스2[,그램프리픽스3,...]]
사용할 문법의 쉼표로 구분된 목록입니다. 인수는 다음의 접두사여야 합니다.
문법, 즉 다음과 같은 경우 foo.dfafoo.dict로 지정해야 합니다.
단일 인수 foo. 여러 문법을 한 번에 하나의 형식으로 지정할 수 있습니다.
쉼표로 구분된 목록입니다.

-그램리스트 목록_파일
사용할 문법 목록이 포함된 문법 목록 파일을 지정합니다. 목록
파일에는 각각 한 줄에 문법의 접두사가 포함되어야 합니다. 상대 경로
목록 파일은 현재 경로 또는
구성 파일.

-dfa dfa_file -v dict_file
문법 파일을 별도로 지정하는 오래된 방법입니다. 이것은 가짜이며 해서는 안 됩니다.
더 이상 사용할 수 없습니다.

-노그램
에 의해 이미 지정된 현재 문법 목록을 제거합니다. -그램, -그램리스트, -dfa
-v.

고립된 워드
다음을 사용하여 사전을 지정할 수 있습니다. -w-wlist. 여러 개를 지정할 때
번, 그들 모두는 시작할 때 읽힐 것입니다. 당신이 사용할 수있는 -노그램 재설정
그 시점에서 이미 지정된 사전.

-w dict_file
고립된 단어 인식을 위한 단어 사전. 파일 형식은 다른 것과 동일
LM. (개정 4.0)

-wlist 목록_파일
사용할 사전 목록이 포함된 사전 목록 파일을 지정하십시오.
목록 파일에는 각 행마다 사전의 파일 이름이 포함되어야 합니다. ㅏ
목록 파일의 상대 경로는 목록 파일에 대한 상대 경로로 처리됩니다.
현재 경로 또는 구성 파일. (개정 4.0)

-노그램
에 의해 이미 지정된 현재 사전 목록을 제거합니다. -w-wlist.

-wsil head_sil_model_name tail_sil_model_name sil_context_name
고립된 단어 인식 시 무음 모델이 머리에 추가되고
인식 시 각 단어의 꼬리. 이 옵션은 묵음 모델을 지정합니다.
추가됨. sil_context_name head sil 모델과 tail sil 모델의 이름입니다.
단어 머리 전화와 꼬리 전화의 맥락으로. 예를 들어 다음을 지정하는 경우
-wsil silB silE sp, 음소 순서가 b eh t인 단어는 silB로 번역됩니다.
sp-b+eh b-eh+t eh-t+sp silE. (개정 4.0)

Handshake LM
-userlm
프로그램에서 사용자 LM 함수를 사용하도록 선언합니다. 이 옵션을 지정해야 합니다.
사용자 정의 LM 기능을 사용하는 경우. (개정 4.0)

기타. LM 옵션
-강제
사전에서 오류 단어를 건너뛰고 강제 실행합니다.

음향 효과 모델 기능 분석 (-오전()-AM_GMM)
이 섹션에서는 음향 모델, 특징 추출, 특징에 대한 옵션에 대해 설명합니다.
정규화 및 스펙트럼 빼기.

-AM 이름 뒤에는 음향 모델 및 관련 사양을 작성해야 합니다. 당신이 사용할 수있는
서로 다른 MFCC 유형으로 훈련된 여러 AM. GMM의 경우 필수 매개변수 조건
이후 AM과 동일하게 지정해야 합니다. -AM_GMM.

여러 AM을 사용하는 경우 -smp기간, -smp주파수, -fsize-fshift 되어야
모든 AM에서 동일합니다.

음향 효과 HMM
-h hmmdef_파일
음향 HMM 정의 파일. HTK ascii 형식 또는 Julius 바이너리여야 합니다.
체재. mkbinhmm을 사용하여 HTK ASCII 형식을 Julius 바이너리 형식으로 변환할 수 있습니다.

-hlist hmmlist_file
전화 매핑을 위한 HMMList 파일입니다. 이 파일은 논리 간의 매핑을 제공합니다.
사전에 생성된 triphone 이름과 hmmdefs에 정의된 HMM 이름.
컨텍스트 종속 모델에 대해 이 옵션을 지정해야 합니다.

-tmix 번호
혼합 코드북에서 계산할 상위 가우시안 수를 지정합니다.
숫자가 작으면 음향 계산 속도가 빨라지지만 AM 정확도가 떨어질 수 있습니다.
값이 너무 작으면 더 나빠집니다. 또한보십시오 -gprune. (기본값: 2)

-sp모델 name
발화에서 짧은 일시 중지에 해당하는 HMM 모델 이름을 지정합니다. 그만큼
short-pause 모델 이름이 인식에 사용됩니다: short-pause skipping on
문법 인식, 단어 끝 짧은 일시 중지 모델 삽입 -iwsp N-그램에서
또는 짧은 일시 중지 세분화(-spsegment). (기본값: "sp")

-다중 경로
다중 경로 모드를 활성화합니다. 디코딩을 더 빠르게 하기 위해 Julius는 기본적으로
각 모델이 하나의 전환만 가져야 하는 HMM 전환에 대한 제한
초기 상태와 종료 상태. 다중 경로 모드에서 Julius는 추가 처리를 수행합니다.
모델 간 전환 시 모델 건너뛰기 전환 및 다중 허용
출력/입력 전환. 이 옵션을 지정하면 Julius가
조금 더 느리고 더 큰 빔 폭이 필요할 수 있습니다.

이 함수는 Julius 3.x의 컴파일 타임 옵션이었으며 이제
런타임 옵션. 기본적으로(이 옵션 없이) Julius는 전환을 확인합니다.
지정된 HMM의 유형을 지정하고 필요한 경우 다중 경로 모드를 활성화합니다. 당신은 할 수 있습니다
이 옵션으로 다중 경로 모드를 강제 실행합니다. (rev.4.0)

-gprune {안전|휴리스틱|빔|없음|기본}
사용할 가우시안 프루닝 알고리즘을 설정합니다. 혼합 혼합 모델의 경우 Julius가 수행합니다.
상위 N개만 계산하여 음향 계산을 줄이기 위한 가우시안 가지치기
각 프레임에서 각 코드북의 가우시안. 기본 설정이 설정됩니다
모델 유형 및 엔진 설정에 따라. 기본값은 수락을 강제합니다
기본 설정. 정리를 비활성화하고 전체를 수행하려면 이것을 없음으로 설정하십시오.
계산. safe는 상위 N개의 가우시안이 계산되도록 보장합니다. 휴리스틱 및
빔은 보다 공격적인 계산 비용 절감을 수행하지만 작은 결과를 초래할 수 있습니다.
정확도 손실 모델(기본값: 묶인 혼합물에 대한 안전(표준), 빔(빠름)
모델, 혼합 혼합 모델이 아닌 경우 없음).

-iwcd1 {max|avg|최고의 숫자}
단어의 머리와 꼬리에 있는 단어 간 삼음을 근사화하는 방법을 선택합니다.
첫 번째 패스에서.

max는 동일한 컨텍스트 트라이폰의 최대 우도를 적용합니다. 평균 의지
동일한 컨텍스트 트라이폰의 평균 우도를 적용합니다. 최고의 숫자는
동일한 컨텍스트 트라이폰의 상위 N-최우도의 평균을 적용합니다.

기본값은 N-gram과 함께 사용하는 경우 최고 3이고 문법 및 단어의 경우 평균입니다. 이 때
AM은 두 유형의 LM에서 공유하며 후자를 선택합니다.

-iwsp벌칙 뜨다
다음에 의해 추가된 단어 끝에 짧은 일시 중지에 대한 삽입 페널티 -iwsp.

-gshmm hmmdef_파일
이 옵션을 지정하면 Julius는 다음에 대해 가우시안 혼합 선택을 수행합니다.
효율적인 디코딩 hmmdefs는 다음에서 생성된 모노폰 모델이어야 합니다.
mkgshmm을 사용하는 일반 모노폰 HMM 모델.

-gsnum 번호
GMS에서 해당 트라이폰을 계산하기 위해 모노폰 상태 수를 지정합니다.
세부 사항. (기본: 24)

스피치 병리학자 분석
현재 Julius에서는 MFCC 기능 추출만 지원됩니다. 따라서 인식할 때
파일 또는 마이크의 파형 입력, AM은 MFCC에 의해 훈련되어야 합니다. 매개변수
조건은 또한 훈련 조건과 정확히 동일하게 설정되어야 합니다.
아래 옵션.

HTK 매개변수 파일에 입력을 제공하면 다음을 위해 모든 매개변수 유형을 사용할 수 있습니다.
오전. 이 경우 Julius는 입력 기능 및 AM의 유형에 대해 신경 쓰지 않습니다.
그것들을 벡터 시퀀스로 읽고 주어진 AM과 일치시킵니다. Julius만 확인
매개변수 유형이 동일한지 여부. 잘 작동하지 않으면 비활성화 할 수 있습니다
이 확인 -notypecheck.

Julius에서 매개변수 종류 및 한정자(HTK의 TARGETKIND) 및 번호
cepstral 매개변수(NUMCEPS)의 내용에서 자동으로 설정됩니다.
AM 헤더이므로 옵션으로 지정할 필요가 없습니다.

다른 매개변수는 훈련 조건과 정확히 동일하게 설정해야 합니다. 당신은 또한 수
다음을 통해 AM을 Julius에게 교육하는 데 사용한 HTK 구성 파일을 제공합니다. -htkconf. 이 때
옵션이 적용되면 Julius는 구성 파일을 구문 분석하고 적절한 매개변수를 설정합니다.

다음을 사용하여 이러한 분석 매개변수 설정을 이진 HMM 파일에 추가로 포함할 수 있습니다.
mkbinhmm.

옵션이 여러 가지 방법으로 지정된 경우 아래 순서대로 평가됩니다.
AM 내장 매개변수가 있는 경우 먼저 로드됩니다. 그런 다음 HTK 구성 파일
주어진 -htkconf 파싱됩니다. AM 내장 값으로 이미 설정된 값인 경우 HTK
구성이 이를 재정의합니다. 마지막으로 직접 옵션이 로드되어
이전에 로드된 설정을 재정의합니다. 동일한 옵션이 지정된 경우
여러 번, 나중에 다음을 제외하고는 이전을 무시합니다. -htkconf 평가될 것이다
위에서 설명한대로 먼저.

-smp기간 기간
입력 음성의 샘플링 기간(100나노초 단위). 샘플링 속도는
또한 지정 -smp주파수. 입력 주파수는
AM의 교육 조건과 동일하게 설정합니다. (기본값: 625,
16,000Hz)

이 옵션은 HTK 옵션 SOURCERATE에 해당합니다. 같은 값이 될 수 있습니다
이 옵션에 부여됩니다.

다중 AM을 사용하는 경우 이 값은 모든 AM에서 동일해야 합니다.

-smp주파수 Hz
입력 음성의 샘플링 주파수를 Hz 단위로 설정합니다. 샘플링 속도는 다음과 같을 수도 있습니다.
를 사용하여 지정 -smp기간. 이 주파수는 동일하게 설정되어야 합니다.
AM의 훈련 조건에. (기본: 16,000)

다중 AM을 사용하는 경우 이 값은 모든 AM에서 동일해야 합니다.

-fsize 샘플_번호
샘플 수의 창 크기. (기본값: 400)

이 옵션은 HTK 옵션 WINDOWSIZE에 해당하지만 값은
샘플(HTK 값/smpPeriod).

다중 AM을 사용하는 경우 이 값은 모든 AM에서 동일해야 합니다.

-fshift 샘플_번호
샘플 수의 프레임 이동. (기본: 160)

이 옵션은 HTK 옵션 TARGETRATE에 해당하지만 값은
샘플(HTK 값/smpPeriod).

다중 AM을 사용하는 경우 이 값은 모든 AM에서 동일해야 합니다.

-프리앰프 뜨다
프리엠퍼시스 계수. (기본값: 0.97)

이 옵션은 HTK 옵션 PREEMCOEF에 해당합니다. 같은 값을 줄 수 있음
이 옵션에.

-fbank NUM
필터뱅크 채널 수. (기본: 24)

이 옵션은 HTK 옵션 NUMCHANS에 해당합니다. 같은 값을 줄 수 있음
이 옵션에. 기본값은 HTK(22)와 동일하지 않습니다.

-ceplif NUM
Cepstral 리프팅 계수. (기본값: 22)

이 옵션은 HTK 옵션 CEPLIFTER에 해당합니다. 같은 값을 줄 수 있음
이 옵션에.

-원시 , -노라웨
사전 강조 전에 원시 에너지를 사용하여 활성화/비활성화(기본값: 비활성화됨)

이 옵션은 HTK 옵션 RAWENERGY에 해당합니다. 기본
값이 HTK와 다릅니다(HTK에서 활성화, Julius에서 비활성화).

-정상 , -노노멀
정규화 로그 에너지를 활성화/비활성화합니다. 라이브 입력에서 이 정규화는
마지막 입력의 평균에서 근사합니다. (기본: 비활성화)

이 옵션은 HTK 옵션 ENORMALISE에 해당합니다. 기본
값이 HTK와 다릅니다(HTK에서 활성화, Julius에서 비활성화).

-규모 확대 float_scale
로그 에너지를 정규화할 때 로그 에너지의 스케일링 계수. (기본: 1.0)

이 옵션은 HTK 옵션 ESCALE에 해당합니다. 기본
값은 HTK(0.1)와 다릅니다.

-실루어 뜨다
로그 에너지를 정규화할 때 에너지 침묵 플로어(dB). (기본값: 50.0)

이 옵션은 HTK 옵션 SILFLOOR에 해당합니다.

-델윈 액자
프레임 수의 델타 창 크기입니다. (기본값: 2)

이 옵션은 HTK 옵션 DELTAWINDOW에 해당합니다. 같은 값이 될 수 있습니다
이 옵션에 부여됩니다.

-acwin 액자
프레임 수의 가속 창 크기입니다. (기본값: 2)

이 옵션은 HTK 옵션 ACCWINDOW에 해당합니다. 같은 값을 줄 수 있음
이 옵션에.

-고주파수 Hz
MFCC 필터뱅크 계산을 위한 대역 제한 활성화: 상위 주파수 설정
끊다. -1 값은 비활성화합니다. (기본값: -1)

이 옵션은 HTK 옵션 HIFREQ에 해당합니다. 에 동일한 값을 부여할 수 있습니다.
이 옵션.

-lofreq Hz
MFCC 필터뱅크 계산을 위한 대역 제한 활성화: 더 낮은 주파수 설정
끊다. -1 값은 비활성화합니다. (기본값: -1)

이 옵션은 HTK 옵션 LOFREQ에 해당합니다. 에 동일한 값을 부여할 수 있습니다.
이 옵션.

-zmeanframe , -nozmeanframe
음성 입력의 경우 이 옵션은 프레임별 DC 오프셋 제거를 활성화/비활성화합니다.
이는 HTK 구성 ZMEANSOURCE에 해당합니다. 이것은 함께 사용할 수 없습니다
-zmean. (기본: 비활성화)

-힘을 사용하다
필터뱅크 분석에서 크기 대신 전력을 사용합니다. (기본: 비활성화)

표준화
Julius는 입력에 대해 CMN(cepstral mean normalization)을 수행할 수 있습니다. CMN은
주어진 AM이 CMN으로 훈련되었을 때 활성화됨(즉,
머리글).

cepstral 평균은 입력 유형에 따라 다른 방식으로 추정됩니다.
파일 입력 시 평균은 전체 입력에서 계산됩니다. 라이브 입력에서
마이크 및 네트워크 입력으로 입력의 ceptral 평균은 알 수 없습니다
시작. 따라서 MAP-CMN이 사용됩니다. MAP-CMN에서는 초기 평균 벡터가 적용됩니다.
처음에는 평균 벡터가
입력이 진행됨에 따라 입력 벡터를 증가시킵니다. 아래 옵션은 다음의 동작을 제어할 수 있습니다.
지도-CMN.

-cvn
cepstral 분산 정규화를 활성화합니다. 파일 입력 시 전체의 분산
입력이 계산된 후 적용됩니다. 라이브 마이크 입력에서
마지막 입력이 적용됩니다. CVN은 오디오 입력에만 지원됩니다.

-vtln 알파 로우컷 히컷
일반적으로 성도 길이 정규화(VTLN)를 위해 주파수 워핑을 수행합니다.
인수는 뒤틀림 요인, 고주파 컷오프 및 저주파입니다. 끊다. 그들
HTK 구성 값, WARPFREQ, WARPHCUTOFF 및 WARPLCUTOFF에 해당합니다.

-cmnload 파일
시작 시 파일에서 초기 cepstral 평균 벡터를 로드합니다. 그만큼 파일 하나가 되어야 한다
에 의해 저장 -cmnsave. 초기 cepstral 평균을 로드하면 Julius가 더 나은 결과를 얻을 수 있습니다.
실시간 입력에서 첫 발화를 인식합니다. 와 함께 사용할 때
-cmnnoupdate, 이 초기 값은 모든 입력에 사용됩니다.

-cmnsave 파일
계산된 cepstral 평균 벡터를 파일. 매개변수가 저장됩니다
각 입력 끝에서. 출력 파일이 이미 있는 경우 재정의됩니다.

-cmnupdate -cmnnoupdate
실시간 입력의 각 입력에서 cepstral 평균을 업데이트할지 여부를 제어합니다.
비활성화 및 지정 -cmnload 엔진이 항상 로드된 것을 사용하도록 합니다.
정적 초기 cepstral 평균.

-cmnmapweight 뜨다
MAP-CMN에 대한 초기 cepstral 평균의 가중치를 지정합니다. 더 큰 값 지정
더 오랜 기간 동안 초기 cepstral 평균을 유지하고 더 작은 값을 만듭니다.
cepstral 평균은 현재 입력에 더 의존합니다. (기본값: 100.0)

프런트 엔드 처리
Julius는 스펙트럼 빼기를 수행하여 오디오에서 일부 정지 노이즈를 줄일 수 있습니다.
입력. 강력한 방법은 아니지만 일부 상황에서는 작동할 수 있습니다.
Julius는 노이즈 스펙트럼을 추정하는 두 가지 방법이 있습니다. 한 가지 방법은 첫 번째라고 가정하는 것입니다.
음성 입력의 짧은 세그먼트는 노이즈 세그먼트이며 노이즈 스펙트럼을 추정합니다.
세그먼트의 평균으로. 또 다른 방법은 평균 스펙트럼을 계산하는 것입니다.
다른 도구 mkss를 사용하여 노이즈만 입력하고 Julius에 로드합니다. 전자는
음성 파일 입력에 널리 사용되며 후자는 라이브 입력에 사용해야 합니다. 옵션
아래에서 동작을 전환/제어합니다.

-sscalc
각 파일의 헤드 부분을 무음 부분으로 사용하여 스펙트럼 빼기를 수행합니다. 그만큼
헤드 부분 길이는 다음에 의해 지정되어야 합니다. -sscalclen. 파일 입력에만 유효합니다.
충돌 -ssload.

-sscalclen msec
-sscalc, 소음 스펙트럼 추정을 위한 헤드 침묵의 길이 지정
밀리초 단위로. (기본값: 300)

-ssload 파일
사전 추정된 잡음 스펙트럼을 사용하여 음성 입력에 대한 스펙트럼 빼기 수행
에서로드 파일. 노이즈 스펙트럼 파일은 mkss로 만들 수 있습니다. 모두에게 유효
음성 입력. 충돌 -sscalc.

-쌀파 뜨다
다음에 대한 스펙트럼 감산의 알파 계수 -sscalc-ssload. 소음은
이 값이 커질수록 감산이 강해지지만 결과의 왜곡
신호도 현저해집니다. (기본: 2.0)

-ss층 뜨다
스펙트럼 감산의 바닥 계수. 아래로 가는 분광력
빼기 후 XNUMX은 소스 신호로 대체됩니다.
계수를 곱했습니다. (기본값: 0.5)

기타. AM 옵션
-htkconf 파일
주어진 HTK 구성 파일을 구문 분석하고 해당 매개변수를 Julius로 설정합니다.
이 옵션을 사용하면 기본 매개변수 값이 Julius에서 전환됩니다.
기본값은 HTK 기본값입니다.

인식 방법 수색 (-SR)
이 섹션에는 빔과 같은 1차/2차 패스의 검색 매개변수에 대한 옵션이 포함되어 있습니다.
너비 및 LM 가중치, 짧은 일시 중지 분할을 위한 구성, 단어용 스위치
격자 출력 및 혼동 네트워크 출력, 강제 정렬 및 기타 관련 옵션
인식 과정 및 결과 출력.

빔 너비 및 LM 가중치의 기본값은 컴파일 시간 설정에 따라 변경됩니다.
JuliusLib, AM 모델 유형 및 LM 크기. 실제 시작 로그를 참조하십시오.
values.

1st 패스 매개 변수
-lmp 무게 형벌
(N-gram) 첫 번째 패스에 대한 언어 모델 가중치 및 단어 삽입 페널티.

-페널티1 형벌
(문법) 첫 번째 패스에 대한 단어 삽입 페널티. (기본값: 0.0)

-b
첫 번째 패스에서 랭크 빔에 대한 HMM 노드 수의 빔 폭입니다. 이 값
첫 번째 패스에서 검색 폭을 정의하고 총 검색 범위에 지배적인 영향을 미칩니다.
처리 시간. 너비가 작을수록 디코딩 속도가 빨라지지만 값이 너무 작습니다.
검색으로 인한 인식 오류가 크게 증가합니다.
실패. 더 큰 값은 검색을 안정적으로 만들고 오류가 없도록 합니다.
하지만 처리 시간은 너비에 비례하여 늘어납니다.

기본값은 음향 모델 유형에 따라 다릅니다: 400(모노폰), 800
(트라이폰) 또는 1000(트라이폰, 설정=v2.1)

-n제한 NUM
노드당 토큰의 상한. 이 옵션은 --enable-wpair 및
--enable-wpair-nlimit는 컴파일 시 활성화됩니다.

-프로그아웃
첫 번째 패스에서 부분 결과의 점진적 출력을 활성화합니다.

-proginterval msec
에 대한 시간 간격 설정 -프로그아웃 밀리초 단위로. (기본값: 300)

2nd 패스 매개 변수
-lmp2 무게 형벌
(N-gram) 언어 모델 가중치 및 두 번째에 대한 단어 삽입 페널티
패스.

-페널티2 형벌
(문법) 두 번째 패스에 대한 단어 삽입 페널티. (기본값: 0.0)

-b2
두 번째 패스에서 포락선 빔 폭(가설 수). 의 수인 경우
특정 가설 길이에서 단어 확장은 검색하는 동안 이 제한에 도달하고,
더 짧은 가설은 더 이상 확장되지 않습니다. 이렇게 하면 검색이 실패하는 것을 방지할 수 있습니다.
너비 우선과 같은 상황이 동일한 위치에 쌓이고 검색이 개선됩니다.
주로 큰 어휘 조건에 대한 실패. (기본값: 30)

-sb 뜨다
포함된 채점을 위한 점수 봉투 너비입니다. 가설 점수를 계산할 때
생성된 각 가설에 대해 격자 확장 및 Viterbi 작업은
프레임의 점수가 너비 아래로 떨어지면 연설 중간에 잘라냅니다.
작은 값을 주면 두 번째 패스가 빨라지지만 계산 오류가 발생할 수 있습니다.
발생하다. (기본값: 80.0)

-s NUM
스택 크기, 즉 스택에 저장할 수 있는 최대 가설 수
검색하는 동안 스택. 값이 클수록 안정적인 결과를 얻을 수 있지만
필요한 메모리 양이 증가합니다. (기본값: 500)

-m 계산
검색을 중단하는 데 필요한 확장된 가설의 수입니다. 번호가
확장된 가설의 수가 이 임계값보다 크면 검색은
그 시점에서 중단되었습니다. 이 값이 클수록 Julius는
검색 포기. (기본값: 2000)

-n NUM
Julius가 찾으려는 후보의 수입니다. 검색은 여기까지 계속됩니다
다수의 문장 가설이 발견되었습니다. 얻어진 문장 가설
점수별로 정렬되고 최종 결과가 순서대로 표시됩니다(또한
-산출). 최적의 가설이 올바르게 발견될 가능성
이 값이 증가함에 따라 증가하지만 처리 시간도
더 길게. 기본값은 컴파일 시간의 엔진 설정에 따라 다릅니다: 10
(표준) 또는 1(고속 또는 v2.1)

-산출 NUM
검색 종료 시 출력할 상위 N개의 문장 가설. 함께 사용 -n
(기본값 : 1)

-lookuprange 액자
다음 단어 가설을 조회하기 전과 후의 프레임 수를 설정합니다.
두 번째 패스의 단어 격자. 이것은 짧은 단어의 생략을 방지하지만,
값이 클수록 확장된 가설의 수가 증가하고 시스템
느려집니다. (기본값: 5)

-looktrellis
(문법) 확장 대신 첫 번째 패스에서 살아남은 단어만 확장
문법에 의해 예측되는 모든 단어. 이 옵션은 두 번째 패스 디코딩을 만듭니다.
특히 큰 어휘 조건의 경우 더 빠르지만 삭제가 증가할 수 있습니다.
짧은 단어의 오류. (기본: 비활성화)

짧은 일시 중지 분할 / 디코더-VAD
--enable-decoder-vad로 컴파일하면 short-pause 세그먼테이션이
디코더 기반 VAD를 지원하도록 확장되었습니다.

-spsegment
짧은 일시 중지 세그먼테이션 모드를 활성화합니다. 잠시 멈추면 입력이 분할됩니다.
단어(발음에 무음 모델만 있는 단어)가 가장 가능성이 높습니다.
첫 번째 패스의 특정 연속 프레임에서. 세그먼트 끝이 감지되면
Julius는 해당 지점에서 1차 패스를 중지하고 2차 패스를 수행한 후 다음을 계속합니다.
분절. 단어 컨텍스트는 세그먼트 중에서 고려됩니다. (개정 4.0)

--enable-decoder-vad로 컴파일하면 이 옵션은 디코더 기반 VAD를 활성화합니다.
긴 침묵을 건너 뛰려면.

-spdur 액자
입력 세그먼트의 끝을 감지하기 위한 짧은 일시 중지 기간 길이(프레임 수).
(기본값 : 10)

-pausemodels
짧은 일시 중지에 사용할 일시 중지 모델 이름의 쉼표로 구분된 목록
분할. Pause 모델로만 발음이 이루어진 단어
"일시 중지 단어"로 처리되고 일시 중지 감지에 사용됩니다. 지정되지 않은 경우,
~의 이름 -sp모델, -실헤드-실테일 사용하게 될 것이다. (개정 4.0)

-spmargin 액자
디코더 기반 VAD에 대한 트리거 업 시 백스텝 마진. 음성 업 트리거 시
decoder-VAD에 의해 발견되면 Julius는 입력 매개변수를 이 값만큼 되감습니다.
지점에서 인식을 시작합니다. (개정 4.0)

이 옵션은 --enable-decoder-vad로 컴파일된 경우에만 유효합니다.

-spdelay 액자
디코더 기반 VAD에 대한 트리거 업 시 트리거 결정 지연 프레임. (개정 4.0)

이 옵션은 --enable-decoder-vad로 컴파일된 경우에만 유효합니다.

워드 격자 / 혼동 네트워크 출력
-격자 , -놀라티스
단어 그래프 생성을 활성화/비활성화합니다. 검색 알고리즘도 다음으로 변경되었습니다.
더 나은 단어 그래프 생성을 위해 최적화하여 문장 결과가
일반적인 N-best 인식과 동일합니다. (개정 4.0)

-confnet , -noconfnet
혼동 네트워크 생성을 활성화/비활성화합니다. 이 기능을 활성화하면
활성화 -격자 내부적으로. (개정 4.0)

-그래프 범위 액자
그래프 생성 시 인접 위치에서 동일한 단어를 병합합니다. 시작시간이면
동일한 단어의 두 단어 후보의 종료 시간은 지정된 시간 내에 있습니다.
범위, 병합됩니다. 기본값은 0입니다(동일한 단어 병합 허용
정확히 같은 위치) 더 큰 값을 지정하면 더 작아집니다.
그래프 출력. 이 값을 -1로 설정하면 병합이 비활성화됩니다. 이 경우 동일합니다.
다른 점수의 같은 위치에 있는 단어는 그대로 남습니다.
(기본값 : 0)

-그래프컷 깊이
사후 처리 단계에서 단어 깊이로 결과 그래프를 자릅니다. 깊이
값은 프레임에서 허용되는 단어 수입니다. -1로 설정하면 비활성화됩니다.
이 기능. (기본: 80)

-graphboundloop 계산
후처리 단계에서 경계 조정 루프의 수를 제한합니다. 이것
파라미터는 줄리어스가 단락에 의한 무한 조정 루프에 의한 차단을 방지합니다.
단어 진동. (기본값: 20)

-graphsearchdelay , -nographsearchdelay
이 옵션이 활성화되면 Julius는 그래프 생성 알고리즘을 수정합니다.
첫 번째 문장이 나올 때까지 그래프 병합으로 검색을 종료하지 않는 두 번째 패스
후보가 발견되었습니다. 이 옵션은 특히 다음과 같은 경우 그래프 정확도를 향상시킬 수 있습니다.
광범위한 검색을 설정하여 거대한 단어 그래프를 생성할 예정입니다. 즉, 수
첫 번째 패스에서 넓은 빔을 설정하면 그래프 정확도가 향상됩니다. -b
2차 패스 -b2, 그리고 큰 수 -n. (기본: 비활성화)

멀티그램 / 멀티딕 인식
-멀티그램아웃 , -nomultigramout
여러 문법을 사용한 문법 인식에서 Julius는 가장 좋은 것만 출력합니다.
모든 문법 중에서 결과. 이 옵션을 활성화하면 Julius가 출력합니다.
각 문법에 대한 결과입니다. (기본: 비활성화)

강요된 조정
-월라인
인식 결과를 위해 단어 단위로 비터비 정렬을 합니다. 단어
경계 프레임과 프레임당 평균 음향 점수가 계산됩니다.

-팔라인
인식 결과를 위해 폰 단위로 비터비 정렬을 합니다. 전화기
경계 프레임과 프레임당 평균 음향 점수가 계산됩니다.

- 정렬
인식 결과에 대해 상태별 비터비 정렬을 수행합니다. 주 경계
프레임과 프레임당 평균 음향 점수가 계산됩니다.

기타. 수색 옵션
-비활성
비활성 상태로 이 인식 프로세스 인스턴스를 시작합니다. (개정 4.0)

-1패스
첫 번째 패스만 수행합니다.

-fallback1pass
두 번째 패스가 실패하면 Julius는 결과 없이 인식을 종료합니다. 이 옵션
Julius에게 1차 통과 시 2차 통과 결과를 최종 결과로 출력하도록 지시
실패합니다. 일부 점수 출력(신뢰도 등)은 유용하지 않을 수 있습니다. 이했다
Julius-3.x의 기본 동작입니다.

-no_ccd , -force_ccd
검색 시 전화 컨텍스트 처리를 명시적으로 전환합니다. 일반적으로 Julius는
사용하는 AM이 모델 이름에서 컨텍스트 종속 모델인지 여부,
즉, 이름에 문자 + 및 -가 포함되어 있는지 여부입니다. 이 옵션은
자동 감지.

-cmalpha 뜨다
신뢰도 점수 매기기를 위한 평활화 매개변수입니다. (기본값: 0.05)

-iwsp
(다중 경로 모드만 해당) 단어 간 컨텍스트 없는 짧은 일시 중지 삽입을 활성화합니다.
이 옵션은 모든 단어 끝에 건너뛸 수 있는 짧은 일시 중지 모델을 추가합니다. 그만큼
짧은 일시 중지 모델은 다음과 같이 지정할 수 있습니다. -sp모델.

-트랜스프 뜨다
투명한 단어에 대한 추가 삽입 페널티. (기본값: 0.0)

-데모
에 해당 -프로그아웃 -조용한.

환경 변수


알사데프
(alsa 장치와 함께 마이크 입력 사용) 캡처 장치 이름을 지정합니다. 지정하지 않은 경우,
"기본값"이 사용됩니다.

오디오 데브
(oss 장치와 함께 마이크 입력 사용) 캡처 장치 경로를 지정합니다. 지정하지 않은 경우,
"/개발/dsp" 으로 사용될 것.

LATENCY_MSEC
마이크 입력의 입력 대기 시간을 밀리초 단위로 설정해 보십시오. 더 작은 값은
대기 시간을 단축하지만 때로는 프로세스를 불안정하게 만듭니다. 기본값은
실행중인 OS.

사용 예


시스템 사용 예는 Julius 문서의 자습서 섹션을 참조하십시오.

주의


jconf 파일에 대한 참고 사항: jconf 파일의 상대 경로는
현재 디렉토리가 아닌 jconf 파일 자체.

onworks.net 서비스를 사용하여 julius 온라인 사용


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad