이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 Pocketsphinx_batch 명령입니다.
프로그램:
이름
Pocketsphinx_batch - 배치 모드에서 음성 인식 실행
개요
Pocketsphinx_batch -흠 흠디르 -dict 딕셔너리 파일 [ 옵션 ] ...
기술
배치 모드에서 발화 목록에 대해 음성 인식을 실행합니다. 인수 목록
다음과 같습니다 :
-adchdr
오디오 파일 헤더의 크기(바이트)(헤더는 무시됨)
-adcin 입력은 원시 오디오 데이터입니다.
-agc c0에 대한 자동 이득 제어('max', 'emax', 'noise' 또는 'none')
-agcthresh
자동 이득 제어를 위한 초기 임계값
-모든 전화
음성 lm을 사용한 음소 디코딩
-allphone_ci
음성 문자 및 문맥 독립적 단위만 사용하여 음소 디코딩 수행
-알파 프리엠퍼시스 매개변수
-argfile
추가 인수를 제공하는 파일입니다.
-규모
신뢰도 점수 계산을 위한 음향 모델 척도의 역수
-아 음향 점수에 역 가중치가 적용됩니다.
-역추적
결과를 인쇄하고 로그 파일에 역추적합니다.
-빔 Viterbi 검색의 모든 프레임에 적용되는 빔 너비(값이 작을수록 더 넓다는 의미)
빔)
-최고의 경로
단어 격자에 대해 bestpath(Dijkstra) 검색 실행(3차 패스)
-bestpathlw
최적 경로 검색을 위한 언어 모델 확률 가중치
-build_outdirs
출력 디렉터리에 누락된 하위 디렉터리 만들기
-cepdir
파일 디렉터리(제어 파일의 filespecs 앞에 붙음)
-cepext
입력 파일 확장자(제어 파일의 filespec 뒤에 붙음)
-ceplen
입력 특징 벡터의 구성요소 수
-cmn 켑스트럴 평균 정규화 체계('현재', '이전' 또는 '없음')
-cmninit
'prior'가 사용되는 경우 cepstral 평균의 초기값(쉼표로 구분)
-compallsen
모든 프레임에서 모든 세논 점수를 계산합니다. (많은 경우 더 빠를 수 있습니다.)
세노네스)
-ctl 처리할 파일 목록 발화
-ctlcount
처리할 발화 수(건너뛴 후) -ctloffset 항목)
-ctlincr
제어 파일의 N번째 줄마다 수행
-ctloffset
시작 부분의 발화 수 -ctl 건너뛸 파일
-ctm CTM 파일 형식으로 출력(사후 정렬이 필요할 수 있음)
-디버그 디버깅 메시지 레벨
-dict 발음 사전(어휘) 입력 파일
-딕케이스
사전은 대소문자를 구분합니다(참고: ASCII 문자에는 대소문자를 구분하지 않습니다).
만 해당)
-떨림
1/2비트 노이즈 추가
-doublebw
이중 대역폭 필터 사용(동일한 중심 주파수)
-ds 프레임 GMM 계산 다운샘플링 비율
-fdict 단어 발음 사전 입력 파일
-위업 기능 스트림 유형은 음향 모델에 따라 다릅니다.
-featparams
특징 추출 매개변수를 포함합니다.
-fillprob
필러 단어 전환 확률
-프레이트 프레임 속도
-fsg 유한 상태 문법 파일 형식
-fsgctl
각 발화에 사용할 파일 목록 FSG 파일
-fsgdir
FSG 파일용 디렉토리
-fsgext
FSG 파일의 확장자(선행 점 포함)
-fsgusealtpron
FSG에 대체 발음 추가
-fsgufiller
각 주에 보충어를 삽입하세요.
-fwdplat
단어 격자에 대해 순방향 단순 어휘 검색 실행(두 번째 패스)
-fwd플랫빔
두 번째 패스 평면 검색의 모든 프레임에 적용되는 빔 너비
-fwdflaftefwid
fwdplat 검색에서 검색할 단어의 최소 끝 프레임 수
-fwdflatlw
플랫 어휘집(2차 패스) 디코딩을 위한 언어 모델 확률 가중치
-fwdplatsfwin
fwdplat 검색에서 후속 단어를 검색하기 위한 격자의 프레임 창
-fwd flatwbeam
XNUMX차 단순 검색에서 단어 종료에 적용되는 빔 너비
-fwdtree
정방향 어휘 트리 검색 실행(1차 패스)
-흠 음향 모델 파일이 포함되어 있습니다.
-우울 출력 파일 이름
-hypseg
분할 파일 이름으로 출력
-input_endian
크든 작든 입력 데이터의 엔디안은 NIST 또는 MS Wav인 경우 무시됩니다.
-jsgf 문법 파일
-키프레이즈
발견하는
-kws 한 줄에 하나씩 알아낼 핵심 문구가 포함된 파일
-kws_delay
최고의 탐지 점수를 기다리는 지연
-kws_plp
키워드 발견을 위한 전화 루프 확률
-kws_임계값
p(hyp)/p(대안) 비율에 대한 임계값
-latsize
초기 백포인터 테이블 크기
-lda 기능에 적용할 변환 행렬이 포함되어 있습니다(단일 스트림 기능
만 해당)
-ldadim
특성 변환 출력의 차원성(전체 행렬을 사용하려면 0)
-리프터
리프팅의 경우 사인 곡선 길이, 리프팅이 없는 경우 0입니다.
-lm 트라이그램 언어 모델 입력 파일
-lmctl 언어 모델 세트
The -흠 그리고 -dict 인수는 항상 필요합니다. 어느 하나 -lm or -fsg 필수입니다.
통계적 언어 모델을 사용하는지 유한 상태 문법을 사용하는지에 따라 다릅니다.
배치 모드 인식을 수행하려면 다음을 사용하여 제어 파일을 지정해야 합니다. -ctl 이것은
한 줄에 하나의 항목을 포함하는 간단한 텍스트 파일입니다. 각 항목은 입력 파일의 이름입니다.
에 상대적 -cepdir 디렉토리이며 파일 이름 확장자가 없습니다(다음에 제공됨).
전에, -cepext 논의).
음향 기능 파일을 입력으로 사용하는 경우(참조 스핑크스_페(1) 방법에 대한 정보
이를 생성하기 위해) 다음 형식을 사용하여 파일의 하위 부분을 지정할 수도 있습니다.
파일 이름 시작 프레임 엔드 프레임 발화-ID
onworks.net 서비스를 사용하여 온라인으로 Pocketsphinx_batch 사용