Pocketsphinx_batch - 클라우드에서의 온라인

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 제공업체에서 실행할 수 있는 Pocketsphinx_batch 명령입니다.

프로그램:

이름


Pocketsphinx_batch - 배치 모드에서 음성 인식 실행

개요


Pocketsphinx_batch -흠 흠디르 -dict 딕셔너리 파일 [ 옵션 ] ...

기술


배치 모드에서 발화 목록에 대해 음성 인식을 실행합니다. 인수 목록
다음과 같습니다 :

-adchdr
오디오 파일 헤더의 크기(바이트)(헤더는 무시됨)

-adcin 입력은 원시 오디오 데이터입니다.

-agc c0에 대한 자동 이득 제어('max', 'emax', 'noise' 또는 'none')

-agcthresh
자동 이득 제어를 위한 초기 임계값

-모든 전화
음성 lm을 사용한 음소 디코딩

-allphone_ci
음성 문자 및 문맥 독립적 단위만 사용하여 음소 디코딩 수행

-알파 프리엠퍼시스 매개변수

-argfile
추가 인수를 제공하는 파일입니다.

-규모
신뢰도 점수 계산을 위한 음향 모델 척도의 역수

-아 음향 점수에 역 가중치가 적용됩니다.

-역추적
결과를 인쇄하고 로그 파일에 역추적합니다.

-빔 Viterbi 검색의 모든 프레임에 적용되는 빔 너비(값이 작을수록 더 넓다는 의미)
빔)

-최고의 경로
단어 격자에 대해 bestpath(Dijkstra) 검색 실행(3차 패스)

-bestpathlw
최적 경로 검색을 위한 언어 모델 확률 가중치

-build_outdirs
출력 디렉터리에 누락된 하위 디렉터리 만들기

-cepdir
파일 디렉터리(제어 파일의 filespecs 앞에 붙음)

-cepext
입력 파일 확장자(제어 파일의 filespec 뒤에 붙음)

-ceplen
입력 특징 벡터의 구성요소 수

-cmn 켑스트럴 평균 정규화 체계('현재', '이전' 또는 '없음')

-cmninit
'prior'가 사용되는 경우 cepstral 평균의 초기값(쉼표로 구분)

-compallsen
모든 프레임에서 모든 세논 점수를 계산합니다. (많은 경우 더 빠를 수 있습니다.)
세노네스)

-ctl 처리할 파일 목록 발화

-ctlcount
처리할 발화 수(건너뛴 후) -ctloffset 항목)

-ctlincr
제어 파일의 N번째 줄마다 수행

-ctloffset
시작 부분의 발화 수 -ctl 건너뛸 파일

-ctm CTM 파일 형식으로 출력(사후 정렬이 필요할 수 있음)

-디버그 디버깅 메시지 레벨

-dict 발음 사전(어휘) 입력 파일

-딕케이스
사전은 대소문자를 구분합니다(참고: ASCII 문자에는 대소문자를 구분하지 않습니다).
만 해당)

-떨림
1/2비트 노이즈 추가

-doublebw
이중 대역폭 필터 사용(동일한 중심 주파수)

-ds 프레임 GMM 계산 다운샘플링 비율

-fdict 단어 발음 사전 입력 파일

-위업 기능 스트림 유형은 음향 모델에 따라 다릅니다.

-featparams
특징 추출 매개변수를 포함합니다.

-fillprob
필러 단어 전환 확률

-프레이트 프레임 속도

-fsg 유한 상태 문법 파일 형식

-fsgctl
각 발화에 사용할 파일 목록 FSG 파일

-fsgdir
FSG 파일용 디렉토리

-fsgext
FSG 파일의 확장자(선행 점 포함)

-fsgusealtpron
FSG에 대체 발음 추가

-fsgufiller
각 주에 보충어를 삽입하세요.

-fwdplat
단어 격자에 대해 순방향 단순 어휘 검색 실행(두 번째 패스)

-fwd플랫빔
두 번째 패스 평면 검색의 모든 프레임에 적용되는 빔 너비

-fwdflaftefwid
fwdplat 검색에서 검색할 단어의 최소 끝 프레임 수

-fwdflatlw
플랫 어휘집(2차 패스) 디코딩을 위한 언어 모델 확률 가중치

-fwdplatsfwin
fwdplat 검색에서 후속 단어를 검색하기 위한 격자의 프레임 창

-fwd flatwbeam
XNUMX차 단순 검색에서 단어 종료에 적용되는 빔 너비

-fwdtree
정방향 어휘 트리 검색 실행(1차 패스)

-흠 음향 모델 파일이 포함되어 있습니다.

-우울 출력 파일 이름

-hypseg
분할 파일 이름으로 출력

-input_endian
크든 작든 입력 데이터의 엔디안은 NIST 또는 MS Wav인 경우 무시됩니다.

-jsgf 문법 파일

-키프레이즈
발견하는

-kws 한 줄에 하나씩 알아낼 핵심 문구가 포함된 파일

-kws_delay
최고의 탐지 점수를 기다리는 지연

-kws_plp
키워드 발견을 위한 전화 루프 확률

-kws_임계값
p(hyp)/p(대안) 비율에 대한 임계값

-latsize
초기 백포인터 테이블 크기

-lda 기능에 적용할 변환 행렬이 포함되어 있습니다(단일 스트림 기능
만 해당)

-ldadim
특성 변환 출력의 차원성(전체 행렬을 사용하려면 0)

-리프터
리프팅의 경우 사인 곡선 길이, 리프팅이 없는 경우 0입니다.

-lm 트라이그램 언어 모델 입력 파일

-lmctl 언어 모델 세트

The -흠 그리고 -dict 인수는 항상 필요합니다. 어느 하나 -lm or -fsg 필수입니다.
통계적 언어 모델을 사용하는지 유한 상태 문법을 사용하는지에 따라 다릅니다.
배치 모드 인식을 수행하려면 다음을 사용하여 제어 파일을 지정해야 합니다. -ctl 이것은
한 줄에 하나의 항목을 포함하는 간단한 텍스트 파일입니다. 각 항목은 입력 파일의 이름입니다.
에 상대적 -cepdir 디렉토리이며 파일 이름 확장자가 없습니다(다음에 제공됨).
전에, -cepext 논의).

음향 기능 파일을 입력으로 사용하는 경우(참조 스핑크스_페(1) 방법에 대한 정보
이를 생성하기 위해) 다음 형식을 사용하여 파일의 하위 부분을 지정할 수도 있습니다.

파일 이름 시작 프레임 엔드 프레임 발화-ID

onworks.net 서비스를 사용하여 온라인으로 Pocketsphinx_batch 사용



최신 Linux 및 Windows 온라인 프로그램