julius - آنلاین در ابر

این دستور julius است که می تواند در ارائه دهنده میزبانی رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.

برنامه:

نام


ژولیوس
- موتور چند منظوره LVCSR منبع باز

خلاصه


ژولیوس [-C jconffile] [گزینه های...]

شرح


ژولیوس یک موتور تشخیص گفتار با کارایی بالا، چند منظوره و منبع باز برای
محققان و توسعه دهندگان این قادر به انجام تشخیص تقریباً در زمان واقعی است
گفتار مداوم با بیش از 60 هزار کلمه مدل زبان 3 گرمی و مدل HMM تریفون، در اکثر موارد
رایانه های شخصی فعلی ژولیوس می تواند تشخیص را روی فایل های صوتی، ورودی میکروفون زنده انجام دهد،
فایل های پارامتر ورودی و ویژگی شبکه

ماژول تشخیص هسته به عنوان کتابخانه C به نام "JuliusLib" پیاده سازی شده است. همچنین می تواند باشد
توسط پلاگین امکانات گسترش یافته است.

پشتیبانی مدل
ژولیوس به یک مدل زبان و یک مدل آکوستیک برای اجرا به عنوان یک تشخیص دهنده گفتار نیاز دارد. ژولیوس
از مدل های زیر پشتیبانی می کند.

صوتی مدل
زیر کلمه HMM (مدل مارکوف پنهان) در قالب HTK ascii پشتیبانی می شود. واج
مدل‌ها (تک‌فون)، مدل‌های واجی وابسته به بافت (تریفون)، آمیخته‌ای و
مدل‌های ترکیبی آوایی هر واحدی را می‌توان استفاده کرد. هنگام استفاده از متن وابسته
مدل‌ها، وابستگی بافت بین کلمه‌ای نیز مدیریت می‌شود. قابلیت چند جریانی و
MSD-HMM نیز پشتیبانی می شود. در ادامه می توانید از یک ابزار استفاده کنید mkbinhmm برای تبدیل ascii
فایل HMM به فرمت باینری فشرده برای بارگیری سریعتر.

توجه داشته باشید که ژولیوس خود فقط می تواند ویژگی های MFCC را از داده های گفتاری استخراج کند. اگر استفاده می کنید
HMM صوتی که برای ویژگی های دیگر آموزش دیده است، باید ورودی را در پارامتر HTK بدهید
فایل از همان نوع ویژگی

زبان مدل: کلمه N-گرم
مدل زبان Word N-gram تا 10 گرم پشتیبانی می شود. جولیوس متفاوت استفاده می کند
N گرم برای هر پاس: از چپ به راست 2 گرم در پاس اول و از راست به چپ N گرم در پاس
پاس دوم توصیه می شود از LR 2-gram و RL N-gram برای Julius استفاده کنید.
با این حال، شما می توانید تنها از LR N-gram یا RL N-gram استفاده کنید. در چنین حالتی، تقریبی است
LR 2 گرم محاسبه شده از N-گرم داده شده در اولین گذر اعمال می شود.

فرمت استاندارد ARPA پشتیبانی می شود. علاوه بر این، یک فرمت باینری نیز وجود دارد
برای کارایی پشتیبانی می شود. ابزار mkbingram(1) می تواند فرمت ARPA N-gram را به
فرمت باینری

زبان مدل: دستور زبان
فرمت گرامر یک قالب اصلی است و ابزارهایی برای ایجاد گرامر شناسایی است
در توزیع گنجانده شده اند. گرامر از دو فایل تشکیل شده است: یکی a
فایل "گرامر" که ساختارهای جمله را به سبک BNF با استفاده از word توصیف می کند
نام "رده" به عنوان نمادهای پایانی. یکی دیگر فایل "voca" است که کلمات را تعریف می کند
با تلفظ آن (یعنی دنباله واج) برای هر دسته. آنها باید
تبدیل شده توسط mkdfa(1) به یک فایل خودکار محدود قطعی (.dfa) و a
فایل فرهنگ لغت (.dict)، به ترتیب. همچنین می توانید از گرامرهای متعدد استفاده کنید.

زبان مدل: جدا شده کلمه
شما می توانید با استفاده از فرهنگ لغت کلمه ای جدا شده را تشخیص دهید. با این
نوع مدل، جولیوس تشخیص سریع یک پاس را با زمینه ایستا انجام می دهد
رسیدگی. مدل‌های سکوت هم در سر و هم در انتهای هر کلمه اضافه می‌شوند. تو می توانی
همچنین از چندین دیکشنری در یک فرآیند استفاده کنید.

جستجو الگوریتم
الگوریتم تشخیص ژولیوس مبتنی بر استراتژی دو پاس است. ورد 2 گرم و معکوس
در پاس های مربوطه از کلمه 3 گرم استفاده می شود. کل ورودی در اول پردازش می شود
عبور کرده و مجدداً فرآیند جستجوی نهایی برای ورودی با استفاده از
نتیجه اولین پاس برای محدود کردن فضای جستجو. به طور خاص، به رسمیت شناختن
الگوریتم مبتنی بر یک جستجوی اکتشافی درخت-شبکه همراه با چپ به راست است
جستجوی پرتو همزمان فریم و جستجوی رمزگشایی پشته از راست به چپ.

هنگام استفاده از تلفن‌های وابسته به زمینه (تریفون)، زمینه‌های میان واژه‌ای در نظر گرفته می‌شوند
توجه. برای مدل های آمیخته گره خورده و آوایی، آکوستیک با سرعت بالا
محاسبه احتمال با استفاده از هرس گاوسی امکان پذیر است.

برای جزئیات بیشتر به اسناد مربوطه مراجعه کنید.

OPTIONS


این گزینه ها مدل ها، رفتارهای سیستم و پارامترهای جستجوی مختلف را مشخص می کند
جولیوس این گزینه ها را می توان در خط فرمان تنظیم کرد، اما توصیه می شود که بنویسید
آنها را در یک فایل متنی به عنوان "فایل jconf" و با گزینه "-C" مشخص کنید.

برنامه‌های کاربردی حاوی JuliusLib نیز از این گزینه‌ها برای تنظیم پارامترهای هسته استفاده می‌کنند
موتور تشخیص به عنوان مثال، یک فایل jconf را می توان با فراخوانی در enine بارگذاری کرد
j_config_load_file_new() با نام فایل jconf به عنوان آرگومان.

لطفاً توجه داشته باشید که مسیرهای نسبی در یک فایل jconf باید نسبت به فایل jconf باشد
خود، نه دایرکتوری فعلی.

در زیر جزئیات همه گزینه ها، توسط گروه جمع آوری شده است.

ژولیوس استفاده انتخاب
اینها گزینه های برنامه Julius، خارج از JuliusLib هستند. این شامل پارامترها و
سوئیچ ها برای خروجی نتیجه، تبدیل مجموعه کاراکترها، سطح گزارش و گزینه های حالت ماژول.
این گزینه‌ها مختص Julius هستند و در برنامه‌هایی که از JuliusLib استفاده می‌کنند نمی‌توان استفاده کرد
غیر از جولیوس

-outfile
در ورودی فایل، این گزینه نتیجه شناسایی هر فایل را در یک فایل جداگانه می نویسد
فایل. فایل خروجی یک فایل ورودی به همین نام خواهد بود اما پسوند آن خواهد بود
به ".out" تغییر کرد. (rev.4.0)

-امتیاز جدا می کند
خروجی نمره زبان و آکوستیک به طور جداگانه.

اشکال زدایی تماس
در هر تماس برای اشکال‌زدایی، نام‌های پاسخ به تماس را چاپ کنید. (rev.4.0)

-charconv از جانب به
چاپ با تبدیل مجموعه کاراکتر. از جانب مجموعه کاراکتر منبع استفاده شده در است
مدل زبان و به مجموعه شخصیت هدفی است که می خواهید به دست آورید.

در لینوکس، آرگومان ها باید یک نام رمز باشند. شما می توانید لیست موجود را دریافت کنید
نام کد با فراخوانی دستور "iconv --list". در ویندوز، آرگومان ها باید باشند
نام کد یا شماره صفحه کد نام کد باید یکی از "ansi"، "mac"، "oem" باشد.
"utf-7"، "utf-8"، "sjis"، "euc". یا می توانید هر شماره صفحه کدی که در آن پشتیبانی می شود را مشخص کنید
محیط شما

-nocharconv
غیرفعال کردن تبدیل کاراکتر

-مدول [بندر]
Julius را روی "Server Mode Mode" اجرا کنید. پس از راه اندازی، جولیوس منتظر اتصال tcp/ip می ماند
از مشتری هنگامی که اتصال برقرار شد، جولیوس ارتباط خود را با مشتری شروع می کند
برای پردازش دستورات دریافتی از مشتری، یا خروجی نتایج شناسایی، ورودی
اطلاعات و سایر وضعیت سیستم را به مشتری ارسال می کند. شماره پورت پیش فرض است
10500.

-رکورد دیر
تمام داده‌های گفتار ورودی به صورت خودکار در فهرست مشخص شده ذخیره می‌شود. هر ورودی قطعه بندی شده است
هر کدام یک به یک ثبت شد نام فایل داده های ضبط شده از زمان سیستم تولید می شود
هنگامی که ورودی به پایان می رسد، به سبک YYYY.MMDD.HHMMSS.wav. فرمت فایل 16 بیتی مونورال است
WAV. برای ورودی mfcfile نامعتبر است.

با رد ورودی توسط -رد کوتاه، ورودی رد شده نیز ثبت خواهد شد حتی اگر
آنها رد می شوند.

-ورود به سیستم فایل پرونده
تمام خروجی های گزارش را به جای خروجی استاندارد در یک فایل ذخیره کنید. (Rev.4.0)

-nolog
همه خروجی های گزارش را غیرفعال کنید. (Rev.4.0)

-کمک
خروجی پیام کمک و خروج.

جهانی گزینه های
اینها گزینه های وابسته به مدل/جستجو هستند که مربوط به ورودی صدا، تشخیص صدا، GMM،
الگوریتم رمزگشایی، امکانات پلاگین و موارد دیگر. گزینه های جهانی باید قبل از آن قرار گیرد
هر گونه اعلامیه نمونه (-صبح, -LM، یا -SR) یا درست بعد از "-جهانی" گزینه.

ورودی
-ورودی {mic|rawfile|mfcfile|adinnet|stdin|netaudio|alsa|oss|esd}
منبع ورودی گفتار را انتخاب کنید. برای فایل شکل موج، "file" یا "rawfile" را مشخص کنید.
'htkparam' یا 'mfcfile' برای فایل پارامتر HTK. در ورودی فایل، کاربران خواهند بود
از شما خواسته می شود نام فایل را از stdin وارد کنید، یا می توانید استفاده کنید -فیلست گزینه ای برای
لیست فایل هایی را برای پردازش مشخص کنید.

«mic» برای دریافت ورودی صوتی از یک دستگاه میکروفون زنده پیش‌فرض و «adinnet» است.
به معنای دریافت داده های شکل موج از طریق شبکه tcpip از یک کلاینت adinnet است.
'netaudio' از ورودی DatLink/NetAudio است و 'stdin' به معنای ورودی داده از
ورودی استاندارد

برای ورودی فایل شکل موج، فقط WAV (بدون فشرده سازی) و RAW (noheader، 16 بیت، بزرگ)
endian) به طور پیش فرض پشتیبانی می شوند. فرمت های دیگر هنگام کامپایل قابل خواندن است
کتابخانه libsnd برای اینکه ببینید واقعاً چه فرمتی پشتیبانی می‌شود، به پیام راهنما مراجعه کنید
با استفاده از گزینه -کمک. برای ورودی stdin، فقط WAV و RAW پشتیبانی می شود. (پیش فرض:
mfcfile)

در لینوکس، می توانید API را در زمان اجرا با مشخص کردن alsa، oss و esd انتخاب کنید.

-تکه_اندازه نمونه ها
اندازه قطعه صوتی به تعداد نمونه. (پیش‌فرض: 1000)

-فیلست نام فایل
(با -ورودی rawfile|mfcfile) روی همه فایل های فهرست شده در
فایل. فایل باید حاوی فایل ورودی در هر خط باشد. موتور وقتی تمام می شود که تمام شود
فایل ها پردازش می شوند

- چک بدون تایپ
به طور پیش فرض، جولیوس نوع پارامتر ورودی را بررسی می کند که آیا با AM مطابقت دارد یا
نه این گزینه چک و موتور را مجبور به استفاده از بردار ورودی می کند
همانطور که هست

-48
ورودی را با نمونه برداری 48 کیلوهرتز ضبط کنید و در لحظه آن را به 16 کیلوهرتز کاهش دهید. این
گزینه فقط برای مدل 16 کیلوهرتز معتبر است. روال نمونه برداری پایین از آن منتقل شد
sptk (Rev. 4.0)

-NA نام دستگاه
نام میزبان برای ورودی سرور DatLink (-ورودی نتاودیو).

-تصویب شماره_پورت
با -ورودی آدین نت، شماره پورت adinnet را برای گوش دادن مشخص کنید. (پیش‌فرض: 5530)

-نوار بینی
جولیوس به‌طور پیش‌فرض، صفر نمونه‌های متوالی را در داده‌های گفتاری ورودی حذف می‌کند. این
گزینه حذف را مهار می کند.

-zmean , -نوزمیان
این گزینه حذف افست DC شکل موج ورودی را فعال/غیرفعال می کند. افست خواهد بود
از کل ورودی تخمین زده می شود. برای ورودی میکروفون / شبکه، میانگین صفر است
48000 نمونه اول (3 ثانیه در نمونه برداری 16 کیلوهرتز) برای
برآورد کردن. (پیش‌فرض: غیرفعال)

این گزینه از آفست استاتیک برای کانال استفاده می کند. همچنین ببینید -zmeansource برای
حذف افست فریم.

سخنرانی کشف by سطح و ضربدر صفر
-کاتسیلنس , -خاموشی
تشخیص گفتار را بر اساس سطح و ضربدر صفر روشن/خاموش کنید. پیش فرض برای روشن است
ورودی میکروفن / adinnet و برای فایل‌ها خاموش است.

-lv thres
آستانه سطح برای تشخیص ورودی گفتار. مقادیر باید در محدوده 0 تا باشند
32767. (پیش‌فرض: 2000)

-zc thres
آستانه عبور از صفر در ثانیه فقط ورودی که از سطح بالاتر می رود
آستانه (-lv) شمارش خواهد شد. (پیش فرض: 60)

-حاشیه سر msec
حاشیه سکوت در شروع بخش گفتار بر حسب میلی ثانیه. (پیش‌فرض: 300)

حاشیه دم msec
حاشیه سکوت در پایان بخش گفتار بر حسب میلی ثانیه. (پیش فرض: 400)

ورودی رد
دو روش ساده رد ورودی جلویی بر اساس طول ورودی پیاده‌سازی شده‌اند
و میانگین توان بخش شناسایی شده رد با توان متوسط ​​است
تجربی، و می تواند با --enable-power-reject در کامپایل فعال شود. معتبر برای
ویژگی MFCC با ضریب توان و فقط ورودی بلادرنگ.

برای رد ورودی مبتنی بر GMM به بخش GMM در زیر مراجعه کنید.

-رد کوتاه msec
ورودی کمتر از میلی ثانیه مشخص شده را رد کنید. جستجو خاتمه خواهد یافت و
هیچ نتیجه ای خروجی نخواهد بود

-قدرت ها thres
قطعه ورودی را با میانگین انرژی آن رد کنید. اگر میانگین انرژی از
آخرین ورودی شناسایی شده زیر آستانه است، جولیوس ورودی را رد می کند.
(Rev.4.0)

این گزینه زمانی معتبر است که --enable-power-reject در کامپایل مشخص شده باشد
زمان.

گاوسی مخلوط مدل / GMM-VAD
GMM برای رد ورودی توسط امتیاز انباشته شده یا برای قسمت جلویی استفاده خواهد شد
VAD مبتنی بر GMM هنگامی که --enable-gmm-vad مشخص شده است.

توجه: شما همچنین باید پارامترهای MFCC مناسب مورد نیاز برای GMM را تنظیم کنید.
تعیین پارامترهای صوتی شرح داده شده در بخش AM -AM_GMM.

وقتی VAD مبتنی بر GMM فعال باشد، امتیاز فعالیت صوتی در هر یک محاسبه می شود
فریم به عنوان پردازش جلویی. مقدار به صورت \[ \max_{m \in M_v} محاسبه خواهد شد
p(x|m) - \max_{m \in M_n} p(x|m) \] که $M_v$ مجموعه‌ای از GMM صوتی است و $M_n$
مجموعه ای از نویز GMM که نام آنها باید توسط -gmm reject. فعالیت
سپس امتیاز برای آخرین N فریم، جایی که N با مشخص شده است، میانگین می شود
-gmmmargin. جولیوس میانگین امتیاز فعالیت را در هر فریم به روز می کند و تشخیص می دهد
هنگامی که مقدار از مقداری که توسط آن مشخص شده است بالاتر می‌رود، راه‌اندازی افزایش می‌دهد -gmmupو
هنگامی که از مقدار کمتری می شود، تریگر پایین را شناسایی کنید -gmmdown.

- گرم hmmdefs_file
فایل تعریف GMM با فرمت HTK. در صورت مشخص شدن، تأیید ورودی مبتنی بر GMM
همزمان با اولین پاس انجام می شود و می توانید ورودی را رد کنید
با توجه به نتیجه مشخص شده توسط -gmm reject. GMM باید به این صورت تعریف شود
HMM های یک حالته

-gmmnum عدد
تعداد مؤلفه‌های گاوسی که باید در هر فریم در محاسبه GMM محاسبه شوند. فقط
N-بهترین گاوسیان برای محاسبه سریع محاسبه خواهد شد. پیش فرض 10 است
و تعیین مقدار کوچکتر، محاسبه GMM را سرعت می بخشد، اما مقدار بسیار کم
(1 یا 2) ممکن است باعث کاهش عملکرد شناسایی شود.

-gmm reject رشته
فهرستی از نام‌های GMM جدا شده با کاما که به‌عنوان ورودی نامعتبر رد می‌شوند. چه زمانی
تشخیص، احتمال ورود به سیستم GMM انباشته شده برای کل ورودی خواهد بود
همزمان با پاس 1 محاسبه شود. اگر نام GMM از حداکثر امتیاز
در این رشته است، پاس دوم اجرا نمی شود و ورودی خواهد بود
رد شد

-gmmmargin قاب
(GMM_VAD) حاشیه سر در فریم. وقتی یک محرک گفتاری توسط GMM شناسایی شد،
تشخیص از فریم فعلی منهای این مقدار شروع می شود. (Rev.4.0)

این گزینه تنها در صورتی معتبر خواهد بود که با --enable-gmm-vad کامپایل شده باشد.

-gmmup ارزش
(GMM_VAD) آستانه ماشه بالا امتیاز فعالیت صوتی. (Rev.4.1)

این گزینه تنها در صورتی معتبر خواهد بود که با --enable-gmm-vad کامپایل شده باشد.

-gmmdown ارزش
(GMM_VAD) آستانه ماشه پایین امتیاز فعالیت صوتی. (Rev.4.1)

این گزینه تنها در صورتی معتبر خواهد بود که با --enable-gmm-vad کامپایل شده باشد.

رمز گشایی انتخاب
پردازش بلادرنگ به معنای پردازش همزمان محاسبات MFCC 1st pass است
رمزگشایی به‌طور پیش‌فرض، پردازش هم‌زمان روی پاس برای میکروفون روشن است /
ورودی adinnet/netaudio و برای دیگران.

-به موقع , -در زمان واقعی
در اولین گذر، پردازش بلادرنگ (خط لوله) را به صراحت روشن/خاموش کنید.
پیش فرض برای ورودی فایل خاموش و برای میکروفون، adinnet و NetAudio روشن است
ورودی این گزینه به روشی که CMN و عادی سازی انرژی انجام می شود مربوط می شود:
اگر خاموش باشد، با استفاده از ویژگی های متوسط ​​کل ورودی انجام می شود. اگر روشن است، MAP-CMN
و عادی سازی انرژی برای انجام پردازش بلادرنگ.

متفرقه. گزینه های
-C jconffile
یک فایل jconf را در اینجا بارگذاری کنید. محتوای jconffile در اینجا گسترش خواهد یافت
نقطه.

-version
اطلاعات نسخه را با خطای استاندارد چاپ کنید و از آن خارج شوید.

-تنظیمات
چاپ اطلاعات تنظیمات موتور به خطای استاندارد، و خروج.

-ساکت
خروجی گزارش کمتر. برای نتیجه، فقط بهترین دنباله کلمات چاپ خواهد شد.

اشکال زدایی
(برای اشکال زدایی) پیام داخلی عظیمی را خروجی می دهد و اطلاعات اشکال زدایی برای ورود به سیستم.

-بررسی {wchmm|تریلی|تریفون}
برای رفع اشکال، حالت بررسی تعاملی را وارد کنید.

-plugindir dirlist
دایرکتوری را برای بارگیری افزونه مشخص کنید. اگر چندین فهرست وجود دارد، آنها را بر اساس مشخص کنید
لیست جدا شده با دو نقطه

نمونه، مثال اعلام برای چند رمزگشایی
آرگومان های زیر یک مجموعه پیکربندی جدید با پارامترهای پیش فرض ایجاد می کنند و
سوئیچ جریان بر روی آن تنظیم شده است. پارامترهای Jconf مشخص شده بعد از گزینه در قسمت تنظیم می شود
مجموعه فعلی

برای انجام رمزگشایی چند مدلی، این آرگومان باید در اولین هر مدل مشخص شود
/ نمونه هایی را با نام های مختلف جستجو کنید. هر گزینه قبل از تعریف نمونه اول
نادیده گرفته خواهد شد.

وقتی هیچ تعریف نمونه ای یافت نشد (به عنوان نسخه قدیمی جولیوس)، همه گزینه ها هستند
به یک نمونه پیش فرض به نام _default اختصاص داده شده است.

لطفاً توجه داشته باشید که رمزگشایی با یک LM و چندین AM به طور کامل پشتیبانی نمی شود. برای
برای مثال، ممکن است بخواهید فایل jconf را به صورت زیر بسازید.
این نوع به اشتراک گذاری مدل هنوز پشتیبانی نمی شود، زیرا بخشی از پردازش LM بستگی دارد
در AM تعیین شده درعوض، می توانید با تعریف LM های یکسان برای هر یک، به همان نتیجه برسید
AM، مانند این:

-صبح نام
یک مجموعه پیکربندی AM جدید ایجاد کنید و جریان را به مجموعه جدید تغییر دهید. باید الف بدهید
نام منحصر به فرد (Rev.4.0)

-LM نام
یک مجموعه پیکربندی LM جدید ایجاد کنید و جریان را به مجموعه جدید تغییر دهید. باید الف بدهید
نام منحصر به فرد (Rev.4.0)

-SR نام am_name lm_name
یک مجموعه پیکربندی جستجوی جدید ایجاد کنید و جریان فعلی را به مجموعه جدید تغییر دهید. مشخص شده
AM و LM به آن اختصاص داده خواهد شد. در am_name و lm_name می تواند نام یا شناسه باشد
عدد. شما باید یک نام منحصر به فرد بدهید. (Rev.4.0)

-AM_GMM
هنگام استفاده از GMM برای پردازش جلویی، می‌توانید آکوستیک مخصوص GMM را مشخص کنید
پارامترهای بعد از این گزینه اگر مشخص نکنید -AM_GMM با GMM، GMM خواهد شد
همان بردار پارامتر را با آخرین AM به اشتراک بگذارید. AM فعلی به
GMM one، بنابراین مراقب باشید که با تنظیمات AM معمولی اشتباه نگیرید. (Rev.4.0)

-جهانی
یک بخش جهانی راه اندازی کنید. گزینه های جهانی باید قبل از هر نمونه قرار گیرد
اعلامیه، یا بعد از این گزینه در تشخیص چند مدل. از این می توان استفاده کرد
چندین بار. (Rev.4.1)

-بررسی بینی , -بررسی بخش
غیرفعال کردن / فعال کردن بررسی موقعیت گزینه در رمزگشایی چند مدل. وقتی فعال شود،
گزینه های بین اعلام نمونه به عنوان "بخش" و فقط متعلق تلقی می شود
انواع گزینه را می توان نوشت. به عنوان مثال، زمانی که یک گزینه -صبح مشخص شده است، فقط AM
گزینه مربوطه را می توان بعد از گزینه قرار داد تا زمانی که اعلان دیگری پیدا شود. همچنین،
گزینه های جهانی باید قبل از هر گونه اعلام نمونه در بالا قرار گیرند. این هست
به طور پیش فرض فعال شده است. (Rev.4.1)

زبان مدل (-LM)
این گروه شامل گزینه هایی برای تعریف مدل هر نوع مدل زبان است. هنگام استفاده از
چند LM، یک نمونه می تواند تنها یک LM داشته باشد.

فقط یک نوع LM را می توان برای پیکربندی LM مشخص کرد. اگر می خواهید از مولتی استفاده کنید
مدل، شما باید آنها را به عنوان یک LM جدید تعریف کنید.

N-گرم
-d bingram_file
از فرمت باینری N-gram استفاده کنید. یک فایل ARPA N-gram را می توان به باینری Julius تبدیل کرد
فرمت توسط mkbingram.

-nlr arpa_ngram_file
یک مدل زبان N-gram رو به جلو، چپ به راست در قالب استاندارد ARPA. چه زمانی
هر دو N-گرم جلو و N-گرم عقب مشخص شده اند، جولیوس از این استفاده می کند
برای پاس اول 2 گرم به جلو و برای پاس دوم N گرم به عقب.

از آنجایی که فایل ARPA اغلب بزرگ می شود و بارگذاری به زمان زیادی نیاز دارد، ممکن است اینطور باشد
بهتر است فایل ARPA را توسط mkbingram به فرمت باینری Julius تبدیل کنید. توجه داشته باشید که
اگر هر دو N-gram جلو و عقب برای تشخیص استفاده شود، آنها با هم این کار را انجام خواهند داد
به یک باینری تبدیل شود.

زمانی که با این گزینه فقط N-gram رو به جلو مشخص می شود و N-gram عقب مانده وجود ندارد
مشخص شده توسط -nrl، ژولیوس تشخیص را فقط با N-gram جلو انجام می دهد. در
پاس 1 از ورودی 2 گرمی در N-گرم داده شده استفاده می کند و پاس 2 از آن استفاده می کند
از N-gram داده شده با تبدیل احتمالات رو به جلو به عقب استفاده کنید
احتمالات توسط قانون بیز (Rev.4.0)

-nrl arpa_ngram_file
یک مدل زبان N-gram رو به عقب، راست به چپ در قالب استاندارد ARPA. چه زمانی
هر دو یک N-gram رو به جلو و هم N-gram رو به عقب مشخص شده اند، Julius از فوروارد استفاده می کند
2 گرم برای پاس اول و این N گرم برای پاس دوم.

از آنجایی که فایل ARPA اغلب بزرگ می شود و بارگذاری به زمان زیادی نیاز دارد، ممکن است اینطور باشد
بهتر است فایل ARPA را توسط mkbingram به فرمت باینری Julius تبدیل کنید. توجه داشته باشید که
اگر هر دو N-gram جلو و عقب برای تشخیص استفاده شود، آنها با هم این کار را انجام خواهند داد
به یک باینری تبدیل شود.

زمانی که با این گزینه فقط یک N-گرم عقب مانده مشخص می شود و N-gram رو به جلو مشخص نمی شود
مشخص شده توسط -nlr، ژولیوس تشخیص را فقط با N-gram عقب افتاده انجام می دهد.
پاس اول از احتمال 1 گرمی رو به جلو که از عقب محاسبه می شود استفاده می کند
2 گرم با استفاده از قانون Bayes. پاس دوم به طور کامل از N-گرم معکوس داده شده استفاده می کند.
(Rev.4.0)

-v dict_file
فایل دیکشنری ورد.

سیله کلمه_رشته -سیل دم کلمه_رشته
کلمه سکوت تعریف شده در فرهنگ لغت، برای سکوت در ابتدای
جمله و پایان جمله (پیش‌فرض: " "، " ")

-مپانک کلمه_رشته
کلمه ناشناخته را مشخص کنید. پیش فرض " " یا " از این برای تخصیص استفاده خواهد شد
احتمال کلمه در کلمات ناشناخته، یعنی کلماتی در فرهنگ لغت که در آن نیستند
واژگان N گرم.

-iwspword
یک ورودی کلمه به فرهنگ لغت اضافه کنید که باید با مکث های بین کلمه ای مطابقت داشته باشد.
این ممکن است دقت تشخیص را در برخی از مدل‌های زبانی که فاقد آن هستند، بهبود بخشد
مدل سازی مکث بین کلمه ای صریح کلمه ورودی برای اضافه شدن را می توان با تغییر تغییر داد
-iwspentry.

-iwspentry word_entry_string
ورودی کلمه ای که توسط آن اضافه می شود را مشخص کنید -iwspword. (پیش فرض:" [sp] sp
sp")

-سپنوم عدد
تعداد کلمات با فرکانس بالا برای سهولت از درخت واژگان جدا شود
خطای تقریبی که ممکن است توسط تقریب یک‌بهترین در 1 ایجاد شود
عبور. (پیش فرض: 150)

دستور زبان
گرامرهای متعدد را می توان با تکرار مشخص کرد -گرم و -gramlist. توجه داشته باشید که این
رفتار غیرعادی از گزینه های دیگر است (در گزینه معمولی جولیوس، آخرین خواهد بود
نادیده گرفتن موارد قبلی). شما می توانید استفاده کنید -نوگرام برای تنظیم مجدد گرامرها از قبل
قبل از نقطه مشخص شده است.

-گرم gramprefix1[,gramprefix2[,gramprefix3,...]]
فهرست گرامرهایی که باید با کاما از هم جدا شوند. آرگومان باید پیشوندی از
یک دستور زبان، یعنی اگر دارید foo.dfa و foo.dict، باید آنها را با a مشخص کنید
تک آرگومان foo گرامرهای متعدد را می توان در یک زمان مشخص کرد
لیست جدا شده با کاما

-gramlist list_file
یک فایل لیست گرامری را مشخص کنید که حاوی لیستی از گرامرهای مورد استفاده است. لیست
فایل باید شامل پیشوندهای گرامر، هر کدام در هر خط باشد. یک مسیر نسبی در
فایل لیست به عنوان مربوط به فایل، نه مسیر فعلی یا
فایل پیکربندی.

-dfa dfa_file -v dict_file
روشی قدیمی برای مشخص کردن فایل های گرامری به طور جداگانه. این ساختگی است و نباید
بیشتر استفاده شود

-نوگرام
لیست فعلی گرامرهایی که قبلاً توسط آن مشخص شده است را حذف کنید -گرم, -gramlist, -dfa
و -v.

جدا شده کلمه
دیکشنری را می توان با استفاده مشخص کرد -w و لیست فهرست. وقتی چندتایی را مشخص می کنید
بارها، همه آنها در راه اندازی خوانده می شوند. شما می توانید استفاده کنید -نوگرام برای تنظیم مجدد
دیکشنری هایی که قبلاً در آن نقطه مشخص شده اند.

-w dict_file
فرهنگ لغت برای تشخیص کلمات جدا شده. فرمت فایل مشابه بقیه است
LM. (Rev.4.0)

لیست فهرست list_file
یک فایل فهرست فرهنگ لغت را مشخص کنید که حاوی فهرستی از فرهنگ لغت های مورد استفاده است.
فایل فهرست باید شامل نام فایل فرهنگ لغت، هر خط در هر خط باشد. آ
مسیر نسبی در فایل لیست به عنوان مربوط به فایل لیست تلقی می شود، نه
مسیر فعلی یا فایل پیکربندی (Rev.4.0)

-نوگرام
حذف لیست فعلی فرهنگ لغت که قبلاً توسط آن مشخص شده است -w و لیست فهرست.

-wsil head_sil_model_name tail_sil_model_name sil_context_name
در تشخیص کلمه ایزوله، مدل های سکوت به سر و
دم هر کلمه در تشخیص. این گزینه مدل های سکوت را مشخص می کند
ضمیمه شد sil_context_name نام مدل سر سیل و مدل سیل دم است
به عنوان زمینه ای از کلمه سر تلفن و تلفن دم. مثلا اگر مشخص کنید
-wsil silB silE sp، کلمه ای با دنباله تلفن b eh t به عنوان silB ترجمه می شود
sp-b+eh b-eh+t eh-t+sp silE. (Rev.4.0)

تعریف شده توسط کاربر LM
-userlm
اعلام کنید که از توابع LM کاربر در برنامه استفاده کنید. این گزینه باید مشخص شود
اگر از توابع LM تعریف شده توسط کاربر استفاده می کنید. (Rev.4.0)

متفرقه. LM گزینه های
-اجبار کردن
از کلمات خطا در فرهنگ لغت بگذرید و اجرا کنید.

صوتی مدل و از ویژگی های تحلیل (-صبح) (-AM_GMM)
این بخش در مورد گزینه های مدل آکوستیک، استخراج ویژگی، ویژگی است
نرمال سازی و تفریق طیفی

بعد از نام -AM، یک مدل آکوستیک و مشخصات مربوطه باید نوشته شود. شما می توانید استفاده کنید
چندین AM آموزش دیده با انواع مختلف MFCC. برای GMM، شرایط پارامتر مورد نیاز
باید دقیقاً مانند AMهای بعد مشخص شود -AM_GMM.

هنگام استفاده از چندین AM، مقادیر -smpPeriod, -smpFreq, -fsize و -فشیفت باید
در بین تمام AM ها یکسان است.

صوتی HMM
-h hmmdef_file
فایل تعریف HMM آکوستیک. باید در فرمت HTK ascii یا باینری Julius باشد
قالب با استفاده از mkbinhmm می توانید فرمت HTK ascii را به فرمت باینری Julius تبدیل کنید.

-hlist hmmlist_file
فایل HMMList برای نقشه برداری تلفن. این فایل نگاشت بین منطقی را فراهم می کند
نام های تریفون تولید شده در فرهنگ لغت و نام های HMM تعریف شده در hmmdefs.
این گزینه باید برای مدل وابسته به زمینه مشخص شود.

-tmix عدد
تعداد گاوس های برتر را که باید در کتاب کدهای مخلوط محاسبه شوند، مشخص کنید.
تعداد کم محاسبات صوتی را سرعت می بخشد، اما دقت AM ممکن است افزایش یابد
بدتر با ارزش خیلی کم همچنین ببینید -gprune. (پیش فرض: 2)

-spmodel نام
نام مدل HMM را مشخص کنید که مربوط به مکث کوتاه در یک گفته باشد. در
نام مدل مکث کوتاه برای تشخیص استفاده خواهد شد: پرش با مکث کوتاه روشن
تشخیص گرامر، درج مدل مکث کوتاه پایان کلمه با -iwsp در N-gram،
یا تقسیم بندی با مکث کوتاه (-بخش). (پیش‌فرض: "sp")

-چند مسیری
حالت چند مسیری را فعال کنید. برای اینکه رمزگشایی سریع‌تر انجام شود، جولیوس به طور پیش‌فرض a را تحمیل می‌کند
محدودیت در انتقال HMM که هر مدل باید تنها یک انتقال از آن داشته باشد
حالت اولیه و به حالت پایانی. در حالت چند مسیری، جولیوس هندلینگ بیشتری انجام می دهد
در انتقال بین مدل اجازه می دهد تا انتقال مدل پرش و چندگانه
انتقال خروجی/ورودی توجه داشته باشید که تعیین این گزینه باعث می شود Julius a
کمی کندتر، و ممکن است عرض پرتو بزرگتر مورد نیاز باشد.

این تابع یک گزینه زمان کامپایل در Julius 3.x بود و اکنون به a تبدیل می شود
گزینه زمان اجرا به طور پیش فرض (بدون این گزینه)، جولیوس انتقال را بررسی می کند
نوع HMM های مشخص شده و در صورت نیاز حالت چند مسیری را فعال کنید. تو می توانی
با این گزینه حالت چند مسیری را مجبور کنید. (rev.4.0)

-gprune {ایمن|ابتکاری|پرتو|هیچکدام|پیش‌فرض}
الگوریتم هرس گاوسی را برای استفاده تنظیم کنید. برای مدل مخلوط گره خورده، جولیوس اجرا می کند
هرس گاوسی برای کاهش محاسبات صوتی، تنها با محاسبه N بالا
گاوسی ها در هر کتاب کد در هر فریم. تنظیمات پیش فرض تنظیم خواهد شد
با توجه به نوع مدل و تنظیمات موتور. پیش فرض پذیرش را مجبور می کند
تنظیم پیش فرض برای غیرفعال کردن هرس و انجام کامل، این را روی none تنظیم کنید
محاسبه امن تضمین می کند که N گاوسی های برتر محاسبه شوند. اکتشافی و
پرتو کاهش هزینه محاسباتی تهاجمی تری را انجام می دهد، اما ممکن است منجر به کاهش هزینه شود
مدل از دست دادن دقت (پیش فرض: ایمن (استاندارد)، تیر (سریع) برای مخلوط گره خورده
مدل، هیچ کدام برای مدل غیر مخلوط).

-iwcd1 {حداکثر|متوسط|بهترین عدد}
روشی را برای تقریب تریفون بین کلمه ای در سر و دم یک کلمه انتخاب کنید
در پاس اول

max حداکثر احتمال سه تلفن های متنی مشابه را اعمال می کند. میانگین اراده
میانگین احتمال سه تلفن های متنی مشابه را اعمال کنید. بهترین عدد خواهد بود
میانگین احتمالات برتر N-بهترین احتمالات یک سه‌واسط زمینه مشابه را اعمال کنید.

پیش‌فرض بهترین 3 برای استفاده با N-gram و میانگین برای گرامر و کلمه است. وقتی این
AM توسط LMهای هر دو نوع مشترک است، نوع دوم انتخاب خواهد شد.

-iwsppenalty شناور
جریمه درج برای مکث های کوتاه پایان کلمه که توسط -iwsp.

-گشمم hmmdef_file
اگر این گزینه مشخص شده باشد، Julius انتخاب مخلوط Gaussian را برای آن انجام می دهد
رمزگشایی کارآمد hmmdefs باید یک مدل مونوفون تولید شده از یک باشد
مونوفون معمولی مدل HMM، با استفاده از mkgshmm.

-gsnum عدد
در GMS، تعداد حالت های تک صدایی را برای محاسبه سه تلفن مربوطه مشخص کنید
جزئیات (پیش فرض: 24)

سخنرانی تحلیل
فقط استخراج ویژگی MFCC در Julius فعلی پشتیبانی می‌شود. بنابراین هنگام تشخیص
یک ورودی شکل موج از فایل یا میکروفون، AM باید توسط MFCC آموزش داده شود. پارامتر
شرط نیز باید دقیقاً مشابه شرایط تمرینی تنظیم شود
گزینه های زیر

وقتی در فایل پارامتر HTK ورودی می دهید، می توانید از هر نوع پارامتری برای آن استفاده کنید
صبح. در این مورد جولیوس به نوع ویژگی ورودی و AM اهمیتی نمی دهد، فقط
آنها را به عنوان دنباله برداری بخوانید و با AM داده شده مطابقت دهید. جولیوس فقط چک می کند
آیا انواع پارامترها یکسان هستند. اگر به خوبی کار نمی کند، می توانید غیرفعال کنید
این بررسی توسط - چک بدون تایپ.

در Julius، نوع پارامتر و واجد شرایط (به عنوان TARGETKIND در HTK) و عدد
پارامترهای مغزی (NUMCEPS) به طور خودکار از محتوای آن تنظیم می شود
هدر AM، بنابراین لازم نیست آنها را با گزینه ها مشخص کنید.

سایر پارامترها باید دقیقاً مانند شرایط تمرین تنظیم شوند. شما همچنین می توانید
یک فایل پیکربندی HTK که برای آموزش AM به جولیوس استفاده کردید، بدهید -htkconf. وقتی این
گزینه اعمال می شود، Julius فایل Config را تجزیه و پارامتر مناسب را تنظیم می کند.

شما می توانید تنظیمات پارامتر تجزیه و تحلیل را در یک فایل HMM باینری با استفاده از آن جاسازی کنید
mkbinhmm.

اگر گزینه ها به چند صورت مشخص شده باشند، به ترتیب زیر ارزیابی می شوند.
در صورت وجود، پارامتر تعبیه شده AM ابتدا بارگیری می شود. سپس، فایل پیکربندی HTK
داده شده توسط -htkconf تجزیه خواهد شد. اگر مقداری قبلاً توسط مقدار جاسازی شده AM تنظیم شده است، HTK
config آنها را لغو می کند. در نهایت، گزینه های مستقیم بارگیری می شوند که بارگذاری می شوند
تنظیمات بارگیری شده قبلی را لغو کنید. توجه داشته باشید که، زمانی که همان گزینه ها مشخص شده است
چندین بار، بعداً قبلی را لغو می کند، با این تفاوت که -htkconf ارزیابی خواهد شد
ابتدا همانطور که در بالا توضیح داده شد.

-smpPeriod دوره
دوره نمونه برداری از گفتار ورودی، در واحد 100 نانوثانیه. نرخ نمونه برداری می تواند
نیز مشخص شود -smpFreq. لطفا توجه داشته باشید که فرکانس ورودی باید باشد
برابر با شرایط تمرین AM تنظیم کنید. (پیش‌فرض: 625، مربوط به
16,000 هرتز)

این گزینه مربوط به HTK Option SOURCERATE است. همین مقدار می تواند باشد
به این گزینه داده شده است.

هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.

-smpFreq Hz
فرکانس نمونه گیری از گفتار ورودی را بر حسب هرتز تنظیم کنید. نرخ نمونه برداری نیز می تواند باشد
مشخص شده با استفاده از -smpPeriod. لطفا توجه داشته باشید که این فرکانس باید برابر باشد
به شرایط تمرین AM. (پیش‌فرض: 16,000)

هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.

-fsize نمونه_تعداد
اندازه پنجره بر حسب تعداد نمونه (پیش فرض: 400)

این گزینه مربوط به گزینه HTK WINDOWSIZE است، اما مقدار باید در باشد
نمونه ها (مقدار HTK / smpPeriod).

هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.

-فشیفت نمونه_تعداد
تغییر قاب در تعداد نمونه ها (پیش فرض: 160)

این گزینه مربوط به HTK Option TARGETRATE است، اما مقدار باید در باشد
نمونه ها (مقدار HTK / smpPeriod).

هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.

-پیش امف شناور
ضریب پیش تاکید. (پیش‌فرض: 0.97)

این گزینه با گزینه HTK PREEMCOEF مطابقت دارد. همین مقدار را می توان داد
به این گزینه

-fbank تعداد
تعداد کانال های بانک فیلتر (پیش فرض: 24)

این گزینه با گزینه HTK NUMCHANS مطابقت دارد. همین مقدار را می توان داد
به این گزینه توجه داشته باشید که مقدار پیش فرض با HTK (22) یکسان نیست.

-ceplif تعداد
ضریب لیفتینگ مغزی. (پیش فرض: 22)

این گزینه مربوط به HTK Option CEPLIFTER است. همین مقدار را می توان داد
به این گزینه

خام , -نوراو
فعال/غیرفعال کردن استفاده از انرژی خام قبل از تاکید قبلی (پیش‌فرض: غیرفعال)

این گزینه مربوط به HTK Option RAWENERGY است. توجه داشته باشید که پیش فرض است
مقدار با HTK متفاوت است (در HTK فعال است، در Julius غیرفعال است).

-عادی , - غیر طبیعی
فعال/غیرفعال کردن عادی سازی انرژی گزارش در ورودی زنده، این عادی سازی خواهد بود
تقریبی از میانگین آخرین ورودی. (پیش‌فرض: غیرفعال)

این گزینه با گزینه HTK ENORMALISE مطابقت دارد. توجه داشته باشید که پیش فرض است
مقدار با HTK متفاوت است (در HTK فعال است، در Julius غیرفعال است).

-escale float_scale
ضریب مقیاس پذیری انرژی ورود به سیستم هنگام عادی سازی انرژی ورود به سیستم. (پیش‌فرض: 1.0)

این گزینه مربوط به HTK Option ESCALE است. توجه داشته باشید که پیش فرض است
مقدار با HTK (0.1) متفاوت است.

-سیلاب شناور
کف سکوت انرژی در دسی بل هنگام عادی سازی انرژی ورود به سیستم. (پیش‌فرض: 50.0)

این گزینه مربوط به HTK Option SILFLOOR است.

-دلوین قاب
اندازه پنجره دلتا بر حسب تعداد فریم. (پیش فرض: 2)

این گزینه مربوط به HTK Option DELTAWINDOW است. همین مقدار می تواند باشد
به این گزینه داده شده است.

-اکوین قاب
اندازه پنجره شتاب بر حسب تعداد فریم. (پیش فرض: 2)

این گزینه با گزینه HTK ACCWINDOW مطابقت دارد. همین مقدار را می توان داد
به این گزینه

-hifreq Hz
محدود کردن باند را برای محاسبات بانک فیلتر MFCC فعال کنید: فرکانس بالایی را تنظیم کنید
قطع کردن مقدار -1 آن را غیرفعال می کند. (پیش فرض: -1)

این گزینه مربوط به HTK Option HIFREQ است. همین مقدار را می توان به آن داد
این گزینه

-لوفرک Hz
محدود کردن باند را برای محاسبات بانک فیلتر MFCC فعال کنید: فرکانس کمتری را تنظیم کنید
قطع کردن مقدار -1 آن را غیرفعال می کند. (پیش فرض: -1)

این گزینه با گزینه HTK LOFREQ مطابقت دارد. همین مقدار را می توان به آن داد
این گزینه

-zmeanframe , -nozmeanframe
با ورودی گفتار، این گزینه حذف افست DC بر اساس فریم را فعال/غیرفعال می کند.
این مربوط به پیکربندی HTK ZMEANSOURCE است. این را نمی توان با هم استفاده کرد
با -zmean. (پیش‌فرض: غیرفعال)

-قدرت استفاده
در تحلیل بانک فیلتر به جای قدر از توان استفاده کنید. (پیش‌فرض: غیرفعال)

عادی سازی
جولیوس می تواند نرمال سازی میانگین مغزی (CMN) را برای ورودی ها انجام دهد. CMN خواهد بود
زمانی فعال می شود که AM داده شده با CMN آموزش داده شود (یعنی دارای واجد شرایط "_Z" در
سرتیتر).

میانگین مغزی با توجه به نوع ورودی به روش های مختلف تخمین زده می شود.
در ورودی فایل، میانگین از کل ورودی محاسبه می شود. در ورودی زنده مانند
به عنوان ورودی میکروفون و شبکه، میانگین مغزی ورودی در ورودی ناشناخته است
شروع کنید. بنابراین از MAP-CMN استفاده خواهد شد. در MAP-CMN، بردار میانگین اولیه اعمال خواهد شد
در ابتدا، و بردار میانگین به میانگین لکه دار می شود
افزایش بردار ورودی به عنوان ورودی. گزینه های زیر می توانند رفتار را کنترل کنند
MAP-CMN.

-cvn
عادی سازی واریانس مغزی را فعال کنید. در ورودی فایل، واریانس کل
ورودی محاسبه و سپس اعمال خواهد شد. در ورودی میکروفون زنده، واریانس
آخرین ورودی اعمال خواهد شد. CVN فقط برای ورودی صوتی پشتیبانی می شود.

-vtln آلفا برش کم قطع کردن
تاب فرکانس را انجام دهید، معمولاً برای عادی سازی طول دستگاه صوتی (VTLN).
آرگومان ها فاکتور تاب، قطع فرکانس بالا و فرکانس پایین هستند. قطع کردن آنها
مطابق با مقادیر پیکربندی HTK، WARPFREQ، WARPHCUTOFF و WARPLCUTOFF است.

-cmnload پرونده
بارگیری وکتور میانگین مغزی اولیه از فایل هنگام راه اندازی. در پرونده باید یکی باشد
ذخیره شده توسط -cmnsave. بارگذاری یک میانگین اولیه مغزی، جولیوس را قادر می سازد تا بهتر شود
تشخیص اولین گفته در یک ورودی بلادرنگ. هنگام استفاده همراه با
-cmnnoupdate، این مقدار اولیه برای همه ورودی ها استفاده خواهد شد.

-cmnsave پرونده
بردار میانگین مغزی محاسبه شده را در ذخیره کنید پرونده. پارامترها ذخیره خواهند شد
در هر انتهای ورودی اگر فایل خروجی از قبل وجود داشته باشد، لغو می شود.

-cmnupdate -cmnnoupdate
کنترل کنید که آیا میانگین سر در هر ورودی در ورودی بلادرنگ به روز شود.
غیرفعال کردن این و مشخص کردن -cmnload باعث می شود موتور همیشه از بارگذاری شده استفاده کند
میانگین مغزی اولیه استاتیک

cmnmapweight شناور
وزن میانگین اولیه مغز را برای MAP-CMN مشخص کنید. مقدار بزرگتر را مشخص کنید
میانگین اولیه مغزی را برای مدت طولانی‌تری حفظ کنید و مقدار کمتری را ایجاد کنید
میانگین مغزی بیشتر به ورودی جریان متکی است. (پیش‌فرض: 100.0)

جلویی در حال پردازش
جولیوس می‌تواند تفریق طیفی را برای کاهش نویز ثابت از صدا انجام دهد
ورودی اگرچه روش قدرتمندی نیست، اما ممکن است در برخی شرایط کار کند.
جولیوس دو راه برای تخمین طیف نویز دارد. یک راه این است که فرض کنیم که اولی
بخش کوتاه یک ورودی گفتار، بخش نویز است، و طیف نویز را تخمین بزنید
به عنوان میانگین بخش راه دیگر محاسبه میانگین طیف از
ورودی فقط نویز با استفاده از ابزار دیگر mkss، و آن را در Julius بارگذاری کنید. سابق است
برای ورودی فایل گفتاری محبوب است و دومی باید در ورودی زنده استفاده شود. گزینه ها
زیر رفتار را تغییر می دهد / کنترل می کند.

-اسکالک
تفریق طیفی را با استفاده از قسمت سر هر فایل به عنوان قسمت سکوت انجام دهید. در
طول قسمت سر باید توسط مشخص شود -اسکالکلن. فقط برای ورودی فایل معتبر است.
درگیری با -ssload.

-اسکالکلن msec
با -اسکالک، طول سکوت هد را برای تخمین طیف نویز مشخص کنید
در میلی ثانیه (پیش‌فرض: 300)

-ssload پرونده
با استفاده از طیف نویز از پیش تخمین زده شده، تفریق طیفی را برای ورودی گفتار انجام دهید
بارگیری شده از پرونده. فایل طیف نویز را می توان توسط mkss ساخت. برای همه معتبر است
ورودی گفتار درگیری با -اسکالک.

-سالفا شناور
ضریب آلفای تفریق طیفی برای -اسکالک و -ssload. سر و صدا خواهد بود
با بزرگتر شدن این مقدار قوی‌تر می‌شود، اما اعوجاج حاصل می‌شود
سیگنال نیز قابل توجه می شود. (پیش‌فرض: 2.0)

-ssfloor شناور
ضریب کف سازی تفریق طیفی. قدرت طیفی که پایین تر است
صفر پس از تفریق با سیگنال منبع جایگزین می شود
ضریب ضرب شده (پیش‌فرض: 0.5)

متفرقه. AM گزینه های
-htkconf پرونده
فایل پیکربندی HTK داده شده را تجزیه کنید و پارامترهای مربوطه را روی Julius تنظیم کنید.
هنگام استفاده از این گزینه، مقادیر پارامتر پیش فرض از Julius تغییر می کند
پیش‌فرض به پیش‌فرض HTK است.

به رسمیت شناختن روند و جستجو کردن (-SR)
این بخش شامل گزینه هایی برای پارامترهای جستجو در گذر 1 / 2 مانند پرتو می باشد
وزن‌های عرض و LM، تنظیمات برای تقسیم‌بندی مکث کوتاه، سوئیچ‌ها برای کلمه
خروجی شبکه و خروجی شبکه سردرگمی، ترازهای اجباری و سایر گزینه‌های مرتبط
فرآیند تشخیص و خروجی نتیجه

مقادیر پیش‌فرض برای عرض پرتو و وزن LM با توجه به تنظیم زمان کامپایل تغییر می‌کند
از JuliusLib، نوع مدل AM و اندازه LM. لطفاً گزارش راه اندازی را برای اطلاعات واقعی ببینید
ارزش ها.

1st عبور پارامترهای
-lmp وزن مجازات
(N-gram) وزن مدل زبان و جریمه های درج کلمه برای پاس اول.

-پنالتی 1 مجازات
(گرامر) جریمه درج کلمه برای پاس اول. (پیش‌فرض: 0.0)

-b عرض
عرض پرتو بر حسب تعداد گره های HMM برای تابش رتبه در اولین پاس. این مقدار
عرض جستجو را در اولین پاس تعریف می کند و تأثیر غالب بر کل دارد
زمان پردازش. عرض کوچکتر رمزگشایی را سرعت می بخشد، اما مقدار بسیار کم
منجر به افزایش قابل توجهی از خطاهای تشخیص به دلیل جستجو خواهد شد
شکست. مقدار بزرگتر جستجو را پایدار می کند و منجر به بدون شکست می شود
جستجو کنید، اما زمان پردازش متناسب با عرض افزایش خواهد یافت.

مقدار پیش فرض به نوع مدل آکوستیک بستگی دارد: 400 (مونوفون)، 800
(triphone) یا 1000 (triphone, setup=v2.1)

-nlimit تعداد
حد بالایی توکن در هر گره. این گزینه زمانی معتبر است که --enable-wpair و
--enable-wpair-nlimit در زمان کامپایل فعال می شوند.

-progout
خروجی تدریجی نتایج جزئی را در اولین پاس فعال کنید.

-فاصله اولیه msec
فاصله زمانی را برای -progout در میلی ثانیه (پیش‌فرض: 300)

2nd عبور پارامترهای
-lmp2 وزن مجازات
(N-gram) وزن مدل زبان و جریمه های درج کلمه برای دوم
عبور.

-پنالتی 2 مجازات
(گرامر) جریمه درج کلمه برای پاس دوم. (پیش‌فرض: 0.0)

-b2 عرض
عرض تیر پاکت (تعداد فرضیه) در گذر دوم. اگر شمارش از
بسط کلمه در طول فرضیه خاصی در حین جستجو به این حد می رسد،
فرضیه های کوتاه تر بیشتر بسط داده نمی شوند. این از سقوط جستجو جلوگیری می کند
انباشتن موقعیت مشابه در همان موقعیت و بهبود جستجو
شکست بیشتر برای شرایط واژگان بزرگ. (پیش فرض: 30)

-sb شناور
پهنای پاکت امتیاز برای نمره گذاری پاکت شده. هنگام محاسبه امتیاز فرضیه
برای هر فرضیه ایجاد شده، گسترش ترلی و عملیات ویتربی خواهد بود
اگر امتیاز یک قاب کمتر از عرض باشد، در وسط سخنرانی هرس شود.
دادن مقدار کوچک باعث می شود که پاس دوم سریعتر شود، اما ممکن است خطای محاسباتی
روی دادن. (پیش‌فرض: 80.0)

-s تعداد
اندازه پشته، یعنی حداکثر تعداد فرضیه ای که می توان روی آن ذخیره کرد
پشته در طول جستجو یک مقدار بزرگتر ممکن است نتایج پایدارتری بدهد، اما
مقدار حافظه مورد نیاز را افزایش می دهد. (پیش‌فرض: 500)

-m تعداد دفعات مشاهده
تعداد فرضیه های توسعه یافته مورد نیاز برای توقف جستجو. اگر شماره
فرضیه های بسط یافته بیشتر از این آستانه است، سپس جستجو می باشد
در آن نقطه متوقف شد. هر چه این مقدار بزرگتر باشد، ژولیوس بیشتر به آن می رسد
دست از جستجو بردارید (پیش فرض: 2000)

-n تعداد
تعداد نامزدهایی که جولیوس تلاش می کند پیدا کند. جستجو تا این لحظه ادامه دارد
تعدادی فرضیه جمله پیدا شده است. فرضیه های جمله به دست آمده
بر اساس امتیاز مرتب می شوند و نتیجه نهایی به ترتیب نمایش داده می شود (همچنین به
-خروجی). احتمال اینکه فرضیه بهینه به درستی پیدا شود
با افزایش این مقدار افزایش می یابد، اما زمان پردازش نیز افزایش می یابد
طولانی تر مقدار پیش فرض بستگی به تنظیم موتور در زمان کامپایل دارد: 10
(استاندارد) یا 1 (سریع یا نسخه 2.1)

-خروجی تعداد
فرضیه N جمله برتر در پایان جستجو خروجی می شود. استفاده کنید با -n
(به طور پیش فرض: 1)

محدوده جستجو قاب
تعداد فریم های قبل و بعد را تنظیم کنید تا فرضیه های کلمه بعدی را در آن جستجو کنید
کلمه پرده در پاس دوم. این از حذف کلمات کوتاه جلوگیری می کند، اما
با مقدار زیاد، تعداد فرضیه های بسط یافته افزایش می یابد و سیستم
کند می شود (پیش فرض: 5)

-looktrellis
(گرامر) به جای بسط دادن، فقط کلمات باقی مانده را در اولین گذر بسط دهید
تمام کلمات پیش بینی شده توسط گرامر این گزینه رمزگشایی گذر دوم را انجام می دهد
سریعتر به خصوص برای شرایط واژگان بزرگ، اما ممکن است حذف را افزایش دهد
خطای کلمات کوتاه (پیش‌فرض: غیرفعال)

مکث کوتاه تقسیم بندی / رمزگشا-VAD
وقتی با --enable-decoder-vad کامپایل می شود، بخش بندی کوتاه مکث خواهد بود
برای پشتیبانی از VAD مبتنی بر رمزگشا گسترش یافته است.

-بخش
حالت تقسیم‌بندی مکث کوتاه را فعال کنید. ورودی با یک مکث کوتاه بخش بندی می شود
کلمه (کلمه تنها با مدل سکوت در تلفظ) بیشترین احتمال را دارد
در فریم های متوالی مشخص در اولین پاس. وقتی پایان بخش شناسایی شد،
جولیوس اولین پاس را در نقطه متوقف می کند، پاس دوم را انجام می دهد و به مرحله بعدی ادامه می دهد
بخش. کلمه متن در میان بخش ها در نظر گرفته می شود. (Rev.4.0)

هنگامی که با --enable-decoder-vad کامپایل می شود، این گزینه VAD مبتنی بر رمزگشا را فعال می کند.
برای رد شدن از سکوت طولانی

-spdur قاب
طول مدت مکث کوتاه برای تشخیص پایان بخش ورودی، بر حسب تعداد فریم.
(به طور پیش فرض: 10)

-مدل های مکث رشته
فهرستی از نام‌های مدل مکث جدا شده با کاما برای استفاده در مکث کوتاه
تقسیم بندی کلمه ای که تلفظ آن فقط از مدل های مکث تشکیل شده است
به عنوان "کلمه مکث" در نظر گرفته می شود و برای تشخیص مکث استفاده می شود. اگر مشخص نشده باشد،
نام -spmodel, سیله و -سیل دم استفاده خواهد شد. (Rev.4.0)

- spmargin قاب
حاشیه گام عقب در راه اندازی برای VAD مبتنی بر رمزگشا. وقتی گفتار بالا می رود
یافت شده توسط رمزگشا-VAD، جولیوس پارامتر ورودی را با این مقدار به عقب برمی‌گرداند و
تشخیص را در نقطه شروع کنید. (Rev.4.0)

این گزینه تنها در صورتی معتبر خواهد بود که با --enable-decoder-vad کامپایل شده باشد.

spdelay قاب
فریم تأخیر تصمیم ماشه در هنگام ماشه برای VAD مبتنی بر رمزگشا. (Rev.4.0)

این گزینه تنها در صورتی معتبر خواهد بود که با --enable-decoder-vad کامپایل شده باشد.

کلمه شبکه / گیجی شبکه تولید
-لطفا , -نوار
فعال / غیر فعال کردن تولید نمودار کلمه. الگوریتم جستجو نیز به تغییر کرده است
برای تولید نمودار کلمه بهتر بهینه سازی کنید، بنابراین نتیجه جمله ممکن است این نباشد
همانند تشخیص N-بهترین معمولی. (Rev.4.0)

-confnet , -noconfnet
فعال/غیرفعال کردن تولید شبکه سردرگمی فعال کردن این نیز خواهد شد
فعال می شود -لطفا داخلی (Rev.4.0)

-گرافنج قاب
کلمات مشابه را در موقعیت همسایه در تولید نمودار ادغام کنید. اگر زمان شروع
و زمان پایان دو کلمه نامزد یک کلمه در محدوده مشخص شده است
محدوده، آنها ادغام خواهند شد. پیش فرض 0 است (اجازه ادغام کلمات مشابه را فراهم می کند
دقیقاً همان مکان) و تعیین مقدار بزرگتر منجر به کوچکتر می شود
خروجی نمودار تنظیم این مقدار روی -1، ادغام را غیرفعال می کند، در این صورت هم همینطور
کلمات در مکان یکسان با نمرات مختلف همانطور که هستند باقی می مانند.
(به طور پیش فرض: 0)

-گرافکات عمق
نمودار حاصل را با عمق کلمه آن در مرحله پس از پردازش برش دهید. عمق
مقدار تعداد کلماتی است که در یک فریم مجاز هستند. تنظیم -1 غیرفعال می شود
این ویژگی (پیش فرض: 80)

-graphboundloop تعداد دفعات مشاهده
تعداد حلقه های تنظیم مرز را در مرحله پس از پردازش محدود کنید. این
پارامتر مانع از مسدود شدن جولیوس توسط حلقه تنظیم بی نهایت توسط کوتاه می شود
نوسان کلمه (پیش فرض: 20)

-تاخیر جستجو , -تاخیر جستجوی نوگراف
هنگامی که این گزینه فعال است، جولیوس الگوریتم تولید نمودار خود را تغییر می دهد
گذر دوم برای پایان یافتن جستجو با ادغام نمودار، تا اولین جمله
نامزد پیدا می شود این گزینه ممکن است دقت نمودار را بهبود بخشد، به خصوص زمانی که شما
با تنظیم جستجوی گسترده، یک نمودار بزرگ کلمه ایجاد می کنند. یعنی ممکن است
هنگامی که پرتوهای عریض را در هر دو پاس اول تنظیم می کنید، منجر به دقت نمودار بهتر می شود -b و
پاس دوم -b2، و تعداد زیادی برای -n. (پیش‌فرض: غیرفعال)

چند گرمی / چند دیک به رسمیت شناختن
-مولتی گرام , -نومولتیگرام
در تشخیص دستور زبان با استفاده از گرامرهای متعدد، جولیوس تنها بهترین ها را خروجی می دهد
نتیجه در میان همه دستور زبان ها فعال کردن این گزینه باعث خروجی جولیوس می شود
نتیجه برای هر دستور زبان (پیش‌فرض: غیرفعال)

مجبور هم ترازی
-والینگ
برای نتیجه تشخیص، تراز ویتربی را در هر واحد کلمه انجام دهید. کلمه
فریم های مرزی و میانگین امتیازات صوتی در هر فریم محاسبه می شود.

-صاف
برای نتیجه تشخیص، تراز ویتربی را در هر واحد تلفن انجام دهید. تلفن
فریم های مرزی و میانگین امتیازات صوتی در هر فریم محاسبه می شود.

-صاف کردن
برای نتیجه تشخیص، تراز ویتربی را در هر حالت انجام دهید. مرز ایالت
فریم ها و میانگین امتیازات آکوستیک در هر فریم محاسبه خواهد شد.

متفرقه. جستجو کردن گزینه های
-غیر فعال
این نمونه فرآیند شناسایی را با حالت غیرفعال شروع کنید. (Rev.4.0)

-1 پاس
فقط پاس اول را انجام دهید.

-fallback1pass
هنگامی که پاس دوم ناموفق بود، جولیوس بدون هیچ نتیجه ای تشخیص را تمام می کند. این گزینه
به جولیوس بگویید که نتیجه پاس 1 را به عنوان نتیجه نهایی در هنگام پاس 2 به خروجی برساند
شکست می خورد. توجه داشته باشید که برخی از خروجی های امتیاز (اطمینان و غیره) ممکن است مفید نباشند. این بود
رفتار پیش فرض Julius-3.x.

-no_ccd , -force_ccd
صراحتاً مدیریت زمینه تلفن را در جستجو تغییر دهید. به طور معمول جولیوس تعیین می کند
آیا استفاده از AM یک مدل وابسته به زمینه است یا نه از نام مدل،
به عنوان مثال، آیا نام ها حاوی کاراکتر + و - هستند یا خیر. این گزینه را لغو می کند
تشخیص خودکار

-کمالفا شناور
پارامتر هموارسازی برای امتیازدهی اعتماد به نفس. (پیش‌فرض: 0.05)

-iwsp
(فقط حالت چند مسیری) درج مکث کوتاه بدون متن بین کلمه را فعال کنید.
این گزینه یک مدل مکث کوتاه قابل پرش را برای پایان هر کلمه اضافه می کند. در
مدل مکث کوتاه را می توان توسط -spmodel.

-ترانسپ شناور
جریمه درج اضافی برای کلمات شفاف. (پیش‌فرض: 0.0)

-نسخه ی نمایشی
معادل با -progout -ساکت.

محیط زیست متغیرها


السادف
(با استفاده از ورودی میکروفون با دستگاه alsa) نام دستگاه ضبط را مشخص کنید. اگر مشخص نشده باشد،
"پیش فرض" استفاده خواهد شد.

AUDIODEV
(با استفاده از ورودی میکروفون با دستگاه oss) مسیر دستگاه ضبط را مشخص کنید. اگر مشخص نشده باشد،
"/dev/dsp" استفاده خواهد شد.

LATENCY_MSEC
سعی کنید تأخیر ورودی ورودی میکروفون را بر حسب میلی ثانیه تنظیم کنید. ارزش کوچکتر خواهد شد
تأخیر را کوتاه می کند، اما گاهی اوقات فرآیند را ناپایدار می کند. مقدار پیش فرض به مقدار بستگی دارد
در حال اجرا OS

مثال ها


برای نمونه هایی از استفاده از سیستم، به بخش آموزشی در اسناد جولیوس مراجعه کنید.

آگهی


نکته در مورد فایل های jconf: مسیرهای نسبی در یک فایل jconf به صورت نسبی تفسیر می شوند
خود فایل jconf، نه به دایرکتوری فعلی.

با استفاده از خدمات onworks.net از julius به صورت آنلاین استفاده کنید



جدیدترین برنامه های آنلاین لینوکس و ویندوز