این دستور julius است که می تواند در ارائه دهنده میزبانی رایگان OnWorks با استفاده از یکی از چندین ایستگاه کاری آنلاین رایگان ما مانند Ubuntu Online، Fedora Online، شبیه ساز آنلاین ویندوز یا شبیه ساز آنلاین MAC OS اجرا شود.
برنامه:
نام
ژولیوس
- موتور چند منظوره LVCSR منبع باز
خلاصه
ژولیوس [-C jconffile] [گزینه های...]
شرح
ژولیوس یک موتور تشخیص گفتار با کارایی بالا، چند منظوره و منبع باز برای
محققان و توسعه دهندگان این قادر به انجام تشخیص تقریباً در زمان واقعی است
گفتار مداوم با بیش از 60 هزار کلمه مدل زبان 3 گرمی و مدل HMM تریفون، در اکثر موارد
رایانه های شخصی فعلی ژولیوس می تواند تشخیص را روی فایل های صوتی، ورودی میکروفون زنده انجام دهد،
فایل های پارامتر ورودی و ویژگی شبکه
ماژول تشخیص هسته به عنوان کتابخانه C به نام "JuliusLib" پیاده سازی شده است. همچنین می تواند باشد
توسط پلاگین امکانات گسترش یافته است.
پشتیبانی مدل
ژولیوس به یک مدل زبان و یک مدل آکوستیک برای اجرا به عنوان یک تشخیص دهنده گفتار نیاز دارد. ژولیوس
از مدل های زیر پشتیبانی می کند.
صوتی مدل
زیر کلمه HMM (مدل مارکوف پنهان) در قالب HTK ascii پشتیبانی می شود. واج
مدلها (تکفون)، مدلهای واجی وابسته به بافت (تریفون)، آمیختهای و
مدلهای ترکیبی آوایی هر واحدی را میتوان استفاده کرد. هنگام استفاده از متن وابسته
مدلها، وابستگی بافت بین کلمهای نیز مدیریت میشود. قابلیت چند جریانی و
MSD-HMM نیز پشتیبانی می شود. در ادامه می توانید از یک ابزار استفاده کنید mkbinhmm برای تبدیل ascii
فایل HMM به فرمت باینری فشرده برای بارگیری سریعتر.
توجه داشته باشید که ژولیوس خود فقط می تواند ویژگی های MFCC را از داده های گفتاری استخراج کند. اگر استفاده می کنید
HMM صوتی که برای ویژگی های دیگر آموزش دیده است، باید ورودی را در پارامتر HTK بدهید
فایل از همان نوع ویژگی
زبان مدل: کلمه N-گرم
مدل زبان Word N-gram تا 10 گرم پشتیبانی می شود. جولیوس متفاوت استفاده می کند
N گرم برای هر پاس: از چپ به راست 2 گرم در پاس اول و از راست به چپ N گرم در پاس
پاس دوم توصیه می شود از LR 2-gram و RL N-gram برای Julius استفاده کنید.
با این حال، شما می توانید تنها از LR N-gram یا RL N-gram استفاده کنید. در چنین حالتی، تقریبی است
LR 2 گرم محاسبه شده از N-گرم داده شده در اولین گذر اعمال می شود.
فرمت استاندارد ARPA پشتیبانی می شود. علاوه بر این، یک فرمت باینری نیز وجود دارد
برای کارایی پشتیبانی می شود. ابزار mkbingram(1) می تواند فرمت ARPA N-gram را به
فرمت باینری
زبان مدل: دستور زبان
فرمت گرامر یک قالب اصلی است و ابزارهایی برای ایجاد گرامر شناسایی است
در توزیع گنجانده شده اند. گرامر از دو فایل تشکیل شده است: یکی a
فایل "گرامر" که ساختارهای جمله را به سبک BNF با استفاده از word توصیف می کند
نام "رده" به عنوان نمادهای پایانی. یکی دیگر فایل "voca" است که کلمات را تعریف می کند
با تلفظ آن (یعنی دنباله واج) برای هر دسته. آنها باید
تبدیل شده توسط mkdfa(1) به یک فایل خودکار محدود قطعی (.dfa) و a
فایل فرهنگ لغت (.dict)، به ترتیب. همچنین می توانید از گرامرهای متعدد استفاده کنید.
زبان مدل: جدا شده کلمه
شما می توانید با استفاده از فرهنگ لغت کلمه ای جدا شده را تشخیص دهید. با این
نوع مدل، جولیوس تشخیص سریع یک پاس را با زمینه ایستا انجام می دهد
رسیدگی. مدلهای سکوت هم در سر و هم در انتهای هر کلمه اضافه میشوند. تو می توانی
همچنین از چندین دیکشنری در یک فرآیند استفاده کنید.
جستجو الگوریتم
الگوریتم تشخیص ژولیوس مبتنی بر استراتژی دو پاس است. ورد 2 گرم و معکوس
در پاس های مربوطه از کلمه 3 گرم استفاده می شود. کل ورودی در اول پردازش می شود
عبور کرده و مجدداً فرآیند جستجوی نهایی برای ورودی با استفاده از
نتیجه اولین پاس برای محدود کردن فضای جستجو. به طور خاص، به رسمیت شناختن
الگوریتم مبتنی بر یک جستجوی اکتشافی درخت-شبکه همراه با چپ به راست است
جستجوی پرتو همزمان فریم و جستجوی رمزگشایی پشته از راست به چپ.
هنگام استفاده از تلفنهای وابسته به زمینه (تریفون)، زمینههای میان واژهای در نظر گرفته میشوند
توجه. برای مدل های آمیخته گره خورده و آوایی، آکوستیک با سرعت بالا
محاسبه احتمال با استفاده از هرس گاوسی امکان پذیر است.
برای جزئیات بیشتر به اسناد مربوطه مراجعه کنید.
OPTIONS
این گزینه ها مدل ها، رفتارهای سیستم و پارامترهای جستجوی مختلف را مشخص می کند
جولیوس این گزینه ها را می توان در خط فرمان تنظیم کرد، اما توصیه می شود که بنویسید
آنها را در یک فایل متنی به عنوان "فایل jconf" و با گزینه "-C" مشخص کنید.
برنامههای کاربردی حاوی JuliusLib نیز از این گزینهها برای تنظیم پارامترهای هسته استفاده میکنند
موتور تشخیص به عنوان مثال، یک فایل jconf را می توان با فراخوانی در enine بارگذاری کرد
j_config_load_file_new() با نام فایل jconf به عنوان آرگومان.
لطفاً توجه داشته باشید که مسیرهای نسبی در یک فایل jconf باید نسبت به فایل jconf باشد
خود، نه دایرکتوری فعلی.
در زیر جزئیات همه گزینه ها، توسط گروه جمع آوری شده است.
ژولیوس استفاده انتخاب
اینها گزینه های برنامه Julius، خارج از JuliusLib هستند. این شامل پارامترها و
سوئیچ ها برای خروجی نتیجه، تبدیل مجموعه کاراکترها، سطح گزارش و گزینه های حالت ماژول.
این گزینهها مختص Julius هستند و در برنامههایی که از JuliusLib استفاده میکنند نمیتوان استفاده کرد
غیر از جولیوس
-outfile
در ورودی فایل، این گزینه نتیجه شناسایی هر فایل را در یک فایل جداگانه می نویسد
فایل. فایل خروجی یک فایل ورودی به همین نام خواهد بود اما پسوند آن خواهد بود
به ".out" تغییر کرد. (rev.4.0)
-امتیاز جدا می کند
خروجی نمره زبان و آکوستیک به طور جداگانه.
اشکال زدایی تماس
در هر تماس برای اشکالزدایی، نامهای پاسخ به تماس را چاپ کنید. (rev.4.0)
-charconv از جانب به
چاپ با تبدیل مجموعه کاراکتر. از جانب مجموعه کاراکتر منبع استفاده شده در است
مدل زبان و به مجموعه شخصیت هدفی است که می خواهید به دست آورید.
در لینوکس، آرگومان ها باید یک نام رمز باشند. شما می توانید لیست موجود را دریافت کنید
نام کد با فراخوانی دستور "iconv --list". در ویندوز، آرگومان ها باید باشند
نام کد یا شماره صفحه کد نام کد باید یکی از "ansi"، "mac"، "oem" باشد.
"utf-7"، "utf-8"، "sjis"، "euc". یا می توانید هر شماره صفحه کدی که در آن پشتیبانی می شود را مشخص کنید
محیط شما
-nocharconv
غیرفعال کردن تبدیل کاراکتر
-مدول [بندر]
Julius را روی "Server Mode Mode" اجرا کنید. پس از راه اندازی، جولیوس منتظر اتصال tcp/ip می ماند
از مشتری هنگامی که اتصال برقرار شد، جولیوس ارتباط خود را با مشتری شروع می کند
برای پردازش دستورات دریافتی از مشتری، یا خروجی نتایج شناسایی، ورودی
اطلاعات و سایر وضعیت سیستم را به مشتری ارسال می کند. شماره پورت پیش فرض است
10500.
-رکورد دیر
تمام دادههای گفتار ورودی به صورت خودکار در فهرست مشخص شده ذخیره میشود. هر ورودی قطعه بندی شده است
هر کدام یک به یک ثبت شد نام فایل داده های ضبط شده از زمان سیستم تولید می شود
هنگامی که ورودی به پایان می رسد، به سبک YYYY.MMDD.HHMMSS.wav. فرمت فایل 16 بیتی مونورال است
WAV. برای ورودی mfcfile نامعتبر است.
با رد ورودی توسط -رد کوتاه، ورودی رد شده نیز ثبت خواهد شد حتی اگر
آنها رد می شوند.
-ورود به سیستم فایل پرونده
تمام خروجی های گزارش را به جای خروجی استاندارد در یک فایل ذخیره کنید. (Rev.4.0)
-nolog
همه خروجی های گزارش را غیرفعال کنید. (Rev.4.0)
-کمک
خروجی پیام کمک و خروج.
جهانی گزینه های
اینها گزینه های وابسته به مدل/جستجو هستند که مربوط به ورودی صدا، تشخیص صدا، GMM،
الگوریتم رمزگشایی، امکانات پلاگین و موارد دیگر. گزینه های جهانی باید قبل از آن قرار گیرد
هر گونه اعلامیه نمونه (-صبح, -LM، یا -SR) یا درست بعد از "-جهانی" گزینه.
ورودی
-ورودی {mic|rawfile|mfcfile|adinnet|stdin|netaudio|alsa|oss|esd}
منبع ورودی گفتار را انتخاب کنید. برای فایل شکل موج، "file" یا "rawfile" را مشخص کنید.
'htkparam' یا 'mfcfile' برای فایل پارامتر HTK. در ورودی فایل، کاربران خواهند بود
از شما خواسته می شود نام فایل را از stdin وارد کنید، یا می توانید استفاده کنید -فیلست گزینه ای برای
لیست فایل هایی را برای پردازش مشخص کنید.
«mic» برای دریافت ورودی صوتی از یک دستگاه میکروفون زنده پیشفرض و «adinnet» است.
به معنای دریافت داده های شکل موج از طریق شبکه tcpip از یک کلاینت adinnet است.
'netaudio' از ورودی DatLink/NetAudio است و 'stdin' به معنای ورودی داده از
ورودی استاندارد
برای ورودی فایل شکل موج، فقط WAV (بدون فشرده سازی) و RAW (noheader، 16 بیت، بزرگ)
endian) به طور پیش فرض پشتیبانی می شوند. فرمت های دیگر هنگام کامپایل قابل خواندن است
کتابخانه libsnd برای اینکه ببینید واقعاً چه فرمتی پشتیبانی میشود، به پیام راهنما مراجعه کنید
با استفاده از گزینه -کمک. برای ورودی stdin، فقط WAV و RAW پشتیبانی می شود. (پیش فرض:
mfcfile)
در لینوکس، می توانید API را در زمان اجرا با مشخص کردن alsa، oss و esd انتخاب کنید.
-تکه_اندازه نمونه ها
اندازه قطعه صوتی به تعداد نمونه. (پیشفرض: 1000)
-فیلست نام فایل
(با -ورودی rawfile|mfcfile) روی همه فایل های فهرست شده در
فایل. فایل باید حاوی فایل ورودی در هر خط باشد. موتور وقتی تمام می شود که تمام شود
فایل ها پردازش می شوند
- چک بدون تایپ
به طور پیش فرض، جولیوس نوع پارامتر ورودی را بررسی می کند که آیا با AM مطابقت دارد یا
نه این گزینه چک و موتور را مجبور به استفاده از بردار ورودی می کند
همانطور که هست
-48
ورودی را با نمونه برداری 48 کیلوهرتز ضبط کنید و در لحظه آن را به 16 کیلوهرتز کاهش دهید. این
گزینه فقط برای مدل 16 کیلوهرتز معتبر است. روال نمونه برداری پایین از آن منتقل شد
sptk (Rev. 4.0)
-NA نام دستگاه
نام میزبان برای ورودی سرور DatLink (-ورودی نتاودیو).
-تصویب شماره_پورت
با -ورودی آدین نت، شماره پورت adinnet را برای گوش دادن مشخص کنید. (پیشفرض: 5530)
-نوار بینی
جولیوس بهطور پیشفرض، صفر نمونههای متوالی را در دادههای گفتاری ورودی حذف میکند. این
گزینه حذف را مهار می کند.
-zmean , -نوزمیان
این گزینه حذف افست DC شکل موج ورودی را فعال/غیرفعال می کند. افست خواهد بود
از کل ورودی تخمین زده می شود. برای ورودی میکروفون / شبکه، میانگین صفر است
48000 نمونه اول (3 ثانیه در نمونه برداری 16 کیلوهرتز) برای
برآورد کردن. (پیشفرض: غیرفعال)
این گزینه از آفست استاتیک برای کانال استفاده می کند. همچنین ببینید -zmeansource برای
حذف افست فریم.
سخنرانی کشف by سطح و ضربدر صفر
-کاتسیلنس , -خاموشی
تشخیص گفتار را بر اساس سطح و ضربدر صفر روشن/خاموش کنید. پیش فرض برای روشن است
ورودی میکروفن / adinnet و برای فایلها خاموش است.
-lv thres
آستانه سطح برای تشخیص ورودی گفتار. مقادیر باید در محدوده 0 تا باشند
32767. (پیشفرض: 2000)
-zc thres
آستانه عبور از صفر در ثانیه فقط ورودی که از سطح بالاتر می رود
آستانه (-lv) شمارش خواهد شد. (پیش فرض: 60)
-حاشیه سر msec
حاشیه سکوت در شروع بخش گفتار بر حسب میلی ثانیه. (پیشفرض: 300)
حاشیه دم msec
حاشیه سکوت در پایان بخش گفتار بر حسب میلی ثانیه. (پیش فرض: 400)
ورودی رد
دو روش ساده رد ورودی جلویی بر اساس طول ورودی پیادهسازی شدهاند
و میانگین توان بخش شناسایی شده رد با توان متوسط است
تجربی، و می تواند با --enable-power-reject در کامپایل فعال شود. معتبر برای
ویژگی MFCC با ضریب توان و فقط ورودی بلادرنگ.
برای رد ورودی مبتنی بر GMM به بخش GMM در زیر مراجعه کنید.
-رد کوتاه msec
ورودی کمتر از میلی ثانیه مشخص شده را رد کنید. جستجو خاتمه خواهد یافت و
هیچ نتیجه ای خروجی نخواهد بود
-قدرت ها thres
قطعه ورودی را با میانگین انرژی آن رد کنید. اگر میانگین انرژی از
آخرین ورودی شناسایی شده زیر آستانه است، جولیوس ورودی را رد می کند.
(Rev.4.0)
این گزینه زمانی معتبر است که --enable-power-reject در کامپایل مشخص شده باشد
زمان.
گاوسی مخلوط مدل / GMM-VAD
GMM برای رد ورودی توسط امتیاز انباشته شده یا برای قسمت جلویی استفاده خواهد شد
VAD مبتنی بر GMM هنگامی که --enable-gmm-vad مشخص شده است.
توجه: شما همچنین باید پارامترهای MFCC مناسب مورد نیاز برای GMM را تنظیم کنید.
تعیین پارامترهای صوتی شرح داده شده در بخش AM -AM_GMM.
وقتی VAD مبتنی بر GMM فعال باشد، امتیاز فعالیت صوتی در هر یک محاسبه می شود
فریم به عنوان پردازش جلویی. مقدار به صورت \[ \max_{m \in M_v} محاسبه خواهد شد
p(x|m) - \max_{m \in M_n} p(x|m) \] که $M_v$ مجموعهای از GMM صوتی است و $M_n$
مجموعه ای از نویز GMM که نام آنها باید توسط -gmm reject. فعالیت
سپس امتیاز برای آخرین N فریم، جایی که N با مشخص شده است، میانگین می شود
-gmmmargin. جولیوس میانگین امتیاز فعالیت را در هر فریم به روز می کند و تشخیص می دهد
هنگامی که مقدار از مقداری که توسط آن مشخص شده است بالاتر میرود، راهاندازی افزایش میدهد -gmmupو
هنگامی که از مقدار کمتری می شود، تریگر پایین را شناسایی کنید -gmmdown.
- گرم hmmdefs_file
فایل تعریف GMM با فرمت HTK. در صورت مشخص شدن، تأیید ورودی مبتنی بر GMM
همزمان با اولین پاس انجام می شود و می توانید ورودی را رد کنید
با توجه به نتیجه مشخص شده توسط -gmm reject. GMM باید به این صورت تعریف شود
HMM های یک حالته
-gmmnum عدد
تعداد مؤلفههای گاوسی که باید در هر فریم در محاسبه GMM محاسبه شوند. فقط
N-بهترین گاوسیان برای محاسبه سریع محاسبه خواهد شد. پیش فرض 10 است
و تعیین مقدار کوچکتر، محاسبه GMM را سرعت می بخشد، اما مقدار بسیار کم
(1 یا 2) ممکن است باعث کاهش عملکرد شناسایی شود.
-gmm reject رشته
فهرستی از نامهای GMM جدا شده با کاما که بهعنوان ورودی نامعتبر رد میشوند. چه زمانی
تشخیص، احتمال ورود به سیستم GMM انباشته شده برای کل ورودی خواهد بود
همزمان با پاس 1 محاسبه شود. اگر نام GMM از حداکثر امتیاز
در این رشته است، پاس دوم اجرا نمی شود و ورودی خواهد بود
رد شد
-gmmmargin قاب
(GMM_VAD) حاشیه سر در فریم. وقتی یک محرک گفتاری توسط GMM شناسایی شد،
تشخیص از فریم فعلی منهای این مقدار شروع می شود. (Rev.4.0)
این گزینه تنها در صورتی معتبر خواهد بود که با --enable-gmm-vad کامپایل شده باشد.
-gmmup ارزش
(GMM_VAD) آستانه ماشه بالا امتیاز فعالیت صوتی. (Rev.4.1)
این گزینه تنها در صورتی معتبر خواهد بود که با --enable-gmm-vad کامپایل شده باشد.
-gmmdown ارزش
(GMM_VAD) آستانه ماشه پایین امتیاز فعالیت صوتی. (Rev.4.1)
این گزینه تنها در صورتی معتبر خواهد بود که با --enable-gmm-vad کامپایل شده باشد.
رمز گشایی انتخاب
پردازش بلادرنگ به معنای پردازش همزمان محاسبات MFCC 1st pass است
رمزگشایی بهطور پیشفرض، پردازش همزمان روی پاس برای میکروفون روشن است /
ورودی adinnet/netaudio و برای دیگران.
-به موقع , -در زمان واقعی
در اولین گذر، پردازش بلادرنگ (خط لوله) را به صراحت روشن/خاموش کنید.
پیش فرض برای ورودی فایل خاموش و برای میکروفون، adinnet و NetAudio روشن است
ورودی این گزینه به روشی که CMN و عادی سازی انرژی انجام می شود مربوط می شود:
اگر خاموش باشد، با استفاده از ویژگی های متوسط کل ورودی انجام می شود. اگر روشن است، MAP-CMN
و عادی سازی انرژی برای انجام پردازش بلادرنگ.
متفرقه. گزینه های
-C jconffile
یک فایل jconf را در اینجا بارگذاری کنید. محتوای jconffile در اینجا گسترش خواهد یافت
نقطه.
-version
اطلاعات نسخه را با خطای استاندارد چاپ کنید و از آن خارج شوید.
-تنظیمات
چاپ اطلاعات تنظیمات موتور به خطای استاندارد، و خروج.
-ساکت
خروجی گزارش کمتر. برای نتیجه، فقط بهترین دنباله کلمات چاپ خواهد شد.
اشکال زدایی
(برای اشکال زدایی) پیام داخلی عظیمی را خروجی می دهد و اطلاعات اشکال زدایی برای ورود به سیستم.
-بررسی {wchmm|تریلی|تریفون}
برای رفع اشکال، حالت بررسی تعاملی را وارد کنید.
-plugindir dirlist
دایرکتوری را برای بارگیری افزونه مشخص کنید. اگر چندین فهرست وجود دارد، آنها را بر اساس مشخص کنید
لیست جدا شده با دو نقطه
نمونه، مثال اعلام برای چند رمزگشایی
آرگومان های زیر یک مجموعه پیکربندی جدید با پارامترهای پیش فرض ایجاد می کنند و
سوئیچ جریان بر روی آن تنظیم شده است. پارامترهای Jconf مشخص شده بعد از گزینه در قسمت تنظیم می شود
مجموعه فعلی
برای انجام رمزگشایی چند مدلی، این آرگومان باید در اولین هر مدل مشخص شود
/ نمونه هایی را با نام های مختلف جستجو کنید. هر گزینه قبل از تعریف نمونه اول
نادیده گرفته خواهد شد.
وقتی هیچ تعریف نمونه ای یافت نشد (به عنوان نسخه قدیمی جولیوس)، همه گزینه ها هستند
به یک نمونه پیش فرض به نام _default اختصاص داده شده است.
لطفاً توجه داشته باشید که رمزگشایی با یک LM و چندین AM به طور کامل پشتیبانی نمی شود. برای
برای مثال، ممکن است بخواهید فایل jconf را به صورت زیر بسازید.
این نوع به اشتراک گذاری مدل هنوز پشتیبانی نمی شود، زیرا بخشی از پردازش LM بستگی دارد
در AM تعیین شده درعوض، می توانید با تعریف LM های یکسان برای هر یک، به همان نتیجه برسید
AM، مانند این:
-صبح نام
یک مجموعه پیکربندی AM جدید ایجاد کنید و جریان را به مجموعه جدید تغییر دهید. باید الف بدهید
نام منحصر به فرد (Rev.4.0)
-LM نام
یک مجموعه پیکربندی LM جدید ایجاد کنید و جریان را به مجموعه جدید تغییر دهید. باید الف بدهید
نام منحصر به فرد (Rev.4.0)
-SR نام am_name lm_name
یک مجموعه پیکربندی جستجوی جدید ایجاد کنید و جریان فعلی را به مجموعه جدید تغییر دهید. مشخص شده
AM و LM به آن اختصاص داده خواهد شد. در am_name و lm_name می تواند نام یا شناسه باشد
عدد. شما باید یک نام منحصر به فرد بدهید. (Rev.4.0)
-AM_GMM
هنگام استفاده از GMM برای پردازش جلویی، میتوانید آکوستیک مخصوص GMM را مشخص کنید
پارامترهای بعد از این گزینه اگر مشخص نکنید -AM_GMM با GMM، GMM خواهد شد
همان بردار پارامتر را با آخرین AM به اشتراک بگذارید. AM فعلی به
GMM one، بنابراین مراقب باشید که با تنظیمات AM معمولی اشتباه نگیرید. (Rev.4.0)
-جهانی
یک بخش جهانی راه اندازی کنید. گزینه های جهانی باید قبل از هر نمونه قرار گیرد
اعلامیه، یا بعد از این گزینه در تشخیص چند مدل. از این می توان استفاده کرد
چندین بار. (Rev.4.1)
-بررسی بینی , -بررسی بخش
غیرفعال کردن / فعال کردن بررسی موقعیت گزینه در رمزگشایی چند مدل. وقتی فعال شود،
گزینه های بین اعلام نمونه به عنوان "بخش" و فقط متعلق تلقی می شود
انواع گزینه را می توان نوشت. به عنوان مثال، زمانی که یک گزینه -صبح مشخص شده است، فقط AM
گزینه مربوطه را می توان بعد از گزینه قرار داد تا زمانی که اعلان دیگری پیدا شود. همچنین،
گزینه های جهانی باید قبل از هر گونه اعلام نمونه در بالا قرار گیرند. این هست
به طور پیش فرض فعال شده است. (Rev.4.1)
زبان مدل (-LM)
این گروه شامل گزینه هایی برای تعریف مدل هر نوع مدل زبان است. هنگام استفاده از
چند LM، یک نمونه می تواند تنها یک LM داشته باشد.
فقط یک نوع LM را می توان برای پیکربندی LM مشخص کرد. اگر می خواهید از مولتی استفاده کنید
مدل، شما باید آنها را به عنوان یک LM جدید تعریف کنید.
N-گرم
-d bingram_file
از فرمت باینری N-gram استفاده کنید. یک فایل ARPA N-gram را می توان به باینری Julius تبدیل کرد
فرمت توسط mkbingram.
-nlr arpa_ngram_file
یک مدل زبان N-gram رو به جلو، چپ به راست در قالب استاندارد ARPA. چه زمانی
هر دو N-گرم جلو و N-گرم عقب مشخص شده اند، جولیوس از این استفاده می کند
برای پاس اول 2 گرم به جلو و برای پاس دوم N گرم به عقب.
از آنجایی که فایل ARPA اغلب بزرگ می شود و بارگذاری به زمان زیادی نیاز دارد، ممکن است اینطور باشد
بهتر است فایل ARPA را توسط mkbingram به فرمت باینری Julius تبدیل کنید. توجه داشته باشید که
اگر هر دو N-gram جلو و عقب برای تشخیص استفاده شود، آنها با هم این کار را انجام خواهند داد
به یک باینری تبدیل شود.
زمانی که با این گزینه فقط N-gram رو به جلو مشخص می شود و N-gram عقب مانده وجود ندارد
مشخص شده توسط -nrl، ژولیوس تشخیص را فقط با N-gram جلو انجام می دهد. در
پاس 1 از ورودی 2 گرمی در N-گرم داده شده استفاده می کند و پاس 2 از آن استفاده می کند
از N-gram داده شده با تبدیل احتمالات رو به جلو به عقب استفاده کنید
احتمالات توسط قانون بیز (Rev.4.0)
-nrl arpa_ngram_file
یک مدل زبان N-gram رو به عقب، راست به چپ در قالب استاندارد ARPA. چه زمانی
هر دو یک N-gram رو به جلو و هم N-gram رو به عقب مشخص شده اند، Julius از فوروارد استفاده می کند
2 گرم برای پاس اول و این N گرم برای پاس دوم.
از آنجایی که فایل ARPA اغلب بزرگ می شود و بارگذاری به زمان زیادی نیاز دارد، ممکن است اینطور باشد
بهتر است فایل ARPA را توسط mkbingram به فرمت باینری Julius تبدیل کنید. توجه داشته باشید که
اگر هر دو N-gram جلو و عقب برای تشخیص استفاده شود، آنها با هم این کار را انجام خواهند داد
به یک باینری تبدیل شود.
زمانی که با این گزینه فقط یک N-گرم عقب مانده مشخص می شود و N-gram رو به جلو مشخص نمی شود
مشخص شده توسط -nlr، ژولیوس تشخیص را فقط با N-gram عقب افتاده انجام می دهد.
پاس اول از احتمال 1 گرمی رو به جلو که از عقب محاسبه می شود استفاده می کند
2 گرم با استفاده از قانون Bayes. پاس دوم به طور کامل از N-گرم معکوس داده شده استفاده می کند.
(Rev.4.0)
-v dict_file
فایل دیکشنری ورد.
سیله کلمه_رشته -سیل دم کلمه_رشته
کلمه سکوت تعریف شده در فرهنگ لغت، برای سکوت در ابتدای
جمله و پایان جمله (پیشفرض: " "، " ")
-مپانک کلمه_رشته
کلمه ناشناخته را مشخص کنید. پیش فرض " " یا " از این برای تخصیص استفاده خواهد شد
احتمال کلمه در کلمات ناشناخته، یعنی کلماتی در فرهنگ لغت که در آن نیستند
واژگان N گرم.
-iwspword
یک ورودی کلمه به فرهنگ لغت اضافه کنید که باید با مکث های بین کلمه ای مطابقت داشته باشد.
این ممکن است دقت تشخیص را در برخی از مدلهای زبانی که فاقد آن هستند، بهبود بخشد
مدل سازی مکث بین کلمه ای صریح کلمه ورودی برای اضافه شدن را می توان با تغییر تغییر داد
-iwspentry.
-iwspentry word_entry_string
ورودی کلمه ای که توسط آن اضافه می شود را مشخص کنید -iwspword. (پیش فرض:" [sp] sp
sp")
-سپنوم عدد
تعداد کلمات با فرکانس بالا برای سهولت از درخت واژگان جدا شود
خطای تقریبی که ممکن است توسط تقریب یکبهترین در 1 ایجاد شود
عبور. (پیش فرض: 150)
دستور زبان
گرامرهای متعدد را می توان با تکرار مشخص کرد -گرم و -gramlist. توجه داشته باشید که این
رفتار غیرعادی از گزینه های دیگر است (در گزینه معمولی جولیوس، آخرین خواهد بود
نادیده گرفتن موارد قبلی). شما می توانید استفاده کنید -نوگرام برای تنظیم مجدد گرامرها از قبل
قبل از نقطه مشخص شده است.
-گرم gramprefix1[,gramprefix2[,gramprefix3,...]]
فهرست گرامرهایی که باید با کاما از هم جدا شوند. آرگومان باید پیشوندی از
یک دستور زبان، یعنی اگر دارید foo.dfa و foo.dict، باید آنها را با a مشخص کنید
تک آرگومان foo گرامرهای متعدد را می توان در یک زمان مشخص کرد
لیست جدا شده با کاما
-gramlist list_file
یک فایل لیست گرامری را مشخص کنید که حاوی لیستی از گرامرهای مورد استفاده است. لیست
فایل باید شامل پیشوندهای گرامر، هر کدام در هر خط باشد. یک مسیر نسبی در
فایل لیست به عنوان مربوط به فایل، نه مسیر فعلی یا
فایل پیکربندی.
-dfa dfa_file -v dict_file
روشی قدیمی برای مشخص کردن فایل های گرامری به طور جداگانه. این ساختگی است و نباید
بیشتر استفاده شود
-نوگرام
لیست فعلی گرامرهایی که قبلاً توسط آن مشخص شده است را حذف کنید -گرم, -gramlist, -dfa
و -v.
جدا شده کلمه
دیکشنری را می توان با استفاده مشخص کرد -w و لیست فهرست. وقتی چندتایی را مشخص می کنید
بارها، همه آنها در راه اندازی خوانده می شوند. شما می توانید استفاده کنید -نوگرام برای تنظیم مجدد
دیکشنری هایی که قبلاً در آن نقطه مشخص شده اند.
-w dict_file
فرهنگ لغت برای تشخیص کلمات جدا شده. فرمت فایل مشابه بقیه است
LM. (Rev.4.0)
لیست فهرست list_file
یک فایل فهرست فرهنگ لغت را مشخص کنید که حاوی فهرستی از فرهنگ لغت های مورد استفاده است.
فایل فهرست باید شامل نام فایل فرهنگ لغت، هر خط در هر خط باشد. آ
مسیر نسبی در فایل لیست به عنوان مربوط به فایل لیست تلقی می شود، نه
مسیر فعلی یا فایل پیکربندی (Rev.4.0)
-نوگرام
حذف لیست فعلی فرهنگ لغت که قبلاً توسط آن مشخص شده است -w و لیست فهرست.
-wsil head_sil_model_name tail_sil_model_name sil_context_name
در تشخیص کلمه ایزوله، مدل های سکوت به سر و
دم هر کلمه در تشخیص. این گزینه مدل های سکوت را مشخص می کند
ضمیمه شد sil_context_name نام مدل سر سیل و مدل سیل دم است
به عنوان زمینه ای از کلمه سر تلفن و تلفن دم. مثلا اگر مشخص کنید
-wsil silB silE sp، کلمه ای با دنباله تلفن b eh t به عنوان silB ترجمه می شود
sp-b+eh b-eh+t eh-t+sp silE. (Rev.4.0)
تعریف شده توسط کاربر LM
-userlm
اعلام کنید که از توابع LM کاربر در برنامه استفاده کنید. این گزینه باید مشخص شود
اگر از توابع LM تعریف شده توسط کاربر استفاده می کنید. (Rev.4.0)
متفرقه. LM گزینه های
-اجبار کردن
از کلمات خطا در فرهنگ لغت بگذرید و اجرا کنید.
صوتی مدل و از ویژگی های تحلیل (-صبح) (-AM_GMM)
این بخش در مورد گزینه های مدل آکوستیک، استخراج ویژگی، ویژگی است
نرمال سازی و تفریق طیفی
بعد از نام -AM، یک مدل آکوستیک و مشخصات مربوطه باید نوشته شود. شما می توانید استفاده کنید
چندین AM آموزش دیده با انواع مختلف MFCC. برای GMM، شرایط پارامتر مورد نیاز
باید دقیقاً مانند AMهای بعد مشخص شود -AM_GMM.
هنگام استفاده از چندین AM، مقادیر -smpPeriod, -smpFreq, -fsize و -فشیفت باید
در بین تمام AM ها یکسان است.
صوتی HMM
-h hmmdef_file
فایل تعریف HMM آکوستیک. باید در فرمت HTK ascii یا باینری Julius باشد
قالب با استفاده از mkbinhmm می توانید فرمت HTK ascii را به فرمت باینری Julius تبدیل کنید.
-hlist hmmlist_file
فایل HMMList برای نقشه برداری تلفن. این فایل نگاشت بین منطقی را فراهم می کند
نام های تریفون تولید شده در فرهنگ لغت و نام های HMM تعریف شده در hmmdefs.
این گزینه باید برای مدل وابسته به زمینه مشخص شود.
-tmix عدد
تعداد گاوس های برتر را که باید در کتاب کدهای مخلوط محاسبه شوند، مشخص کنید.
تعداد کم محاسبات صوتی را سرعت می بخشد، اما دقت AM ممکن است افزایش یابد
بدتر با ارزش خیلی کم همچنین ببینید -gprune. (پیش فرض: 2)
-spmodel نام
نام مدل HMM را مشخص کنید که مربوط به مکث کوتاه در یک گفته باشد. در
نام مدل مکث کوتاه برای تشخیص استفاده خواهد شد: پرش با مکث کوتاه روشن
تشخیص گرامر، درج مدل مکث کوتاه پایان کلمه با -iwsp در N-gram،
یا تقسیم بندی با مکث کوتاه (-بخش). (پیشفرض: "sp")
-چند مسیری
حالت چند مسیری را فعال کنید. برای اینکه رمزگشایی سریعتر انجام شود، جولیوس به طور پیشفرض a را تحمیل میکند
محدودیت در انتقال HMM که هر مدل باید تنها یک انتقال از آن داشته باشد
حالت اولیه و به حالت پایانی. در حالت چند مسیری، جولیوس هندلینگ بیشتری انجام می دهد
در انتقال بین مدل اجازه می دهد تا انتقال مدل پرش و چندگانه
انتقال خروجی/ورودی توجه داشته باشید که تعیین این گزینه باعث می شود Julius a
کمی کندتر، و ممکن است عرض پرتو بزرگتر مورد نیاز باشد.
این تابع یک گزینه زمان کامپایل در Julius 3.x بود و اکنون به a تبدیل می شود
گزینه زمان اجرا به طور پیش فرض (بدون این گزینه)، جولیوس انتقال را بررسی می کند
نوع HMM های مشخص شده و در صورت نیاز حالت چند مسیری را فعال کنید. تو می توانی
با این گزینه حالت چند مسیری را مجبور کنید. (rev.4.0)
-gprune {ایمن|ابتکاری|پرتو|هیچکدام|پیشفرض}
الگوریتم هرس گاوسی را برای استفاده تنظیم کنید. برای مدل مخلوط گره خورده، جولیوس اجرا می کند
هرس گاوسی برای کاهش محاسبات صوتی، تنها با محاسبه N بالا
گاوسی ها در هر کتاب کد در هر فریم. تنظیمات پیش فرض تنظیم خواهد شد
با توجه به نوع مدل و تنظیمات موتور. پیش فرض پذیرش را مجبور می کند
تنظیم پیش فرض برای غیرفعال کردن هرس و انجام کامل، این را روی none تنظیم کنید
محاسبه امن تضمین می کند که N گاوسی های برتر محاسبه شوند. اکتشافی و
پرتو کاهش هزینه محاسباتی تهاجمی تری را انجام می دهد، اما ممکن است منجر به کاهش هزینه شود
مدل از دست دادن دقت (پیش فرض: ایمن (استاندارد)، تیر (سریع) برای مخلوط گره خورده
مدل، هیچ کدام برای مدل غیر مخلوط).
-iwcd1 {حداکثر|متوسط|بهترین عدد}
روشی را برای تقریب تریفون بین کلمه ای در سر و دم یک کلمه انتخاب کنید
در پاس اول
max حداکثر احتمال سه تلفن های متنی مشابه را اعمال می کند. میانگین اراده
میانگین احتمال سه تلفن های متنی مشابه را اعمال کنید. بهترین عدد خواهد بود
میانگین احتمالات برتر N-بهترین احتمالات یک سهواسط زمینه مشابه را اعمال کنید.
پیشفرض بهترین 3 برای استفاده با N-gram و میانگین برای گرامر و کلمه است. وقتی این
AM توسط LMهای هر دو نوع مشترک است، نوع دوم انتخاب خواهد شد.
-iwsppenalty شناور
جریمه درج برای مکث های کوتاه پایان کلمه که توسط -iwsp.
-گشمم hmmdef_file
اگر این گزینه مشخص شده باشد، Julius انتخاب مخلوط Gaussian را برای آن انجام می دهد
رمزگشایی کارآمد hmmdefs باید یک مدل مونوفون تولید شده از یک باشد
مونوفون معمولی مدل HMM، با استفاده از mkgshmm.
-gsnum عدد
در GMS، تعداد حالت های تک صدایی را برای محاسبه سه تلفن مربوطه مشخص کنید
جزئیات (پیش فرض: 24)
سخنرانی تحلیل
فقط استخراج ویژگی MFCC در Julius فعلی پشتیبانی میشود. بنابراین هنگام تشخیص
یک ورودی شکل موج از فایل یا میکروفون، AM باید توسط MFCC آموزش داده شود. پارامتر
شرط نیز باید دقیقاً مشابه شرایط تمرینی تنظیم شود
گزینه های زیر
وقتی در فایل پارامتر HTK ورودی می دهید، می توانید از هر نوع پارامتری برای آن استفاده کنید
صبح. در این مورد جولیوس به نوع ویژگی ورودی و AM اهمیتی نمی دهد، فقط
آنها را به عنوان دنباله برداری بخوانید و با AM داده شده مطابقت دهید. جولیوس فقط چک می کند
آیا انواع پارامترها یکسان هستند. اگر به خوبی کار نمی کند، می توانید غیرفعال کنید
این بررسی توسط - چک بدون تایپ.
در Julius، نوع پارامتر و واجد شرایط (به عنوان TARGETKIND در HTK) و عدد
پارامترهای مغزی (NUMCEPS) به طور خودکار از محتوای آن تنظیم می شود
هدر AM، بنابراین لازم نیست آنها را با گزینه ها مشخص کنید.
سایر پارامترها باید دقیقاً مانند شرایط تمرین تنظیم شوند. شما همچنین می توانید
یک فایل پیکربندی HTK که برای آموزش AM به جولیوس استفاده کردید، بدهید -htkconf. وقتی این
گزینه اعمال می شود، Julius فایل Config را تجزیه و پارامتر مناسب را تنظیم می کند.
شما می توانید تنظیمات پارامتر تجزیه و تحلیل را در یک فایل HMM باینری با استفاده از آن جاسازی کنید
mkbinhmm.
اگر گزینه ها به چند صورت مشخص شده باشند، به ترتیب زیر ارزیابی می شوند.
در صورت وجود، پارامتر تعبیه شده AM ابتدا بارگیری می شود. سپس، فایل پیکربندی HTK
داده شده توسط -htkconf تجزیه خواهد شد. اگر مقداری قبلاً توسط مقدار جاسازی شده AM تنظیم شده است، HTK
config آنها را لغو می کند. در نهایت، گزینه های مستقیم بارگیری می شوند که بارگذاری می شوند
تنظیمات بارگیری شده قبلی را لغو کنید. توجه داشته باشید که، زمانی که همان گزینه ها مشخص شده است
چندین بار، بعداً قبلی را لغو می کند، با این تفاوت که -htkconf ارزیابی خواهد شد
ابتدا همانطور که در بالا توضیح داده شد.
-smpPeriod دوره
دوره نمونه برداری از گفتار ورودی، در واحد 100 نانوثانیه. نرخ نمونه برداری می تواند
نیز مشخص شود -smpFreq. لطفا توجه داشته باشید که فرکانس ورودی باید باشد
برابر با شرایط تمرین AM تنظیم کنید. (پیشفرض: 625، مربوط به
16,000 هرتز)
این گزینه مربوط به HTK Option SOURCERATE است. همین مقدار می تواند باشد
به این گزینه داده شده است.
هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.
-smpFreq Hz
فرکانس نمونه گیری از گفتار ورودی را بر حسب هرتز تنظیم کنید. نرخ نمونه برداری نیز می تواند باشد
مشخص شده با استفاده از -smpPeriod. لطفا توجه داشته باشید که این فرکانس باید برابر باشد
به شرایط تمرین AM. (پیشفرض: 16,000)
هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.
-fsize نمونه_تعداد
اندازه پنجره بر حسب تعداد نمونه (پیش فرض: 400)
این گزینه مربوط به گزینه HTK WINDOWSIZE است، اما مقدار باید در باشد
نمونه ها (مقدار HTK / smpPeriod).
هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.
-فشیفت نمونه_تعداد
تغییر قاب در تعداد نمونه ها (پیش فرض: 160)
این گزینه مربوط به HTK Option TARGETRATE است، اما مقدار باید در باشد
نمونه ها (مقدار HTK / smpPeriod).
هنگام استفاده از چند AM، این مقدار باید در بین همه AM ها یکسان باشد.
-پیش امف شناور
ضریب پیش تاکید. (پیشفرض: 0.97)
این گزینه با گزینه HTK PREEMCOEF مطابقت دارد. همین مقدار را می توان داد
به این گزینه
-fbank تعداد
تعداد کانال های بانک فیلتر (پیش فرض: 24)
این گزینه با گزینه HTK NUMCHANS مطابقت دارد. همین مقدار را می توان داد
به این گزینه توجه داشته باشید که مقدار پیش فرض با HTK (22) یکسان نیست.
-ceplif تعداد
ضریب لیفتینگ مغزی. (پیش فرض: 22)
این گزینه مربوط به HTK Option CEPLIFTER است. همین مقدار را می توان داد
به این گزینه
خام , -نوراو
فعال/غیرفعال کردن استفاده از انرژی خام قبل از تاکید قبلی (پیشفرض: غیرفعال)
این گزینه مربوط به HTK Option RAWENERGY است. توجه داشته باشید که پیش فرض است
مقدار با HTK متفاوت است (در HTK فعال است، در Julius غیرفعال است).
-عادی , - غیر طبیعی
فعال/غیرفعال کردن عادی سازی انرژی گزارش در ورودی زنده، این عادی سازی خواهد بود
تقریبی از میانگین آخرین ورودی. (پیشفرض: غیرفعال)
این گزینه با گزینه HTK ENORMALISE مطابقت دارد. توجه داشته باشید که پیش فرض است
مقدار با HTK متفاوت است (در HTK فعال است، در Julius غیرفعال است).
-escale float_scale
ضریب مقیاس پذیری انرژی ورود به سیستم هنگام عادی سازی انرژی ورود به سیستم. (پیشفرض: 1.0)
این گزینه مربوط به HTK Option ESCALE است. توجه داشته باشید که پیش فرض است
مقدار با HTK (0.1) متفاوت است.
-سیلاب شناور
کف سکوت انرژی در دسی بل هنگام عادی سازی انرژی ورود به سیستم. (پیشفرض: 50.0)
این گزینه مربوط به HTK Option SILFLOOR است.
-دلوین قاب
اندازه پنجره دلتا بر حسب تعداد فریم. (پیش فرض: 2)
این گزینه مربوط به HTK Option DELTAWINDOW است. همین مقدار می تواند باشد
به این گزینه داده شده است.
-اکوین قاب
اندازه پنجره شتاب بر حسب تعداد فریم. (پیش فرض: 2)
این گزینه با گزینه HTK ACCWINDOW مطابقت دارد. همین مقدار را می توان داد
به این گزینه
-hifreq Hz
محدود کردن باند را برای محاسبات بانک فیلتر MFCC فعال کنید: فرکانس بالایی را تنظیم کنید
قطع کردن مقدار -1 آن را غیرفعال می کند. (پیش فرض: -1)
این گزینه مربوط به HTK Option HIFREQ است. همین مقدار را می توان به آن داد
این گزینه
-لوفرک Hz
محدود کردن باند را برای محاسبات بانک فیلتر MFCC فعال کنید: فرکانس کمتری را تنظیم کنید
قطع کردن مقدار -1 آن را غیرفعال می کند. (پیش فرض: -1)
این گزینه با گزینه HTK LOFREQ مطابقت دارد. همین مقدار را می توان به آن داد
این گزینه
-zmeanframe , -nozmeanframe
با ورودی گفتار، این گزینه حذف افست DC بر اساس فریم را فعال/غیرفعال می کند.
این مربوط به پیکربندی HTK ZMEANSOURCE است. این را نمی توان با هم استفاده کرد
با -zmean. (پیشفرض: غیرفعال)
-قدرت استفاده
در تحلیل بانک فیلتر به جای قدر از توان استفاده کنید. (پیشفرض: غیرفعال)
عادی سازی
جولیوس می تواند نرمال سازی میانگین مغزی (CMN) را برای ورودی ها انجام دهد. CMN خواهد بود
زمانی فعال می شود که AM داده شده با CMN آموزش داده شود (یعنی دارای واجد شرایط "_Z" در
سرتیتر).
میانگین مغزی با توجه به نوع ورودی به روش های مختلف تخمین زده می شود.
در ورودی فایل، میانگین از کل ورودی محاسبه می شود. در ورودی زنده مانند
به عنوان ورودی میکروفون و شبکه، میانگین مغزی ورودی در ورودی ناشناخته است
شروع کنید. بنابراین از MAP-CMN استفاده خواهد شد. در MAP-CMN، بردار میانگین اولیه اعمال خواهد شد
در ابتدا، و بردار میانگین به میانگین لکه دار می شود
افزایش بردار ورودی به عنوان ورودی. گزینه های زیر می توانند رفتار را کنترل کنند
MAP-CMN.
-cvn
عادی سازی واریانس مغزی را فعال کنید. در ورودی فایل، واریانس کل
ورودی محاسبه و سپس اعمال خواهد شد. در ورودی میکروفون زنده، واریانس
آخرین ورودی اعمال خواهد شد. CVN فقط برای ورودی صوتی پشتیبانی می شود.
-vtln آلفا برش کم قطع کردن
تاب فرکانس را انجام دهید، معمولاً برای عادی سازی طول دستگاه صوتی (VTLN).
آرگومان ها فاکتور تاب، قطع فرکانس بالا و فرکانس پایین هستند. قطع کردن آنها
مطابق با مقادیر پیکربندی HTK، WARPFREQ، WARPHCUTOFF و WARPLCUTOFF است.
-cmnload پرونده
بارگیری وکتور میانگین مغزی اولیه از فایل هنگام راه اندازی. در پرونده باید یکی باشد
ذخیره شده توسط -cmnsave. بارگذاری یک میانگین اولیه مغزی، جولیوس را قادر می سازد تا بهتر شود
تشخیص اولین گفته در یک ورودی بلادرنگ. هنگام استفاده همراه با
-cmnnoupdate، این مقدار اولیه برای همه ورودی ها استفاده خواهد شد.
-cmnsave پرونده
بردار میانگین مغزی محاسبه شده را در ذخیره کنید پرونده. پارامترها ذخیره خواهند شد
در هر انتهای ورودی اگر فایل خروجی از قبل وجود داشته باشد، لغو می شود.
-cmnupdate -cmnnoupdate
کنترل کنید که آیا میانگین سر در هر ورودی در ورودی بلادرنگ به روز شود.
غیرفعال کردن این و مشخص کردن -cmnload باعث می شود موتور همیشه از بارگذاری شده استفاده کند
میانگین مغزی اولیه استاتیک
cmnmapweight شناور
وزن میانگین اولیه مغز را برای MAP-CMN مشخص کنید. مقدار بزرگتر را مشخص کنید
میانگین اولیه مغزی را برای مدت طولانیتری حفظ کنید و مقدار کمتری را ایجاد کنید
میانگین مغزی بیشتر به ورودی جریان متکی است. (پیشفرض: 100.0)
جلویی در حال پردازش
جولیوس میتواند تفریق طیفی را برای کاهش نویز ثابت از صدا انجام دهد
ورودی اگرچه روش قدرتمندی نیست، اما ممکن است در برخی شرایط کار کند.
جولیوس دو راه برای تخمین طیف نویز دارد. یک راه این است که فرض کنیم که اولی
بخش کوتاه یک ورودی گفتار، بخش نویز است، و طیف نویز را تخمین بزنید
به عنوان میانگین بخش راه دیگر محاسبه میانگین طیف از
ورودی فقط نویز با استفاده از ابزار دیگر mkss، و آن را در Julius بارگذاری کنید. سابق است
برای ورودی فایل گفتاری محبوب است و دومی باید در ورودی زنده استفاده شود. گزینه ها
زیر رفتار را تغییر می دهد / کنترل می کند.
-اسکالک
تفریق طیفی را با استفاده از قسمت سر هر فایل به عنوان قسمت سکوت انجام دهید. در
طول قسمت سر باید توسط مشخص شود -اسکالکلن. فقط برای ورودی فایل معتبر است.
درگیری با -ssload.
-اسکالکلن msec
با -اسکالک، طول سکوت هد را برای تخمین طیف نویز مشخص کنید
در میلی ثانیه (پیشفرض: 300)
-ssload پرونده
با استفاده از طیف نویز از پیش تخمین زده شده، تفریق طیفی را برای ورودی گفتار انجام دهید
بارگیری شده از پرونده. فایل طیف نویز را می توان توسط mkss ساخت. برای همه معتبر است
ورودی گفتار درگیری با -اسکالک.
-سالفا شناور
ضریب آلفای تفریق طیفی برای -اسکالک و -ssload. سر و صدا خواهد بود
با بزرگتر شدن این مقدار قویتر میشود، اما اعوجاج حاصل میشود
سیگنال نیز قابل توجه می شود. (پیشفرض: 2.0)
-ssfloor شناور
ضریب کف سازی تفریق طیفی. قدرت طیفی که پایین تر است
صفر پس از تفریق با سیگنال منبع جایگزین می شود
ضریب ضرب شده (پیشفرض: 0.5)
متفرقه. AM گزینه های
-htkconf پرونده
فایل پیکربندی HTK داده شده را تجزیه کنید و پارامترهای مربوطه را روی Julius تنظیم کنید.
هنگام استفاده از این گزینه، مقادیر پارامتر پیش فرض از Julius تغییر می کند
پیشفرض به پیشفرض HTK است.
به رسمیت شناختن روند و جستجو کردن (-SR)
این بخش شامل گزینه هایی برای پارامترهای جستجو در گذر 1 / 2 مانند پرتو می باشد
وزنهای عرض و LM، تنظیمات برای تقسیمبندی مکث کوتاه، سوئیچها برای کلمه
خروجی شبکه و خروجی شبکه سردرگمی، ترازهای اجباری و سایر گزینههای مرتبط
فرآیند تشخیص و خروجی نتیجه
مقادیر پیشفرض برای عرض پرتو و وزن LM با توجه به تنظیم زمان کامپایل تغییر میکند
از JuliusLib، نوع مدل AM و اندازه LM. لطفاً گزارش راه اندازی را برای اطلاعات واقعی ببینید
ارزش ها.
1st عبور پارامترهای
-lmp وزن مجازات
(N-gram) وزن مدل زبان و جریمه های درج کلمه برای پاس اول.
-پنالتی 1 مجازات
(گرامر) جریمه درج کلمه برای پاس اول. (پیشفرض: 0.0)
-b عرض
عرض پرتو بر حسب تعداد گره های HMM برای تابش رتبه در اولین پاس. این مقدار
عرض جستجو را در اولین پاس تعریف می کند و تأثیر غالب بر کل دارد
زمان پردازش. عرض کوچکتر رمزگشایی را سرعت می بخشد، اما مقدار بسیار کم
منجر به افزایش قابل توجهی از خطاهای تشخیص به دلیل جستجو خواهد شد
شکست. مقدار بزرگتر جستجو را پایدار می کند و منجر به بدون شکست می شود
جستجو کنید، اما زمان پردازش متناسب با عرض افزایش خواهد یافت.
مقدار پیش فرض به نوع مدل آکوستیک بستگی دارد: 400 (مونوفون)، 800
(triphone) یا 1000 (triphone, setup=v2.1)
-nlimit تعداد
حد بالایی توکن در هر گره. این گزینه زمانی معتبر است که --enable-wpair و
--enable-wpair-nlimit در زمان کامپایل فعال می شوند.
-progout
خروجی تدریجی نتایج جزئی را در اولین پاس فعال کنید.
-فاصله اولیه msec
فاصله زمانی را برای -progout در میلی ثانیه (پیشفرض: 300)
2nd عبور پارامترهای
-lmp2 وزن مجازات
(N-gram) وزن مدل زبان و جریمه های درج کلمه برای دوم
عبور.
-پنالتی 2 مجازات
(گرامر) جریمه درج کلمه برای پاس دوم. (پیشفرض: 0.0)
-b2 عرض
عرض تیر پاکت (تعداد فرضیه) در گذر دوم. اگر شمارش از
بسط کلمه در طول فرضیه خاصی در حین جستجو به این حد می رسد،
فرضیه های کوتاه تر بیشتر بسط داده نمی شوند. این از سقوط جستجو جلوگیری می کند
انباشتن موقعیت مشابه در همان موقعیت و بهبود جستجو
شکست بیشتر برای شرایط واژگان بزرگ. (پیش فرض: 30)
-sb شناور
پهنای پاکت امتیاز برای نمره گذاری پاکت شده. هنگام محاسبه امتیاز فرضیه
برای هر فرضیه ایجاد شده، گسترش ترلی و عملیات ویتربی خواهد بود
اگر امتیاز یک قاب کمتر از عرض باشد، در وسط سخنرانی هرس شود.
دادن مقدار کوچک باعث می شود که پاس دوم سریعتر شود، اما ممکن است خطای محاسباتی
روی دادن. (پیشفرض: 80.0)
-s تعداد
اندازه پشته، یعنی حداکثر تعداد فرضیه ای که می توان روی آن ذخیره کرد
پشته در طول جستجو یک مقدار بزرگتر ممکن است نتایج پایدارتری بدهد، اما
مقدار حافظه مورد نیاز را افزایش می دهد. (پیشفرض: 500)
-m تعداد دفعات مشاهده
تعداد فرضیه های توسعه یافته مورد نیاز برای توقف جستجو. اگر شماره
فرضیه های بسط یافته بیشتر از این آستانه است، سپس جستجو می باشد
در آن نقطه متوقف شد. هر چه این مقدار بزرگتر باشد، ژولیوس بیشتر به آن می رسد
دست از جستجو بردارید (پیش فرض: 2000)
-n تعداد
تعداد نامزدهایی که جولیوس تلاش می کند پیدا کند. جستجو تا این لحظه ادامه دارد
تعدادی فرضیه جمله پیدا شده است. فرضیه های جمله به دست آمده
بر اساس امتیاز مرتب می شوند و نتیجه نهایی به ترتیب نمایش داده می شود (همچنین به
-خروجی). احتمال اینکه فرضیه بهینه به درستی پیدا شود
با افزایش این مقدار افزایش می یابد، اما زمان پردازش نیز افزایش می یابد
طولانی تر مقدار پیش فرض بستگی به تنظیم موتور در زمان کامپایل دارد: 10
(استاندارد) یا 1 (سریع یا نسخه 2.1)
-خروجی تعداد
فرضیه N جمله برتر در پایان جستجو خروجی می شود. استفاده کنید با -n
(به طور پیش فرض: 1)
محدوده جستجو قاب
تعداد فریم های قبل و بعد را تنظیم کنید تا فرضیه های کلمه بعدی را در آن جستجو کنید
کلمه پرده در پاس دوم. این از حذف کلمات کوتاه جلوگیری می کند، اما
با مقدار زیاد، تعداد فرضیه های بسط یافته افزایش می یابد و سیستم
کند می شود (پیش فرض: 5)
-looktrellis
(گرامر) به جای بسط دادن، فقط کلمات باقی مانده را در اولین گذر بسط دهید
تمام کلمات پیش بینی شده توسط گرامر این گزینه رمزگشایی گذر دوم را انجام می دهد
سریعتر به خصوص برای شرایط واژگان بزرگ، اما ممکن است حذف را افزایش دهد
خطای کلمات کوتاه (پیشفرض: غیرفعال)
مکث کوتاه تقسیم بندی / رمزگشا-VAD
وقتی با --enable-decoder-vad کامپایل می شود، بخش بندی کوتاه مکث خواهد بود
برای پشتیبانی از VAD مبتنی بر رمزگشا گسترش یافته است.
-بخش
حالت تقسیمبندی مکث کوتاه را فعال کنید. ورودی با یک مکث کوتاه بخش بندی می شود
کلمه (کلمه تنها با مدل سکوت در تلفظ) بیشترین احتمال را دارد
در فریم های متوالی مشخص در اولین پاس. وقتی پایان بخش شناسایی شد،
جولیوس اولین پاس را در نقطه متوقف می کند، پاس دوم را انجام می دهد و به مرحله بعدی ادامه می دهد
بخش. کلمه متن در میان بخش ها در نظر گرفته می شود. (Rev.4.0)
هنگامی که با --enable-decoder-vad کامپایل می شود، این گزینه VAD مبتنی بر رمزگشا را فعال می کند.
برای رد شدن از سکوت طولانی
-spdur قاب
طول مدت مکث کوتاه برای تشخیص پایان بخش ورودی، بر حسب تعداد فریم.
(به طور پیش فرض: 10)
-مدل های مکث رشته
فهرستی از نامهای مدل مکث جدا شده با کاما برای استفاده در مکث کوتاه
تقسیم بندی کلمه ای که تلفظ آن فقط از مدل های مکث تشکیل شده است
به عنوان "کلمه مکث" در نظر گرفته می شود و برای تشخیص مکث استفاده می شود. اگر مشخص نشده باشد،
نام -spmodel, سیله و -سیل دم استفاده خواهد شد. (Rev.4.0)
- spmargin قاب
حاشیه گام عقب در راه اندازی برای VAD مبتنی بر رمزگشا. وقتی گفتار بالا می رود
یافت شده توسط رمزگشا-VAD، جولیوس پارامتر ورودی را با این مقدار به عقب برمیگرداند و
تشخیص را در نقطه شروع کنید. (Rev.4.0)
این گزینه تنها در صورتی معتبر خواهد بود که با --enable-decoder-vad کامپایل شده باشد.
spdelay قاب
فریم تأخیر تصمیم ماشه در هنگام ماشه برای VAD مبتنی بر رمزگشا. (Rev.4.0)
این گزینه تنها در صورتی معتبر خواهد بود که با --enable-decoder-vad کامپایل شده باشد.
کلمه شبکه / گیجی شبکه تولید
-لطفا , -نوار
فعال / غیر فعال کردن تولید نمودار کلمه. الگوریتم جستجو نیز به تغییر کرده است
برای تولید نمودار کلمه بهتر بهینه سازی کنید، بنابراین نتیجه جمله ممکن است این نباشد
همانند تشخیص N-بهترین معمولی. (Rev.4.0)
-confnet , -noconfnet
فعال/غیرفعال کردن تولید شبکه سردرگمی فعال کردن این نیز خواهد شد
فعال می شود -لطفا داخلی (Rev.4.0)
-گرافنج قاب
کلمات مشابه را در موقعیت همسایه در تولید نمودار ادغام کنید. اگر زمان شروع
و زمان پایان دو کلمه نامزد یک کلمه در محدوده مشخص شده است
محدوده، آنها ادغام خواهند شد. پیش فرض 0 است (اجازه ادغام کلمات مشابه را فراهم می کند
دقیقاً همان مکان) و تعیین مقدار بزرگتر منجر به کوچکتر می شود
خروجی نمودار تنظیم این مقدار روی -1، ادغام را غیرفعال می کند، در این صورت هم همینطور
کلمات در مکان یکسان با نمرات مختلف همانطور که هستند باقی می مانند.
(به طور پیش فرض: 0)
-گرافکات عمق
نمودار حاصل را با عمق کلمه آن در مرحله پس از پردازش برش دهید. عمق
مقدار تعداد کلماتی است که در یک فریم مجاز هستند. تنظیم -1 غیرفعال می شود
این ویژگی (پیش فرض: 80)
-graphboundloop تعداد دفعات مشاهده
تعداد حلقه های تنظیم مرز را در مرحله پس از پردازش محدود کنید. این
پارامتر مانع از مسدود شدن جولیوس توسط حلقه تنظیم بی نهایت توسط کوتاه می شود
نوسان کلمه (پیش فرض: 20)
-تاخیر جستجو , -تاخیر جستجوی نوگراف
هنگامی که این گزینه فعال است، جولیوس الگوریتم تولید نمودار خود را تغییر می دهد
گذر دوم برای پایان یافتن جستجو با ادغام نمودار، تا اولین جمله
نامزد پیدا می شود این گزینه ممکن است دقت نمودار را بهبود بخشد، به خصوص زمانی که شما
با تنظیم جستجوی گسترده، یک نمودار بزرگ کلمه ایجاد می کنند. یعنی ممکن است
هنگامی که پرتوهای عریض را در هر دو پاس اول تنظیم می کنید، منجر به دقت نمودار بهتر می شود -b و
پاس دوم -b2، و تعداد زیادی برای -n. (پیشفرض: غیرفعال)
چند گرمی / چند دیک به رسمیت شناختن
-مولتی گرام , -نومولتیگرام
در تشخیص دستور زبان با استفاده از گرامرهای متعدد، جولیوس تنها بهترین ها را خروجی می دهد
نتیجه در میان همه دستور زبان ها فعال کردن این گزینه باعث خروجی جولیوس می شود
نتیجه برای هر دستور زبان (پیشفرض: غیرفعال)
مجبور هم ترازی
-والینگ
برای نتیجه تشخیص، تراز ویتربی را در هر واحد کلمه انجام دهید. کلمه
فریم های مرزی و میانگین امتیازات صوتی در هر فریم محاسبه می شود.
-صاف
برای نتیجه تشخیص، تراز ویتربی را در هر واحد تلفن انجام دهید. تلفن
فریم های مرزی و میانگین امتیازات صوتی در هر فریم محاسبه می شود.
-صاف کردن
برای نتیجه تشخیص، تراز ویتربی را در هر حالت انجام دهید. مرز ایالت
فریم ها و میانگین امتیازات آکوستیک در هر فریم محاسبه خواهد شد.
متفرقه. جستجو کردن گزینه های
-غیر فعال
این نمونه فرآیند شناسایی را با حالت غیرفعال شروع کنید. (Rev.4.0)
-1 پاس
فقط پاس اول را انجام دهید.
-fallback1pass
هنگامی که پاس دوم ناموفق بود، جولیوس بدون هیچ نتیجه ای تشخیص را تمام می کند. این گزینه
به جولیوس بگویید که نتیجه پاس 1 را به عنوان نتیجه نهایی در هنگام پاس 2 به خروجی برساند
شکست می خورد. توجه داشته باشید که برخی از خروجی های امتیاز (اطمینان و غیره) ممکن است مفید نباشند. این بود
رفتار پیش فرض Julius-3.x.
-no_ccd , -force_ccd
صراحتاً مدیریت زمینه تلفن را در جستجو تغییر دهید. به طور معمول جولیوس تعیین می کند
آیا استفاده از AM یک مدل وابسته به زمینه است یا نه از نام مدل،
به عنوان مثال، آیا نام ها حاوی کاراکتر + و - هستند یا خیر. این گزینه را لغو می کند
تشخیص خودکار
-کمالفا شناور
پارامتر هموارسازی برای امتیازدهی اعتماد به نفس. (پیشفرض: 0.05)
-iwsp
(فقط حالت چند مسیری) درج مکث کوتاه بدون متن بین کلمه را فعال کنید.
این گزینه یک مدل مکث کوتاه قابل پرش را برای پایان هر کلمه اضافه می کند. در
مدل مکث کوتاه را می توان توسط -spmodel.
-ترانسپ شناور
جریمه درج اضافی برای کلمات شفاف. (پیشفرض: 0.0)
-نسخه ی نمایشی
معادل با -progout -ساکت.
محیط زیست متغیرها
السادف
(با استفاده از ورودی میکروفون با دستگاه alsa) نام دستگاه ضبط را مشخص کنید. اگر مشخص نشده باشد،
"پیش فرض" استفاده خواهد شد.
AUDIODEV
(با استفاده از ورودی میکروفون با دستگاه oss) مسیر دستگاه ضبط را مشخص کنید. اگر مشخص نشده باشد،
"/dev/dsp" استفاده خواهد شد.
LATENCY_MSEC
سعی کنید تأخیر ورودی ورودی میکروفون را بر حسب میلی ثانیه تنظیم کنید. ارزش کوچکتر خواهد شد
تأخیر را کوتاه می کند، اما گاهی اوقات فرآیند را ناپایدار می کند. مقدار پیش فرض به مقدار بستگی دارد
در حال اجرا OS
مثال ها
برای نمونه هایی از استفاده از سیستم، به بخش آموزشی در اسناد جولیوس مراجعه کنید.
آگهی
نکته در مورد فایل های jconf: مسیرهای نسبی در یک فایل jconf به صورت نسبی تفسیر می شوند
خود فایل jconf، نه به دایرکتوری فعلی.
با استفاده از خدمات onworks.net از julius به صورت آنلاین استفاده کنید