عربيالفرنسيةالإسبانية

Ad


OnWorks فافيكون

يوليوس - عبر الإنترنت في السحابة

قم بتشغيل julius في موفر الاستضافة المجاني OnWorks عبر Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

هذا هو الأمر julius الذي يمكن تشغيله في موفر الاستضافة المجاني OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

برنامج:

اسم


جوليوس
- محرك LVCSR مفتوح المصدر ومتعدد الأغراض

موجز


جوليوس [-ج jconfile] [الخيارات...]

الوصف


جوليوس هو محرك عالي الأداء ومتعدد الأغراض ومفتوح المصدر للتعرف على الكلام
الباحثين والمطورين. إنه قادر على إجراء التعرف في الوقت الفعلي تقريبًا على
التحدث المستمر مع نموذج لغة أكثر من 60 ألف كلمة و3 جرام ونموذج ثلاثي الهاتف HMM، في معظم الأحيان
أجهزة الكمبيوتر الحالية. جوليوس يمكن إجراء التعرف على الملفات الصوتية، وإدخال الميكروفون المباشر،
إدخال الشبكة وملفات المعلمات الميزة.

يتم تنفيذ وحدة التعرف الأساسية كمكتبة C تسمى "JuliusLib". يمكن أن يكون كذلك
ممتدة بواسطة مرفق المكونات الإضافية.

مدعومة الموديلات
جوليوس يحتاج إلى نموذج لغة ونموذج صوتي ليعمل كأداة التعرف على الكلام. جوليوس
يدعم النماذج التالية.

صوتي نموذج
يتم دعم الكلمة الفرعية HMM (نموذج ماركوف المخفي) بتنسيق HTK ascii. صوت
نماذج (أحادية الصوت)، نماذج صوتية تعتمد على السياق (ثلاثي)، مزيج مقيد و
يمكن استخدام نماذج الخليط المربوط الصوتي لأي وحدة. عند استخدام السياق المعتمد
النماذج، يتم أيضًا التعامل مع تبعية سياق الكلمات. ميزة الدفق المتعدد و
كما يتم دعم MSD-HMM. يمكنك كذلك استخدام أداة مكبينهممم لتحويل ascii
HMM إلى تنسيق ثنائي مضغوط للتحميل بشكل أسرع.

نلاحظ أن جوليوس في حد ذاته يمكنه فقط استخراج ميزات MFCC من بيانات الكلام. إذا كنت تستخدم
تم تدريب HMM الصوتي على ميزات أخرى، ويجب عليك إدخال معلمة HTK
ملف من نفس نوع الميزة.

اللغة نموذج: كلمة ن جرام
يتم دعم نموذج لغة Word N-gram، حتى 10 جرام. يستخدم يوليوس مختلفة
N-gram لكل تمريرة: 2 جرام من اليسار إلى اليمين في التمريرة الأولى، وN-gram من اليمين إلى اليسار
التمريرة الثانية. يوصى باستخدام كل من LR 2-gram وRL N-gram لجوليوس.
ومع ذلك، يمكنك استخدام LR N-gram أو RL N-gram واحد فقط. في مثل هذه الحالة، تقريبي
سيتم تطبيق LR 2-gram المحسوب من N-gram المحدد عند التمريرة الأولى.

يتم دعم تنسيق ARPA القياسي. وبالإضافة إلى ذلك، هناك تنسيق ثنائي أيضًا
مدعومة لتحقيق الكفاءة. الأداة com.mkbingram(1) يمكن تحويل تنسيق ARPA N-gram إلى
تنسيق ثنائي.

اللغة نموذج: قواعد
يعد التنسيق النحوي تنسيقًا أصليًا، ويحتوي على أدوات لإنشاء قواعد نحوية للتعرف
يتم تضمينها في التوزيع. يتكون النحو من ملفين: أحدهما أ
ملف "نحوي" يصف بنيات الجملة بأسلوب BNF، باستخدام Word
اسم "الفئة" كرموز إنهاء. الآخر هو ملف "voca" الذي يحدد الكلمات
مع نطقها (أي تسلسل الصوت) لكل فئة. ينبغي أن يكونوا كذلك
تم التحويل بواسطة مكدفا(1) إلى ملف آلي محدد حتمي (.dfa) و أ
ملف القاموس (.dict)، على التوالي. يمكنك أيضًا استخدام قواعد نحوية متعددة.

اللغة نموذج: معزول كلمة
يمكنك إجراء التعرف على الكلمات المعزولة باستخدام قاموس الكلمات فقط. مع هذا
بالنسبة لنوع النموذج، سيقوم Julius بالتعرف السريع على تمريرة واحدة باستخدام سياق ثابت
معالجة. ستتم إضافة نماذج الصمت في رأس وذيل كل كلمة. أنت تستطيع
استخدم أيضًا قواميس متعددة في العملية.

بحث خوارزمية
خوارزمية التعرف على جوليوس يعتمد على استراتيجية ذات تمريرتين. كلمة 2 جرام وعكسها
يتم استخدام كلمة 3 جرام في التمريرات المعنية. تتم معالجة الإدخال بالكامل في الأول
تمرير، ومرة ​​أخرى يتم تنفيذ عملية البحث النهائية مرة أخرى للإدخال، وذلك باستخدام
نتيجة التمريرة الأولى لتضييق مساحة البحث. وعلى وجه التحديد الاعتراف
تعتمد الخوارزمية على بحث إرشادي لتعريشة الشجرة مع البحث من اليسار إلى اليمين
البحث عن الشعاع المتزامن للإطار والبحث عن فك تشفير المكدس من اليمين إلى اليسار.

عند استخدام الهواتف المعتمدة على السياق (الهواتف الثلاثية)، يتم أخذ سياقات الكلمات البينية في الاعتبار
اعتبار. بالنسبة لنماذج الخليط المربوط والخليط الصوتي، صوتي عالي السرعة
من الممكن حساب الاحتمالية باستخدام التقليم الغوسي.

لمزيد من التفاصيل، راجع الوثائق ذات الصلة.

OPTIONS


تحدد هذه الخيارات النماذج وسلوكيات النظام ومعلمات البحث المتنوعة
يوليوس. يمكن تعيين هذه الخيارات في سطر الأوامر، ولكن من المستحسن أن تكتبها
لهم في ملف نصي باسم "ملف jconf"، وتحديده عن طريق خيار "-C".

تستخدم التطبيقات التي تتضمن JuliusLib هذه الخيارات أيضًا لتعيين المعلمات الأساسية
محرك الاعتراف. على سبيل المثال، يمكن تحميل ملف jconf إلى enine عن طريق الاتصال
j_config_load_file_new() باستخدام اسم ملف jconf كوسيطة.

يرجى ملاحظة أن المسارات النسبية في ملف jconf يجب أن تكون مرتبطة بملف jconf
نفسه، وليس دليل العمل الحالي.

وفيما يلي تفاصيل جميع الخيارات، التي تم جمعها حسب المجموعة.

جوليوس استمارتنا خيار
هذه هي خيارات تطبيق Julius، خارج JuliusLib. أنه يحتوي على المعلمات و
مفاتيح لإخراج النتائج، وتحويل مجموعة الأحرف، ومستوى السجل، وخيارات وضع الوحدة النمطية.
هذه الخيارات خاصة بـ Julius، ولا يمكن استخدامها في التطبيقات التي تستخدم JuliusLib
بخلاف يوليوس.

-ملف
عند إدخال الملف، يقوم هذا الخيار بكتابة نتيجة التعرف على كل ملف في ملف منفصل
ملف. سيكون ملف الإخراج لملف الإدخال بنفس الاسم ولكن ستكون اللاحقة
تغيرت إلى ". خارج". (الإصدار 4.0)

-درجة منفصلة
إخراج اللغة والنتائج الصوتية بشكل منفصل.

-callbackdebug
اطبع أسماء رد الاتصال عند كل مكالمة لتصحيح الأخطاء. (الإصدار 4.0)

-charconv تبدأ من إلى
الطباعة مع تحويل مجموعة الأحرف. تبدأ من هي مجموعة الأحرف المصدر المستخدمة في
نموذج اللغة، و إلى هي مجموعة الأحرف المستهدفة التي تريد الحصول عليها.

في Linux، يجب أن تكون الوسائط اسمًا رمزيًا. يمكنك الحصول على قائمة المتاحة
أسماء الأكواد عن طريق استدعاء الأمر "iconv --list". في نظام التشغيل Windows، يجب أن تكون الوسائط
اسم رمز أو رقم صفحة التعليمات البرمجية. يجب أن يكون الاسم الرمزي واحدًا من "ansi"، و"mac"، و"oem"،
"utf-7"، "utf-8"، "sjis"، "euc". أو يمكنك تحديد أي رقم صفحة الرموز معتمد على
بيئتك.

-nocharconv
تعطيل تحويل الأحرف.

-وحدة [ميناء]
قم بتشغيل Julius على "وضع وحدة الخادم". بعد بدء التشغيل، ينتظر Julius اتصال TCP/IP
من العميل. بمجرد إنشاء الاتصال، يبدأ يوليوس في الاتصال بالعميل
لمعالجة الأوامر الواردة من العميل، أو لإخراج نتائج التعرف، والمدخلات
تشغيل المعلومات وحالة النظام الأخرى للعميل. رقم المنفذ الافتراضي هو
10500

-سجل دير
حفظ جميع بيانات الكلام المدخلة تلقائيًا في الدليل المحدد. كل المدخلات مجزأة
سجلت كل على حدة. يتم إنشاء اسم ملف البيانات المسجلة من وقت النظام
عندما ينتهي الإدخال، بأسلوب YYYY.MMDD.HHMMSS.wav. تنسيق الملف هو 16 بت أحادي
واف. غير صالح لإدخال ملف mfc.

مع رفض الإدخال بواسطة -rejectshort، سيتم أيضًا تسجيل الإدخال المرفوض حتى لو كان
تم رفضهم.

-ملف تسجيل ملف
احفظ كل مخرجات السجل في ملف بدلاً من الإخراج القياسي. (الإصدار 4.0)

-Nolog
تعطيل جميع مخرجات السجل. (الإصدار 4.0)

-مساعدة
إخراج رسالة المساعدة والخروج.

العالمية الخيارات
هذه خيارات تعتمد على النموذج/البحث فيما يتعلق بإدخال الصوت، واكتشاف الصوت، وGMM،
خوارزمية فك التشفير، ومرفق البرنامج المساعد، وغيرها. يجب وضع الخيارات العالمية من قبل
أي إعلان مثيل (-صباحا, -LMالطرق أو -ريال سعودى)، أو بعد "-عالمي" اختيار.

Audio إدخال
-إدخال {mic|rawfile|mfcfile|adinnet|stdin|netaudio|alsa|oss|esd}
اختر مصدر إدخال الكلام. حدد "ملف" أو "ملف خام" لملف الموجي،
"htkparam" أو "mfcfile" لملف معلمة HTK. عند إدخال الملف، سيكون المستخدمون
مطالبتك بإدخال اسم الملف من stdin، أو يمكنك استخدامه -قائمة الملفات الخيار ل
تحديد قائمة الملفات المراد معالجتها.

"mic" هو الحصول على إدخال الصوت من جهاز ميكروفون مباشر افتراضي، و"adinnet"
يعني تلقي بيانات الشكل الموجي عبر شبكة TCPIP من عميل Adinnet.
يأتي "netaudio" من إدخال DatLink/NetAudio، ويعني "stdin" إدخال البيانات من
المدخلات القياسية.

بالنسبة لإدخال الملفات ذات الشكل الموجي، فقط WAV (بدون ضغط) وRAW (بدون رأس، 16 بت، كبير
endian) مدعومة بشكل افتراضي. يمكن قراءة التنسيق الآخر عند تجميعه مع
مكتبة ليبسند. لمعرفة التنسيق المدعوم فعليًا، راجع رسالة المساعدة
باستخدام الخيار -مساعدة. بالنسبة لإدخال stdin، يتم دعم WAV وRAW فقط. (تقصير:
mfcfile)

في Linux ، يمكنك اختيار API في وقت التشغيل عن طريق تحديد alsa و oss و esd.

-حجم قطعة عينات
حجم جزء الصوت في عدد العينات. (افتراضي: 1000)

-قائمة الملفات اسم الملف
(مع -إدخال الملف الخام|mfcfile) إجراء التعرف على كافة الملفات المدرجة في الملف
ملف. يجب أن يحتوي الملف على ملف الإدخال في كل سطر. سينتهي المحرك عند كل
تتم معالجة الملفات.

-notypecheck
بشكل افتراضي، يتحقق Julius من نوع معلمة الإدخال سواء كان مطابقًا لـ AM أو
لا. سيؤدي هذا الخيار إلى تعطيل محرك الفحص وإجباره على استخدام متجه الإدخال
كما هي.

-48
قم بتسجيل الإدخال باستخدام أخذ عينات بمعدل 48 كيلو هرتز، ثم قم بتخفيضه إلى 16 كيلو هرتز أثناء التنقل. هذا
الخيار صالح لطراز 16 كيلو هرتز فقط. تم نقل روتين أخذ العينات من
com.sptk. (القس 4.0)

-نا اسم الجهاز
اسم المضيف لإدخال خادم DatLink (-إدخال com.netaudio).

-المصاد رقم المنفذ
بدافع -إدخال Adinnet، حدد رقم منفذ adinnet للاستماع. (الافتراضي: 5530)

-نوستريب
يقوم Julius بشكل افتراضي بإزالة العينات الصفرية المتعاقبة في بيانات الكلام المدخلة. هذا
الخيار يمنع الإزالة.

-زميان , -nozmean
يعمل هذا الخيار على تمكين/تعطيل إزالة إزاحة التيار المستمر لشكل موجة الإدخال. سوف يكون الإزاحة
يقدر من المدخلات بأكملها. بالنسبة لإدخال الميكروفون/الشبكة، متوسط ​​صفر لـ
سيتم استخدام أول 48000 عينة (3 ثوانٍ في عينة 16 كيلو هرتز) لـ
تقدير. (الافتراضي: معطل)

يستخدم هذا الخيار إزاحة ثابتة للقناة. أنظر أيضا -zmeansource For
إزالة الإزاحة من حيث الإطار.

خطاب كشف by مستوى و صليب صفر
-الصمت , - nocutsilence
قم بتشغيل / إيقاف اكتشاف الكلام حسب المستوى والصفر. الافتراضي قيد التشغيل لـ
إدخال الميكروفون/adinnet، وإيقاف تشغيله للملفات.

-lv ثلاثة
عتبة المستوى للكشف عن إدخال الكلام. يجب أن تكون القيم في نطاق من 0 إلى
32767. (الافتراضي: 2000)

-ZC ثلاثة
عتبة العبور صفر في الثانية. المدخلات الوحيدة التي تتجاوز المستوى
عتبة (-lv) سيتم احتسابها. (الافتراضي: 60)

- الهامش ميللي ثانية
هامش كتم الصوت في بداية مقطع الكلام بالمللي ثانية. (افتراضي: 300)

- الهامش الذيل ميللي ثانية
هامش كتم الصوت في نهاية مقطع الكلام بالمللي ثانية. (افتراضي: 400)

إدخال الرفض
يتم تنفيذ طريقتين بسيطتين لرفض المدخلات الأمامية، بناءً على طول الإدخال
ومتوسط ​​قوة الجزء المكتشف. الرفض بواسطة متوسط ​​القوة هو
تجريبي، ويمكن تمكينه بواسطة --enable-power-reject عند التجميع. صالحة ل
ميزة MFCC مع معامل الطاقة والإدخال في الوقت الحقيقي فقط.

بالنسبة لرفض الإدخال المستند إلى GMM، راجع قسم GMM أدناه.

-rejectshort ميللي ثانية
رفض الإدخال الأقصر من المللي ثانية المحددة. سيتم إنهاء البحث و
لن يتم إخراج أي نتيجة.

-powerthres ثلاثة
ارفض الجزء المدخل بمتوسط ​​طاقته. إذا كان متوسط ​​طاقة
آخر إدخال تم التعرف عليه أقل من الحد الأدنى، وسيرفض يوليوس الإدخال.
(الإصدار 4.0)

يكون هذا الخيار صالحًا عند تحديد --enable-power-reject أثناء التحويل البرمجي
مرة.

جاوس مزيج نموذج / GMM-VAD
سيتم استخدام GMM لرفض الإدخال حسب النتيجة المتراكمة، أو للواجهة الأمامية
VAD المستند إلى GMM عند تحديد --enable-gmm-vad.

ملاحظة: يجب عليك أيضًا تعيين معلمات MFCC المناسبة المطلوبة لـ GMM،
تحديد المعلمات الصوتية الموضحة في قسم AM -AM_GMM.

عند تمكين VAD المستند إلى GMM، سيتم حساب درجة النشاط الصوتي في كل منها
الإطار كمعالجة أمامية. سيتم حساب القيمة كـ \[ \max_{m \in M_v}
p(x|m) - \max_{m \in M_n} p(x|m) \] حيث $M_v$ هي مجموعة GMM الصوتية، و $M_n$ هي
مجموعة من الضوضاء GMM التي يجب تحديد أسمائها بواسطة -gmmreject. النشاط
سيتم بعد ذلك حساب متوسط ​​النتيجة لآخر N من الإطارات، حيث يتم تحديد N بواسطة
-gmmmargin. يقوم Julius بتحديث متوسط ​​درجة النشاط في كل إطار، ويكتشف
يتم تنشيط الكلام عندما تصبح القيمة أعلى من القيمة المحددة بواسطة -gmmupو
كشف الزناد السفلي عندما يصبح أقل من قيمة -gmmdown.

-جم hmmdefs_file
ملف تعريف GMM بتنسيق HTK. إذا تم تحديد ذلك، التحقق من الإدخال المستند إلى GMM
سيتم تنفيذه بالتزامن مع التمريرة الأولى، ويمكنك رفض الإدخال
وفقا للنتيجة كما حددها -gmmreject. يجب تعريف GMM على أنها
HMMs ذات الدولة الواحدة.

-جمنوم عدد
عدد المكونات الغوسية التي سيتم حسابها لكل إطار بناءً على حساب GMM. فقط
سيتم حساب N-best Gaussians لإجراء الحساب السريع. الافتراضي هو 10
وسيؤدي تحديد قيمة أصغر إلى تسريع عملية حساب GMM، ولكنها قيمة صغيرة جدًا
(1 أو 2) قد يتسبب في تدهور أداء تحديد الهوية.

-gmmreject سلسلة
قائمة مفصولة بفواصل لأسماء GMM المطلوب رفضها باعتبارها إدخالاً غير صالح. متى
التعرف على احتمالات تسجيل GMMs المتراكمة للمدخل بأكمله
يتم حسابها بالتزامن مع التمريرة الأولى. إذا كان اسم GMM من الدرجة القصوى
ضمن هذه السلسلة، لن يتم تنفيذ التمريرة الثانية وسيتم تنفيذ الإدخال
مرفوض.

-gmmmargin إطارات
(GMM_VAD) هامش الرأس في الإطارات. عند اكتشاف مشغل الكلام بواسطة GMM،
سيبدأ التعرف من الإطار الحالي مطروحًا منه هذه القيمة. (الإصدار 4.0)

سيكون هذا الخيار صالحًا فقط إذا تم تجميعه باستخدام --enable-gmm-vad.

-gmmup قيمنا
(GMM_VAD) رفع عتبة درجة النشاط الصوتي. (الإصدار 4.1)

سيكون هذا الخيار صالحًا فقط إذا تم تجميعه باستخدام --enable-gmm-vad.

-gmmdown قيمنا
(GMM_VAD) عتبة الزناد السفلية لدرجة النشاط الصوتي. (الإصدار 4.1)

سيكون هذا الخيار صالحًا فقط إذا تم تجميعه باستخدام --enable-gmm-vad.

فك خيار
المعالجة في الوقت الفعلي تعني المعالجة المتزامنة للتمرير الأول لحساب MFCC
فك التشفير. بشكل افتراضي، يتم تشغيل المعالجة في الوقت الفعلي للميكروفون /
إدخال adinnet / netaudio، وبالنسبة للآخرين.

-في الوقت الحالى , - لا يوجد وقت حقيقي
قم بتشغيل / إيقاف المعالجة في الوقت الفعلي (خط الأنابيب) بشكل صريح عند المرور الأول.
يتم إيقاف تشغيل الإعداد الافتراضي لإدخال الملفات، وتشغيله للميكروفون وadinnet وNetAudio
مدخل. يتعلق هذا الخيار بالطريقة التي يتم بها تنفيذ CMN وتطبيع الطاقة:
في حالة إيقاف التشغيل، سيتم تنفيذها باستخدام الميزات المتوسطة للمدخلات الكاملة. إذا كان قيد التشغيل، MAP-CMN
وتطبيع الطاقة للقيام بالمعالجة في الوقت الحقيقي.

الباقي الخيارات
-C jconfile
قم بتحميل ملف jconf هنا. سيتم توسيع محتوى jconffile في هذا
نقطة.

-الإصدار
طباعة معلومات الإصدار إلى الخطأ القياسي، والخروج.

-إعدادات
قم بطباعة معلومات إعداد المحرك إلى الخطأ القياسي، ثم قم بالخروج.

-هادئ
إخراج سجل أقل. للحصول على النتيجة، سيتم طباعة أفضل تسلسل للكلمات فقط.

-ديبوغ
(للتصحيح) قم بإخراج رسالة داخلية هائلة ومعلومات تصحيح الأخطاء لتسجيل الدخول.

-التحقق من {wchmm|تعريشة|هاتف ثلاثي}
لتصحيح الأخطاء، أدخل وضع الفحص التفاعلي.

-بلوجيندير com.dirlist
حدد الدليل لتحميل البرنامج المساعد. في حالة وجود عدة direcotries، حددها بواسطة
قائمة مفصولة بنقطتين.

حتة إعلان For موضوع فك
ستقوم الوسيطات التالية بإنشاء مجموعة تكوين جديدة ذات معلمات افتراضية، و
تبديل المجموعة الحالية إليها. سيتم تعيين معلمات Jconf المحددة بعد الخيار في ملف
المجموعة الحالية.

للقيام بفك تشفير النماذج المتعددة، يجب تحديد هذه الوسيطات في أول كل نموذج
/ مثيلات البحث بأسماء مختلفة. أي خيارات قبل تعريف المثيل الأول
سيتم تجاهلها.

عندما لا يتم العثور على تعريف مثيل (كإصدار أقدم من Julius)، تكون جميع الخيارات موجودة
تم تعيينه لمثيل افتراضي يسمى _default.

يرجى ملاحظة أن فك التشفير باستخدام LM واحد وAMs المتعددة غير مدعوم بشكل كامل. ل
على سبيل المثال، قد ترغب في إنشاء ملف jconf على النحو التالي.
هذا النوع من مشاركة النماذج غير مدعوم حتى الآن، نظرًا لأن جزءًا من معالجة LM يعتمد على ذلك
على صباحا المعينة. بدلاً من ذلك، يمكنك الحصول على نفس النتيجة عن طريق تحديد نفس LMs لكل منها
صباحا، هكذا:

-صباحا الاسم
قم بإنشاء مجموعة تكوين AM جديدة، وقم بالتبديل الحالي إلى المجموعة الجديدة. يجب أن تعطي أ
اسم فريد. (الإصدار 4.0)

-LM الاسم
قم بإنشاء مجموعة تكوين LM جديدة، وقم بالتبديل الحالي إلى المجموعة الجديدة. يجب أن تعطي أ
اسم فريد. (الإصدار 4.0)

-ريال سعودى الاسم am_name lm_name
قم بإنشاء مجموعة تكوين بحث جديدة، وقم بالتبديل الحالي إلى المجموعة الجديدة. المحدد
سيتم تخصيص AM وLM له. ال am_name و lm_name يمكن أن يكون إما الاسم أو الهوية
رقم. يجب عليك إعطاء اسم فريد. (الإصدار 4.0)

-AM_GMM
عند استخدام GMM للمعالجة الأمامية، يمكنك تحديد الصوت الخاص بـ GMM
المعلمات بعد هذا الخيار. إذا لم تحدد -AM_GMM مع GMM، سوف GMM
مشاركة نفس ناقل المعلمة مثل AM الأخير. سيتم تحويل AM الحالي إلى
GMM واحد، لذا احرص على عدم الخلط بينه وبين تكوينات AM العادية. (الإصدار 4.0)

-عالمي
ابدأ قسمًا عالميًا. يجب وضع الخيارات العامة قبل أي مثيل
الإعلان، أو بعد هذا الخيار على التعرف على نماذج متعددة. يمكن استخدام هذا
عدة مرات. (الإصدار 4.1)

-فحص الأنف , - قسم الاختيار
تعطيل / تمكين خيار التحقق من الموقع في فك التشفير متعدد النماذج. عند التمكين،
يتم التعامل مع الخيارات بين إعلان المثيل على أنها "أقسام" والانتماء فقط
يمكن كتابة أنواع الخيارات. على سبيل المثال، عندما يكون الخيار -صباحا تم تحديد، فقط AM
يمكن وضع الخيار ذي الصلة بعد الخيار حتى يتم العثور على إعلان آخر. أيضًا،
يجب وضع الخيارات العامة في الأعلى، قبل أي إعلان مثيل. هذا هو
ممكّن افتراضيًا. (الإصدار 4.1)

اللغة نموذج (-LM)
تحتوي هذه المجموعة على خيارات لتعريف النموذج لكل نوع من أنواع نماذج اللغة. عند الاستخدام
متعددة LM، يمكن أن يحتوي مثيل واحد على LM واحد فقط.

يمكن تحديد نوع واحد فقط من LM لتكوين LM. إذا كنت ترغب في استخدام متعددة
النموذج، يجب عليك تعريفهما على أنهما LM جديد.

ن جرام
-d bingram_file
استخدم التنسيق الثنائي N-gram. يمكن تحويل ملف ARPA N-gram إلى ملف Julius ثنائي
تنسيق بواسطة mkbingram.

-nlr arpa_ngram_file
نموذج لغة N-gram للأمام من اليسار إلى اليمين بتنسيق ARPA القياسي. متى
تم تحديد كل من N-gram للأمام وN-gram للخلف، ويستخدم يوليوس هذا
2 جرام للأمام للتمريرة الأولى، وN-جرام للخلف للتمريرة الثانية.

نظرًا لأن ملف ARPA غالبًا ما يصبح ضخمًا ويتطلب الكثير من الوقت للتحميل، فقد يكون كذلك
من الأفضل تحويل ملف ARPA إلى تنسيق Julius الثنائي بواسطة mkbingram. لاحظ أن
إذا تم استخدام كل من N-gram للأمام والخلف للتعرف، فسيتم ذلك معًا
تحويلها إلى ثنائي واحد.

عندما يتم تحديد N-gram للأمام فقط بواسطة هذا الخيار ولا يتم تحديد N-gram للخلف
المحدد من قبل -nrl، يقوم Julius بالتعرف باستخدام N-gram للأمام فقط. ال
سيستخدم التمرير الأول إدخال 1 جرام في N-gram المحدد، وسيستخدم التمرير الثاني
استخدم N-gram المحدد، مع تحويل الاحتمالات الأمامية إلى الخلف
الاحتمالات حسب قاعدة بايز. (الإصدار 4.0)

-nrl arpa_ngram_file
نموذج لغة N-gram متخلف من اليمين إلى اليسار بتنسيق ARPA القياسي. متى
تم تحديد كل من N-gram للأمام وN-gram للخلف، ويستخدم يوليوس الأمام
2 جرام للتمريرة الأولى، وجرام N للتمريرة الثانية.

نظرًا لأن ملف ARPA غالبًا ما يصبح ضخمًا ويتطلب الكثير من الوقت للتحميل، فقد يكون كذلك
من الأفضل تحويل ملف ARPA إلى تنسيق Julius الثنائي بواسطة mkbingram. لاحظ أن
إذا تم استخدام كل من N-gram للأمام والخلف للتعرف، فسيتم ذلك معًا
تحويلها إلى ثنائي واحد.

عندما يتم تحديد N-gram للخلف فقط بواسطة هذا الخيار ولا يتم تحديد N-gram للأمام
المحدد من قبل -nlr، يقوم Julius بالتعرف باستخدام N-gram المتخلف فقط.
ستستخدم التمريرة الأولى احتمالية التقدم بمقدار 1 جرام المحسوبة من الخلف
2 جرام باستخدام قاعدة بايز. التمريرة الثانية تستخدم بشكل كامل N-gram المعطى.
(الإصدار 4.0)

-v dict_file
ملف قاموس الكلمات.

-silhead word_string -siltail word_string
الصمت كلمة محددة في القاموس، لحالات الصمت في بداية
الجملة ونهاية الجملة. (الافتراضي: " "،" ")

-mapunk word_string
تحديد كلمة غير معروفة. الافتراضي هو " " أو " ". سيتم استخدام هذا لتعيين
احتمالية الكلمة على الكلمات غير المعروفة، أي الكلمات في القاموس غير الموجودة
المفردات N-جرام.

-iwspword
قم بإضافة إدخال كلمة إلى القاموس الذي يجب أن يتوافق مع التوقفات المؤقتة بين الكلمات.
قد يؤدي هذا إلى تحسين دقة التعرف في بعض نماذج اللغة التي لا يوجد بها
نمذجة وقفة واضحة بين الكلمات. يمكن تغيير إدخال الكلمة المراد إضافتها بواسطة
-iwspentry.

-iwspentry word_entry_string
حدد إدخال الكلمة الذي سيتم إضافته بواسطة -iwspword. (تقصير: " [س] س
س")

-السيبنوم عدد
عدد الكلمات عالية التردد المراد عزلها من شجرة المعجم لتسهيلها
خطأ تقريبي قد يكون سببه التقريب الأفضل في الأول
يمر. (الافتراضي: 150)

قواعد
يمكن تحديد قواعد نحوية متعددة عن طريق التكرار -غرام و -gramlist. لاحظ أن هذا
هو سلوك غير عادي من الخيارات الأخرى (في خيار يوليوس العادي، الخيار الأخير سوف
تجاوز السابقة). يمكنك استخدام -نوجرام لإعادة ضبط القواعد بالفعل
المحددة قبل النقطة.

-غرام gramprefix1[,gramprefix2[,gramprefix3,...]]
قائمة مفصولة بفواصل من القواعد النحوية التي سيتم استخدامها. يجب أن تكون الوسيطة بادئة لـ
قواعد اللغة، أي إذا كان لديك foo.dfa و foo.dict، يجب عليك تحديدها باستخدام a
وسيطة واحدة fo. يمكن تحديد قواعد نحوية متعددة في وقت واحد كـ
قائمة مفصولة بفواصل.

-gramlist list_file
حدد ملف قائمة القواعد النحوية الذي يحتوي على قائمة القواعد النحوية المطلوب استخدامها. القائمة
يجب أن يحتوي الملف على بادئات القواعد النحوية، كل سطر. مسار نسبي في
سيتم التعامل مع ملف القائمة على أنه نسبة إلى الملف، وليس المسار الحالي أو
ملف الضبط.

-دفا dfa_file -v dict_file
طريقة قديمة لتحديد الملفات النحوية بشكل منفصل. وهذا كذب، ولا ينبغي
يمكن استخدامها بعد الآن.

-نوجرام
قم بإزالة القائمة الحالية للقواعد النحوية المحددة بالفعل بواسطة -غرام, -gramlist, -دفا
و -v.

معزول كلمة
يمكن تحديد القاموس باستخدام -w و -wlist. عند تحديد متعددة
مرات، كل منهم سيتم قراءتها عند بدء التشغيل. يمكنك استخدام -نوجرام لإعادة تعيين
القواميس المحددة بالفعل في تلك المرحلة.

-w dict_file
قاموس الكلمات للتعرف على الكلمات المعزولة. تنسيق الملف هو نفس التنسيق الآخر
إل إم. (الإصدار 4.0)

-wlist list_file
حدد ملف قائمة القاموس الذي يحتوي على قائمة القواميس المراد استخدامها.
يجب أن يحتوي ملف القائمة على اسم ملف القواميس، كل سطر. أ
سيتم التعامل مع المسار النسبي في ملف القائمة على أنه نسبة إلى ملف القائمة، وليس
المسار الحالي أو ملف التكوين. (الإصدار 4.0)

-نوجرام
قم بإزالة القائمة الحالية للقواميس التي تم تحديدها بالفعل بواسطة -w و -wlist.

-wsil head_sil_model_name tail_sil_model_name sil_context_name
عند التعرف على الكلمات المعزولة، سيتم إلحاق نماذج الصمت بالرأس و
ذيل كل كلمة عند التعرف. يحدد هذا الخيار نماذج الصمت المطلوب
ملحق. sil_context_name هو اسم نموذج سيل الرأس ونموذج سيل الذيل
كسياق لكلمة هاتف الرأس وهاتف الذيل. على سبيل المثال، إذا قمت بتحديد
-wsil silB silE sp، سيتم ترجمة الكلمة ذات التسلسل الهاتفي b eh t إلى silB
sp-b+eh b-eh+t eh-t+sp silE. (الإصدار 4.0)

تعريف المستخدم LM
-userlm
قم بتعريف استخدام وظائف LM الخاصة بالمستخدم في البرنامج. يجب تحديد هذا الخيار
إذا كنت تستخدم وظائف LM المعرفة من قبل المستخدم. (الإصدار 4.0)

الباقي LM الخيارات
-forcedict
تخطي كلمات الخطأ في القاموس وتشغيل القوة.

صوتي نموذج و ميزة تحليل (-أكون()-AM_GMM)
يتناول هذا القسم خيارات النموذج الصوتي واستخراج الميزات والميزات
التطبيع والطرح الطيفي.

بعد اسم -AM، يجب كتابة النموذج الصوتي والمواصفات ذات الصلة. يمكنك استخدام
العديد من أجهزة AM المدربة على أنواع مختلفة من MFCC. بالنسبة إلى GMM، شرط المعلمة المطلوبة
يجب تحديده تمامًا مثل AMs بعد -AM_GMM.

عند استخدام AMs متعددة، تكون قيم -smpPeriod, -smp, -الحجم و -fshift ينبغي أن تكون
نفس الشيء بين جميع AMs.

صوتي HMM
-h hmmdef_file
ملف تعريف HMM الصوتي. يجب أن يكون بتنسيق HTK ascii أو Julius ثنائي
شكل. يمكنك تحويل تنسيق HTK ascii إلى تنسيق Julius الثنائي باستخدام mkbinhmm.

-hlist hmmlist_file
ملف HMMList لتعيين الهاتف. يوفر هذا الملف التعيين بين المنطقية
أسماء triphone التي تم إنشاؤها في القاموس وأسماء HMM المحددة في hmmdefs.
يجب تحديد هذا الخيار للنموذج المعتمد على السياق.

-تميكس عدد
حدد عدد أهم رموز Gaussians التي سيتم حسابها في كتاب الرموز المختلط.
سيؤدي العدد الصغير إلى تسريع الحساب الصوتي، ولكن قد تحصل على دقة AM
أسوأ مع قيمة صغيرة جدًا. أنظر أيضا -gprune. (الافتراضي: 2)

-spmodel الاسم
حدد اسم نموذج HMM الذي يتوافق مع الإيقاف المؤقت القصير في الكلام. ال
سيتم استخدام اسم نموذج الإيقاف المؤقت القصير في التعرف: تخطي الإيقاف المؤقت القصير
التعرف على القواعد النحوية، وإدراج نموذج توقف قصير في نهاية الكلمة -iwsp على N-جرام،
أو تجزئة التوقف القصير (-spsegment). (الافتراضي: "SP")

-متعدد المسارات
تمكين وضع المسارات المتعددة. ولجعل عملية فك التشفير أسرع، يفرض يوليوس افتراضيًا ملف
الحد الأقصى لانتقالات HMM التي يجب أن يكون لكل نموذج انتقال واحد منها فقط
الحالة الأولية والحالة النهائية. في وضع المسارات المتعددة، يقوم Julius بمعالجة إضافية
على الانتقال بين النماذج للسماح بالانتقال بتخطي النموذج ومتعددة
انتقالات الإخراج/الإدخال. لاحظ أن تحديد هذا الخيار سيجعل يوليوس أ
أبطأ قليلاً، وقد تكون هناك حاجة إلى عرض شعاع أكبر.

كانت هذه الوظيفة خيارًا لوقت الترجمة في الإصدار Julius 3.x، وأصبحت الآن خيارًا
خيار وقت التشغيل. افتراضيًا (بدون هذا الخيار)، يتحقق يوليوس من عملية الانتقال
نوع HMMs المحدد، وقم بتمكين وضع المسارات المتعددة إذا لزم الأمر. أنت تستطيع
فرض وضع متعدد المسارات مع هذا الخيار. (الإصدار 4.0)

-gprune {آمن|إرشادي|شعاع|لا شيء|افتراضي}
قم بتعيين خوارزمية التقليم الغوسية للاستخدام. بالنسبة لنموذج الخليط المربوط، يقوم يوليوس بأداء المهمة
التقليم الغاوسي لتقليل الحساب الصوتي، عن طريق حساب أعلى N فقط
Gaussians في كل كتاب رموز في كل إطار. سيتم تعيين الإعداد الافتراضي
وفقا لنوع النموذج وإعدادات المحرك. الافتراضي سوف يفرض القبول
الإعداد الافتراضي. اضبط هذا على لا شيء لتعطيل التقليم والأداء الكامل
حساب. يضمن Safe حساب أعلى N Gaussians. ارشادي و
تقوم الحزمة بتخفيض التكاليف الحسابية بشكل أكثر قوة، ولكنها قد تؤدي إلى تكاليف صغيرة
نموذج فقدان الدقة (الافتراضي: آمن (قياسي)، شعاع (سريع) للخليط المرتبط
نموذج، لا شيء لنموذج الخليط غير المرتبط).

-iwcd1 {الحد الأقصى|المتوسط|أفضل رقم}
حدد طريقة لتقريب الصوت الثلاثي بين الكلمات على رأس الكلمة وذيلها
في التمريرة الأولى.

سيتم تطبيق الحد الأقصى لأقصى احتمال لنفس triphones السياق. متوسط ​​الإرادة
تطبيق متوسط ​​احتمال نفس triphones السياق. أفضل عدد سوف
قم بتطبيق متوسط ​​أعلى احتمالات N-best لنفس السياق triphone.

الافتراضي هو أفضل 3 للاستخدام مع N-gram، ومتوسط ​​القواعد والكلمات. عندما
تتم مشاركة AM بواسطة LMs من كلا النوعين، وسيتم اختيار النوع الأخير.

-عقوبة الطفو
عقوبة الإدراج للتوقفات القصيرة في نهاية الكلمة التي تم إلحاقها بها -iwsp.

-gshmm hmmdef_file
إذا تم تحديد هذا الخيار، فسيقوم Julius بتنفيذ تحديد خليط غاوسي لـ
فك التشفير الفعال. يجب أن يكون hmmdefs نموذجًا أحادي الصوت تم إنشاؤه من ملف
نموذج HMM أحادي الصوت العادي، وذلك باستخدام mkgshmm.

-gsnum عدد
في GMS، حدد عدد الحالات أحادية الصوت لحساب الهواتف الثلاثية المقابلة فيها
التفاصيل. (الافتراضي: 24)

خطاب تحليل
يتم دعم استخراج ميزات MFCC فقط في يوليوس الحالي. وهكذا عند الاعتراف
إدخال شكل موجة من ملف أو ميكروفون، يجب أن يتم تدريب AM بواسطة MFCC. المعلمة
يجب أيضًا تعيين الحالة تمامًا مثل حالة التدريب بواسطة
الخيارات أدناه.

عند إعطاء إدخال في ملف معلمة HTK، يمكنك استخدام أي نوع معلمة لـ
أكون. في هذه الحالة، لا يهتم يوليوس بنوع ميزة الإدخال وAM، فقط
قراءتها كتسلسل متجه ومطابقتها مع AM المحدد. يوليوس الشيكات فقط
ما إذا كانت أنواع المعلمات هي نفسها. إذا لم يعمل بشكل جيد، يمكنك تعطيل
هذا التحقق من قبل -notypecheck.

في Julius، نوع المعلمة والمؤهلات (مثل TARGETKIND في HTK) والرقم
سيتم تعيين المعلمات الرأسية (NUMCEPS) تلقائيًا من محتوى الملف
رأس AM، لذلك لا تحتاج إلى تحديدها عن طريق الخيارات.

يجب تعيين المعلمات الأخرى تمامًا مثل حالة التدريب. بامكانك ايضا
أعط ملف HTK Config الذي استخدمته لتدريب AM على Julius -htkconf. عندما
عند تطبيق الخيار، سيقوم Julius بتحليل ملف التكوين وتعيين المعلمة المناسبة.

يمكنك أيضًا تضمين إعدادات معلمات التحليل هذه في ملف HMM ثنائي باستخدام
مكبينهممم.

إذا تم تحديد الخيارات بعدة طرق، فسيتم تقييمها بالترتيب أدناه.
سيتم تحميل المعلمة المضمنة AM أولاً إن وجدت. ثم ملف التكوين HTK
معطى بواسطة -htkconf سيتم تحليلها. إذا تم تعيين قيمة بالفعل بواسطة قيمة AM المضمنة، فسيتم استخدام HTK
سوف يتجاوزها التكوين. في النهاية، سيتم تحميل الخيارات المباشرة، والتي سوف
تجاوز الإعدادات التي تم تحميلها من قبل. لاحظ أنه عندما يتم تحديد نفس الخيارات
عدة مرات، في وقت لاحق سوف يتجاوز السابقة، باستثناء ذلك -htkconf سيتم تقييمها
أولا كما هو موضح أعلاه.

-smpPeriod فترة
فترة أخذ العينات من الكلام المدخل، بوحدة 100 نانو ثانية. معدل أخذ العينات يمكن
يتم تحديدها أيضًا بواسطة -smp. يرجى ملاحظة أن تردد الإدخال يجب أن يكون
تم تعيينه على قدم المساواة مع ظروف تدريب AM. (الافتراضي: 625، يتوافق مع
16,000Hz)

يتوافق هذا الخيار مع مصدر خيار HTK. يمكن أن تكون نفس القيمة
نظرا لهذا الخيار.

عند استخدام AM متعددة، يجب أن تكون هذه القيمة هي نفسها بين جميع AMs.

-smp Hz
ضبط تردد أخذ العينات لإدخال الكلام بالهرتز. ويمكن أيضا أن يكون معدل أخذ العينات
المحدد باستخدام -smpPeriod. يرجى ملاحظة أنه يجب ضبط هذا التردد على قدم المساواة
لظروف التدريب AM. (الافتراضي: 16,000)

عند استخدام AM متعددة، يجب أن تكون هذه القيمة هي نفسها بين جميع AMs.

-الحجم عينة
حجم النافذة في عدد العينات. (الافتراضي: 400)

يتوافق هذا الخيار مع خيار HTK WINDOWSIZE، ولكن يجب أن تكون القيمة فيه
العينات (قيمة HTK / smpPeriod).

عند استخدام AM متعددة، يجب أن تكون هذه القيمة هي نفسها بين جميع AMs.

-fshift عينة
تحول الإطار في عدد العينات. (الافتراضي: 160)

يتوافق هذا الخيار مع خيار HTK TARGETRATE، ولكن يجب أن تكون القيمة فيه
العينات (قيمة HTK / smpPeriod).

عند استخدام AM متعددة، يجب أن تكون هذه القيمة هي نفسها بين جميع AMs.

-السبق الطفو
معامل التأكيد المسبق. (الافتراضي: 0.97)

يتوافق هذا الخيار مع خيار HTK PREEMCOEF. يمكن إعطاء نفس القيمة
لهذا الخيار.

-fbank NUM
عدد قنوات بنك الترشيح. (الافتراضي: 24)

يتوافق هذا الخيار مع خيار HTK NUMCHANS. يمكن إعطاء نفس القيمة
لهذا الخيار. انتبه إلى أن القيمة الافتراضية ليست هي نفسها الموجودة في HTK (22).

-ceplif NUM
معامل الرفع السيبسترالي. (الافتراضي: 22)

يتوافق هذا الخيار مع HTK Option CEPLIFTER. يمكن إعطاء نفس القيمة
لهذا الخيار.

-خام , -نوراوي
تمكين/تعطيل استخدام الطاقة الخام قبل التركيز المسبق (الافتراضي: معطل)

يتوافق هذا الخيار مع خيار HTK RAWENERGY. كن على علم بأن الافتراضي
تختلف القيمة عن HTK (ممكّنة في HTK، معطلة عند Julius).

-عادي , -غير طبيعي
تمكين/تعطيل تطبيع طاقة السجل. على الإدخال المباشر، سيكون هذا التطبيع
تقريبي من متوسط ​​الإدخال الأخير. (الافتراضي: معطل)

يتوافق هذا الخيار مع خيار HTK ENORMALISE. كن على علم بأن الافتراضي
تختلف القيمة عن HTK (ممكّنة في HTK، معطلة عند Julius).

-escale float_scale
عامل تحجيم طاقة السجل عند تطبيع طاقة السجل. (الافتراضي: 1.0)

يتوافق هذا الخيار مع خيار HTK ESCALE. كن على علم بأن الافتراضي
تختلف القيمة عن HTK (0.1).

- سيلفلور الطفو
أرضية صمت الطاقة بالديسيبل عند تطبيع طاقة السجل. (الافتراضي: 50.0)

يتوافق هذا الخيار مع خيار HTK SILFLOOR.

-ديلوين هيكل
حجم نافذة دلتا في عدد الإطارات. (الافتراضي: 2)

يتوافق هذا الخيار مع خيار HTK DELTAWINDOW. يمكن أن تكون نفس القيمة
نظرا لهذا الخيار.

-acwin هيكل
تسريع حجم النافذة في عدد الإطارات. (الافتراضي: 2)

يتوافق هذا الخيار مع خيار HTK ACCWINDOW. يمكن إعطاء نفس القيمة
لهذا الخيار.

-hifreq Hz
تمكين تحديد النطاق لحساب مرشح MFCC: ضبط التردد العلوي
قطع. قيمة -1 ستعطله. (الافتراضي: -1)

يتوافق هذا الخيار مع خيار HTK HIFREQ. يمكن إعطاء نفس القيمة ل
هذا الخيار.

-lofreq Hz
تمكين تحديد النطاق لحساب مرشح MFCC: تعيين تردد أقل
قطع. قيمة -1 ستعطله. (الافتراضي: -1)

يتوافق هذا الخيار مع خيار HTK LOFREQ. يمكن إعطاء نفس القيمة ل
هذا الخيار.

-zmeanframe , -nozmeanframe
باستخدام إدخال الكلام، يعمل هذا الخيار على تمكين/تعطيل إزالة إزاحة DC حسب الإطار.
وهذا يتوافق مع تكوين HTK ZMEANSOURCE. لا يمكن استخدام هذا معًا
مع -زميان. (الافتراضي: معطل)

-قوة الاستخدام
استخدم القوة بدلاً من الحجم في تحليل بنك الترشيح. (الافتراضي: معطل)

تطبيع
يستطيع يوليوس إجراء تطبيع المتوسط ​​الرأسي (CMN) للمدخلات. سوف يكون CMN
تم تنشيطه عندما تم تدريب AM المحدد باستخدام CMN (على سبيل المثال، يحتوي على مؤهل "_Z" في
رأس).

سيتم تقدير المتوسط ​​الرأسي بطريقة مختلفة وفقًا لنوع الإدخال.
عند إدخال الملف، سيتم حساب المتوسط ​​من الإدخال بأكمله. على الإدخال المباشر من هذا القبيل
مثل إدخال الميكروفون والشبكة، فإن الوسط المركزي للإدخال غير معروف في
يبدأ. لذلك سيتم استخدام MAP-CMN. في MAP-CMN، سيتم تطبيق متجه متوسط ​​أولي
في البداية، وسيتم تلطيخ المتجه المتوسط ​​إلى متوسط
زيادة ناقلات الإدخال كما يذهب الإدخال. يمكن للخيارات أدناه التحكم في سلوك
خريطة-CMN.

-CVN
تمكين تطبيع التباين الرأسي. عند إدخال الملف، التباين كله
سيتم حساب المدخلات ومن ثم تطبيقها. عند إدخال الميكروفون المباشر، يختلف
سيتم تطبيق الإدخال الأخير. CVN مدعوم فقط لإدخال الصوت.

-vtln ألفا قطع منخفض كوخ
قم بإجراء تزييف التردد، عادةً من أجل تطبيع طول القناة الصوتية (VTLN).
الوسائط هي عامل التزييف وقطع التردد العالي والتكرار المنخفض. قطع. هم
تتوافق مع قيم تكوين HTK وWARPFREQ وWARPHCUTOFF وWARPLCUTOFF.

-cmnload ملف
تحميل ناقلات المتوسط ​​الرأسي الأولي من الملف عند بدء التشغيل. ال ملف يجب أن تكون واحدة
محفوظ بواسطة -cmnsave. تحميل متوسط ​​رأسي أولي يمكّن يوليوس من التحسن
التعرف على الكلام الأول على المدخلات في الوقت الحقيقي. عندما تستخدم جنبا إلى جنب مع
-cmnnoupdate، سيتم استخدام هذه القيمة الأولية لجميع المدخلات.

-cmnsave ملف
حفظ متجه المتوسط ​​الرأسي المحسوب في ملف. سيتم حفظ المعلمات
في كل نهاية الإدخال. إذا كان ملف الإخراج موجودًا بالفعل، فسيتم تجاوزه.

-cmnupdate -cmnnoupdate
التحكم في ما إذا كان سيتم تحديث المتوسط ​​الرأسي عند كل إدخال في الإدخال في الوقت الفعلي.
تعطيل هذا وتحديد -cmnload سيجعل المحرك يستخدم دائمًا المحمل
متوسط ​​cepstral الأولي ثابت.

-cmnmapweight الطفو
تحديد وزن المتوسط ​​الرأسي الأولي لـ MAP-CMN. تحديد قيمة أكبر ل
الاحتفاظ بالمتوسط ​​الرأسي الأولي لفترة أطول، وقيمة أصغر يجب تحقيقها
يعتمد الوسط الرأسي بشكل أكبر على المدخلات الحالية. (الافتراضي: 100.0)

الواجهة الأمامية معالجة
يستطيع يوليوس إجراء الطرح الطيفي لتقليل بعض الضوضاء الثابتة الناتجة عن الصوت
مدخل. على الرغم من أنها ليست طريقة قوية، إلا أنها قد تنجح في بعض المواقف.
لدى يوليوس طريقتان لتقدير طيف الضوضاء. إحدى الطرق هي أن نفترض أن الأول
الجزء القصير من مدخلات الكلام هو مقطع الضوضاء، ويقدر طيف الضوضاء
كمتوسط ​​للقطاع. هناك طريقة أخرى وهي حساب متوسط ​​الطيف من
إدخال الضوضاء فقط باستخدام أداة أخرى MKS، وتحميله في يوليوس. السابق هو
شائع في إدخال ملفات الكلام، ويجب استخدام الأخير في الإدخال المباشر. الخيارات
أدناه سوف تبديل / التحكم في السلوك.

-sscalc
إجراء الطرح الطيفي باستخدام جزء الرأس من كل ملف كجزء الصمت. ال
يجب تحديد طول جزء الرأس بواسطة -sscalclen. صالحة فقط لإدخال الملف.
الصراع مع -ssload.

-sscalclen ميللي ثانية
بدافع -sscalc، حدد طول صمت الرأس لتقدير طيف الضوضاء
بالمللي ثانية. (الافتراضي: 300)

-ssload ملف
قم بإجراء الطرح الطيفي لإدخال الكلام باستخدام طيف الضوضاء المقدر مسبقًا
محملة من ملف. يمكن إنشاء ملف طيف الضوضاء بواسطة mkss. صالحة للجميع
إدخال الكلام. الصراع مع -sscalc.

-سالفا الطفو
معامل ألفا للطرح الطيفي ل -sscalc و -ssload. سوف تكون الضوضاء
يتم طرحها بشكل أقوى حيث تصبح هذه القيمة أكبر، ولكن تشويه الناتج
تصبح الإشارة ملحوظة أيضًا. (الافتراضي: 2.0)

-ssfloor الطفو
معامل الأرضيات للطرح الطيفي. القوة الطيفية التي تذهب أدناه
سيتم استبدال الصفر بعد الطرح بإشارة المصدر بهذا
ضرب المعامل. (الافتراضي: 0.5)

الباقي AM الخيارات
-htkconf ملف
قم بتحليل ملف تكوين HTK المحدد، وقم بتعيين المعلمات المقابلة لـ Julius.
عند استخدام هذا الخيار، يتم تبديل قيم المعلمات الافتراضية من يوليوس
الإعدادات الافتراضية إلى إعدادات HTK الافتراضية.

تقدير عملية المعالجة و . (-ريال سعودى)
يحتوي هذا القسم على خيارات لمعلمات البحث في المسار الأول / الثاني مثل الشعاع
أوزان العرض وLM، وتكوينات تجزئة الإيقاف المؤقت القصير، ومفاتيح الكلمة
إخراج شعرية وإخراج الشبكة الارتباك، والمحاذاة القسرية، والخيارات الأخرى ذات الصلة
عملية الاعتراف ومخرجات النتيجة.

ستتغير القيم الافتراضية لعرض الحزمة وأوزان LM وفقًا لإعداد وقت الترجمة
JuliusLib ونوع الطراز AM وحجم LM. يرجى الاطلاع على سجل بدء التشغيل الفعلي
القيم.

أول pass المعلمات
-lmp وزن ركلة جزاء
(N-gram) أوزان نموذج اللغة وعقوبات إدراج الكلمة للتمرير الأول.

-عقوبة1 ركلة جزاء
(النحو) عقوبة إدخال الكلمة للتمرير الأول. (الافتراضي: 0.0)

-b عرض
عرض الشعاع في عدد عقد HMM لشعاع الرتبة في التمريرة الأولى. هذه القيمة
يحدد عرض البحث في التمريرة الأولى، وله تأثير مهيمن على الإجمالي
وقت المعالجة. سيؤدي العرض الأصغر إلى تسريع عملية فك التشفير، ولكنه ذو قيمة صغيرة جدًا
سيؤدي إلى زيادة كبيرة في أخطاء التعرف بسبب البحث
فشل. القيمة الأكبر ستجعل البحث مستقرًا وستؤدي إلى خالي من الفشل
البحث، ولكن وقت المعالجة سوف ينمو بما يتناسب مع العرض.

تعتمد القيمة الافتراضية على نوع الطراز الصوتي: 400 (أحادي الصوت)، 800
(ثلاثي)، أو 1000 (ثلاثي، الإعداد=v2.1)

-نليميت NUM
الحد الأعلى للرمز المميز لكل عقدة. يكون هذا الخيار صالحًا عندما يكون --enable-wpair و
--enable-wpair-nlimit يتم تمكينه في وقت الترجمة.

-progout
تمكين الإخراج التدريجي للنتائج الجزئية في التمريرة الأولى.

-proginterval ميللي ثانية
ضبط الفاصل الزمني ل -progout بالمللي ثانية. (الافتراضي: 300)

الثاني pass المعلمات
-lmp2 وزن ركلة جزاء
(N-gram) أوزان النموذج اللغوي وعقوبات إدخال الكلمة للثانية
البشري.

-عقوبة2 ركلة جزاء
(النحو) عقوبة إدخال الكلمة للتمريرة الثانية. (الافتراضي: 0.0)

-ب 2 عرض
عرض شعاع المغلف (عدد الفرضيات) عند التمريرة الثانية. إذا كان عدد
يصل توسيع الكلمة عند طول فرضية معين إلى هذا الحد أثناء البحث،
لم يتم توسيع الفرضيات الأقصر بشكل أكبر. وهذا يمنع البحث من الوقوع
اتساع الموقف الأول مثل التراص على نفس الموقف، وتحسين البحث
الفشل في الغالب لحالة المفردات الكبيرة. (الافتراضي: 30)

-sb الطفو
يسجل عرض المغلف للتسجيل المغلف. عند حساب درجة الفرضية
لكل فرضية تم إنشاؤها، سيتم توسيع تعريشتها وتشغيل Viterbi
يتم تقليمه في منتصف الخطاب إذا كانت النتيجة الموجودة على الإطار أقل من العرض.
إعطاء قيمة صغيرة يجعل التمريرة الثانية أسرع، ولكن قد يحدث خطأ في الحساب
يحدث. (الافتراضي: 80.0)

-s NUM
حجم المكدس، أي الحد الأقصى لعدد الفرضيات التي يمكن تخزينها على
كومة أثناء البحث. قد تعطي القيمة الأكبر نتائج أكثر استقرارًا، ولكن
يزيد من حجم الذاكرة المطلوبة. (الافتراضي: 500)

-m عد
عدد الفرضيات الموسعة المطلوبة لوقف البحث. إذا كان الرقم
من الفرضيات الموسعة أكبر من هذه العتبة إذن، يكون البحث
توقفت عند تلك النقطة. كلما كانت هذه القيمة أكبر، كلما استغرق يوليوس وقتًا أطول
التخلي عن البحث. (الافتراضي: 2000)

-n NUM
عدد المرشحين الذين يحاول يوليوس العثور عليهم. ويستمر البحث حتى هذا
تم العثور على عدد من فرضيات الجملة. فرضيات الجملة التي تم الحصول عليها
يتم فرزها حسب النتيجة، ويتم عرض النتيجة النهائية بالترتيب (انظر أيضًا
-انتاج). إمكانية العثور على الفرضية الأمثل بشكل صحيح
يزداد مع زيادة هذه القيمة، ولكن يصبح وقت المعالجة أيضًا
طويل. تعتمد القيمة الافتراضية على إعداد المحرك في وقت الترجمة: 10
(قياسي) أو 1 (سريع أو الإصدار 2.1)

-انتاج NUM
سيتم إخراج فرضية الجملة N العليا في نهاية البحث. يستخدم مع -n
(افتراضي: 1)

-lookuprange هيكل
قم بتعيين عدد الإطارات قبل وبعد البحث عن فرضيات الكلمة التالية في
تعريشة الكلمة في الممر الثاني. وهذا يمنع إغفال الكلمات القصيرة، ولكن
وبقيمة كبيرة يزداد عدد الفرضيات الموسعة ونظامها
يصبح بطيئا. (الافتراضي: 5)

-نظرة تعريشة
(القواعد) قم بتوسيع الكلمات الباقية فقط في التمريرة الأولى بدلاً من التوسيع
جميع الكلمات التي تنبأ بها النحو. يؤدي هذا الخيار إلى فك تشفير المرور الثاني
أسرع خاصة في حالة المفردات الكبيرة، ولكن قد يزيد من الحذف
خطأ في الكلمات القصيرة. (الافتراضي: معطل)

وقفة قصيرة تقسيم / فك-VAD
عند التحويل البرمجي باستخدام --enable-decoder-vad، سيتم تجزئة الإيقاف المؤقت القصير
ممتد لدعم VAD القائم على وحدة فك التشفير.

-spsegment
تمكين وضع تجزئة التوقف القصير. سيتم تجزئة الإدخال عند توقف قصير
الكلمة (الكلمة التي تحتوي على نموذج الصمت فقط في النطق) تحصل على أعلى احتمالية
في إطارات متتالية معينة في التمريرة الأولى. عند انتهاء المقطع المكتشف،
أوقف يوليوس التمريرة الأولى عند النقطة، وأجرى التمريرة الثانية، ثم تابع التمريرة التالية
شريحة. سيتم النظر في سياق الكلمة بين الأجزاء. (الإصدار 4.0)

عند التحويل البرمجي باستخدام --enable-decoder-vad، يعمل هذا الخيار على تمكين VAD المستند إلى وحدة فك التشفير،
لتخطي الصمت الطويل.

-spdur هيكل
مدة توقف قصيرة لاكتشاف نهاية مقطع الإدخال، في عدد الإطارات.
(افتراضي: 10)

-نماذج الإيقاف المؤقت سلسلة
قائمة مفصولة بفواصل لأسماء نماذج الإيقاف المؤقت لاستخدامها عند الإيقاف المؤقت القصير
التجزئة. الكلمة التي يتكون نطقها من نماذج الوقفة فقط
سيتم التعامل معها على أنها "كلمة إيقاف مؤقت" وسيتم استخدامها لاكتشاف الإيقاف المؤقت. إذا لم يتم تحديدها،
اسم -spmodel, -silhead و -siltail سوف يستخدم. (الإصدار 4.0)

-spmargin هيكل
هامش الخطوة الخلفية عند التشغيل لأعلى لـ VAD المستند إلى وحدة فك التشفير. عندما يصل الكلام إلى الزناد
تم العثور عليه بواسطة وحدة فك التشفير-VAD، وسيقوم Julius بإرجاع معلمة الإدخال بهذه القيمة، و
بدء الاعتراف عند هذه النقطة. (الإصدار 4.0)

سيكون هذا الخيار صالحًا فقط إذا تم تجميعه باستخدام --enable-decoder-vad.

-spdelay هيكل
إطلاق إطار تأخير القرار عند بدء تشغيل VAD القائم على وحدة فك التشفير. (الإصدار 4.0)

سيكون هذا الخيار صالحًا فقط إذا تم تجميعه باستخدام --enable-decoder-vad.

كلمة شعرية / ارتباك شبكة الناتج
-بنية , -nolatice
تمكين / تعطيل إنشاء الرسم البياني للكلمة. لقد تغيرت خوارزمية البحث أيضًا إلى
قم بالتحسين من أجل إنشاء رسم بياني أفضل للكلمات، لذلك قد لا تكون نتيجة الجملة هي
نفس التعرف العادي على N-best. (الإصدار 4.0)

-confnet , -noconfnet
تمكين / تعطيل إنشاء شبكة الارتباك. تمكين هذا سوف أيضا
ينشط -بنية داخليا. (الإصدار 4.0)

-graphrange هيكل
دمج نفس الكلمات في موضع الجار عند إنشاء الرسم البياني. إذا كان وقت البداية
ويكون وقت انتهاء كلمتين من نفس الكلمة ضمن الوقت المحدد
النطاق، سيتم دمجهما. القيمة الافتراضية هي 0 (السماح بدمج الكلمات نفسها في
نفس الموقع تمامًا) وتحديد قيمة أكبر سيؤدي إلى قيمة أصغر
إخراج الرسم البياني. سيؤدي تعيين هذه القيمة إلى -1 إلى تعطيل عملية الدمج، وهو نفس الأمر في هذه الحالة
سيتم ترك الكلمات الموجودة في نفس الموقع بدرجات مختلفة كما هي.
(افتراضي: 0)

-graphcut عمق
قم بقص الرسم البياني الناتج حسب عمق الكلمة في مرحلة ما بعد المعالجة. العمق
القيمة هي عدد الكلمات المسموح بها في الإطار. يتم تعطيل الإعداد على -1
هذه الميزة. (الافتراضي: 80)

-graphboundloop عد
الحد من عدد حلقات تعديل الحدود في مرحلة ما بعد المعالجة. هذا
تمنع المعلمة Julius من الحظر عن طريق حلقة الضبط اللانهائية باختصار
تذبذب الكلمة. (الافتراضي: 20)

-graphsearchdelay , -nographsearchdelay
عند تمكين هذا الخيار، يقوم Julius بتعديل خوارزمية إنشاء الرسم البياني الخاصة به
الممر الثاني لا ينهي البحث عن طريق دمج الرسم البياني، حتى الجملة الأولى
تم العثور على المرشح. قد يؤدي هذا الخيار إلى تحسين دقة الرسم البياني، خاصة عندما
سنقوم بإنشاء رسم بياني ضخم للكلمات من خلال تحديد بحث واسع النطاق. وهي قد
يؤدي إلى دقة رسم بياني أفضل عند ضبط الحزم العريضة في كل من التمريرة الأولى -b و
التمريرة الثانية -ب 2، وعدد كبير ل -n. (الافتراضي: معطل)

متعدد جرام / متعدد ديك اعتراف
-متعدد الحروف , -nomultigramout
عند التعرف على القواعد النحوية باستخدام قواعد نحوية متعددة، سيخرج Julius الأفضل فقط
النتيجة بين جميع القواعد. سيؤدي تمكين هذا الخيار إلى قيام يوليوس بالإخراج
النتيجة لكل قواعد اللغة. (الافتراضي: معطل)

قسري انحياز
-walign
قم بإجراء محاذاة viterbi لكل وحدات الكلمة للحصول على نتيجة التعرف. الكلمة
سيتم حساب الإطارات الحدودية ومتوسط ​​الدرجات الصوتية لكل إطار.

-بالين
قم بإجراء محاذاة viterbi لكل وحدات الهاتف للحصول على نتيجة التعرف. الهاتف
سيتم حساب الإطارات الحدودية ومتوسط ​​الدرجات الصوتية لكل إطار.

-سالين
قم بمحاذاة viterbi لكل حالة للحصول على نتيجة التعرف. حدود الدولة
سيتم حساب الإطارات ومتوسط ​​الدرجات الصوتية لكل إطار.

الباقي . الخيارات
-غير نشط
ابدأ مثيل عملية التعرف هذا بحالة غير نشطة. (الإصدار 4.0)

-1 تمريرة
أداء التمريرة الأولى فقط.

-fallback1pass
عندما تفشل التمريرة الثانية، ينهي يوليوس عملية التعرف دون نتيجة. هذا الخيار
اطلب من يوليوس أن يخرج نتيجة التمريرة الأولى كنتيجة نهائية عند التمريرة الثانية
فشل. لاحظ أن بعض النتائج (الثقة وما إلى ذلك) قد لا تكون مفيدة. لقد كان هذا
السلوك الافتراضي لـ Julius-3.x.

-no_ccd , -force_ccd
تبديل التعامل مع سياق الهاتف بشكل صريح عند البحث. عادة ما يحدد يوليوس
ما إذا كان استخدام AM هو نموذج يعتمد على السياق أم لا من أسماء النماذج،
أي ما إذا كانت الأسماء تحتوي على الحرف + و -. سيتجاوز هذا الخيار
الكشف التلقائي.

-cmalpha الطفو
تجانس المعلمة لتسجيل الثقة. (الافتراضي: 0.05)

-iwsp
(وضع المسارات المتعددة فقط) تمكين إدراج وقفة قصيرة خالية من السياق بين الكلمات.
يُلحق هذا الخيار نموذج توقف قصير قابل للتخطي لكل نهاية كلمة. ال
يمكن تحديد نموذج الإيقاف المؤقت القصير بواسطة -spmodel.

-شفرة الطفو
عقوبة إدراج إضافية للكلمات الشفافة. (الافتراضي: 0.0)

-تصور
أي ما يعادل -progout -هادئ.

البيئة المتغيرات


الصادف
(باستخدام إدخال الميكروفون مع جهاز alsa) حدد اسم جهاز الالتقاط. إذا لم يكن محددًا ،
سيتم استخدام "الافتراضي".

أودي
(باستخدام إدخال الميكروفون مع جهاز OOS) حدد مسار جهاز الالتقاط. إذا لم يكن محددًا ،
"/ ديف / dsp" سوف يستخدم.

LATENCY_MSEC
حاول ضبط زمن انتقال إدخال الميكروفون بالمللي ثانية. أصغر قيمة سوف
تقصير وقت الاستجابة ولكن في بعض الأحيان تجعل العملية غير مستقرة. سوف تعتمد القيمة الافتراضية على
تشغيل نظام التشغيل.

أمثلة


للحصول على أمثلة لاستخدام النظام، راجع قسم البرنامج التعليمي في مستندات Julius.

إشعار


ملاحظة حول ملفات jconf: يتم تفسير المسارات النسبية في ملف jconf على أنها مرتبطة بملف
jconf نفسه، وليس إلى الدليل الحالي.

استخدم Julius عبر الإنترنت باستخدام خدمات onworks.net


خوادم ومحطات عمل مجانية

قم بتنزيل تطبيقات Windows و Linux

أوامر لينكس

Ad