عربيالفرنسيةالإسبانية

Ad


OnWorks فافيكون

hmmsim - عبر الإنترنت في السحابة

قم بتشغيل hmmsim في مزود استضافة OnWorks المجاني عبر Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

هذا هو الأمر hmmsim الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

برنامج:

اسم


hmmsim - اجمع توزيعات النقاط على التسلسلات العشوائية

موجز


هممسم [خيارات]

الوصف


هممسم يولد البرنامج تسلسلات عشوائية ، ويسجلها مع النموذج (النماذج) في ,
ويخرج أنواعًا مختلفة من الرسوم البيانية والمؤامرات والتوزيعات المجهزة للنتيجة
درجات.

هممسم ليس جزءًا أساسيًا من حزمة HMMER. معظم المستخدمين ليس لديهم سبب ل
استخدمه. يتم استخدامه لتطوير واختبار الأساليب الإحصائية المستخدمة لتحديد قيم P
والقيم الإلكترونية في HMMER3. على سبيل المثال ، تم استخدامه لتوليد معظم النتائج في عام 2008
ورقة حول إحصائيات المحاذاة المحلية الخاصة بـ H3 (PLoS Comp Bio 4: e1000069 ، 2008 ؛
http://www.ploscompbiol.org/doi/pcbi.1000069).

نظرًا لأنه اختبار بحثي ، يجب ألا تتوقع أن يكون قويًا مثل الآخرين
البرامج الموجودة في العبوة. على سبيل المثال ، قد تتفاعل الخيارات بطرق غريبة ؛ ليس لدينا
تم اختباره ولم يحاول توقع جميع المجموعات الممكنة المختلفة.

المهمة الرئيسية هي ملاءمة أقصى احتمال لتوزيع Gumbel على نتائج Viterbi أو ملف
أقصى احتمال أسي ذيل إلى الدرجات العالية للأمام ، واختبار ذلك
التوزيعات المجهزة تخضع للحدس القائل بأن lambda ~ log_2 لكل من Viterbi Gumbel
والذيل الأسي إلى الأمام.

الإخراج هو جدول أرقام ، صف واحد لكل نموذج. أربع نوبات حدودية مختلفة
إلى بيانات الدرجة التي يتم اختبارها: (1) أقصى احتمال يناسب كل من الموقع (mu / tau) و
معلمات المنحدر (لامدا) ؛ (2) بافتراض lambda = log_2 ، فإن أقصى احتمال ملائم لـ
معلمة الموقع فقط ؛ (3) نفس الشيء ولكن بافتراض لامدا مصححة الحافة ، باستخدام التيار
الإجراءات في H3 [Eddy، 2008]؛ و (4) باستخدام كلا البارامترات المحددة بواسطة تيار H3
إجراءات. الإحصاء القياسي البسيط والسريع والقذر لملاءمة الملاءمة هو "E @ 10" ،
القيمة الإلكترونية المحسوبة للنتيجة العاشرة التي تحتل المرتبة الأولى ، والتي نتوقع أن تكون حوالي 10.

بالتفصيل ، أعمدة الإخراج هي:

الاسم اسم النموذج.

الذيل تم استخدام جزء من أعلى الدرجات لملاءمة التوزيع. بالنسبة إلى Viterbi و MSV و
الدرجات الهجينة ، يتم تعيين هذا افتراضيًا على 1.0 (يتم تركيب توزيع Gumbel على جميع
بيانات). بالنسبة إلى الدرجات إلى الأمام ، يتم تعيين هذا افتراضيًا على 0.02 (يتم تركيب الذيل الأسي على
أعلى 2٪ درجات).

مو / تاو معلمة الموقع لأقصى احتمال ملائم للبيانات.

لامدا معلمة المنحدر لأقصى احتمال ملائم للبيانات.

ه @ 10 القيمة الإلكترونية المحسوبة للنتيجة الأعلى المرتبة العاشرة ("E @ 10") باستخدام ML mu / tau
ولامدا. حسب التعريف ، من المتوقع أن يكون هذا حوالي 10 ، إذا كان تقدير القيمة الإلكترونية
دقيقة.

com.mufix معلمة الموقع ، لأقصى احتمالية ملائمة لمنحدر معروف (ثابت)
المعلمة lambda من log_2 (0.693).

E @ 10fix
القيمة الإلكترونية المحسوبة للنتيجة المرتبة العاشرة باستخدام mufix والمتوقع
لامدا = log_2 = 0.693.

mufix2 معلمة الموقع ، لأقصى احتمالية مناسبة مع تصحيح تأثير الحافة
لامدا.

ه @ 10fix2
القيمة الإلكترونية المحسوبة للنتيجة المرتبة العاشرة باستخدام mufix10 وتأثير الحافة-
لامدا المصححة.

وحدة إدارة المشروع معلمة الموقع على النحو الذي تحدده إجراءات تقدير H3.

بلامبدا
معلمة المنحدر على النحو الذي تحدده إجراءات تقدير H3.

pE @ 10 القيمة الإلكترونية المحسوبة للنتيجة المرتبة العاشرة باستخدام pmu ، plambda.

في نهاية هذا الجدول ، تتم طباعة سطر آخر ، يبدأ بـ # ويلخص ملف
إجمالي وقت وحدة المعالجة المركزية المستخدم بواسطة عمليات المحاكاة.

بعض ملفات الإخراج الاختيارية تكون بتنسيق xmgrace xy. xmgrace قوي وحري
برامج الرسم البياني المتاحة.

متفرقات OPTIONS


-h يساعد؛ اطبع تذكيرًا موجزًا ​​باستخدام سطر الأوامر وجميع الخيارات المتاحة.

-a اجمع إحصائيات طول محاذاة Viterbi المتوقعة من كل تسلسل تمت محاكاته.
هذا يعمل فقط مع درجات فيتربي (الافتراضي ، انظر --vit). اثنان إضافيان
تتم طباعة الحقول في جدول الإخراج لكل نموذج: متوسط ​​طول Viterbi
المحاذاة والانحراف المعياري.

-v (مطوّل). اطبع النتائج أيضًا ، درجة واحدة في كل سطر.

-L قم بتعيين طول التسلسلات العشوائية (غير المتجانسة) التي تم أخذ عينات منها بشكل عشوائي إلى .
الافتراضي هو 100.

-N قم بتعيين عدد التسلسلات التي تم أخذ عينات منها بشكل عشوائي إلى . الافتراضي هو 1000.

--mpi تشغيل في الوضع المتوازي MPI ، تحت مبيرون. يتم موازاة ذلك على مستوى الإرسال
ملف تعريف واحد في كل مرة لعملية عامل MPI ، لذا فإن الموازاة تساعد فقط إذا
لديك أكثر من ملف تعريف واحد في ، وتريد الحصول على ما لا يقل عن
العديد من الملفات الشخصية كعمليات عامل MPI. (متاح فقط إذا كان دعم MPI الاختياري
تم تمكينه في وقت الترجمة.)

OPTIONS المتابعة OUTPUT


-o احفظ جدول الإخراج الرئيسي في ملف بدلا من إرسالها إلى stdout.

--ملف
عند جمع إحصائيات محاذاة Viterbi (ملف -a الخيار) ، لكل عينة
تسلسل ، إخراج حقلين في كل سطر إلى ملف : الطول الأمثل
المحاذاة ، ودرجة بت فيتربي. يتطلب أن يكون -a يستخدم الخيار أيضًا.

--ملف البريد
إخراج مؤامرة مرتبة مقابل القيمة E بتنسيق XMGRACE xy إلى ملف . المحور السيني هو
ترتيب هذا التسلسل ، من أعلى درجة إلى أدنى درجة ؛ المحور ص هو القيمة الإلكترونية
محسوبة لهذا التسلسل. يتم حساب القيم الإلكترونية باستخدام إجراءات H3 الافتراضية
(على سبيل المثال ، معلمات pmu ، plambda في جدول الإخراج). تتوقع مباراة تقريبية
بين الرتبة والقيمة E إذا تم تقدير القيم E بدقة.

- ملف
إخراج ملف "مرشح الطاقة" إلى : لكل نموذج ، سطر بثلاثة حقول:
اسم النموذج وعدد التسلسلات التي تتجاوز عتبة القيمة P وكسر
التسلسلات التي تتجاوز عتبة القيمة P. يرى --بتريش لتحديد القيمة P.
العتبة ، والتي يتم تعيينها افتراضيًا إلى 0.02 (عتبة مرشح MSV الافتراضية في H3). إن P-
يتم تحديد القيم من خلال الإجراءات الافتراضية لـ H3 (معلمات pmu و plambda في
جدول الإخراج). إذا كان كل شيء على ما يرام ، فأنت تتوقع أن ترى قوة مرشح تساوي
توقع إعداد القيمة P للعتبة.

--pfile
إخراج مخططات البقاء التراكمية (P (S> x)) للملف بتنسيق XMGRACE xy. هناك
هي ثلاث قطع: (1) توزيع النقاط المرصود ؛ (2) أقصى احتمال
توزيع مناسب (3) أقصى احتمال ملائم لمعلمة الموقع
(مو / تاو) بينما
بافتراض lambda = log_2.

--xfile
قم بإخراج درجات البت كمصفوفة ثنائية من عوامات الدقة المزدوجة (8 بايت لكل
النتيجة) لملف . برامج مثل Easel's esl-histplot يمكن قراءة هذه الملفات الثنائية.
هذا مفيد عند توليد أحجام عينات كبيرة للغاية.

OPTIONS المتابعة فئة الساعة : CONFIGURATION (الوضع)


يستخدم H3 فقط المحاذاة المحلية متعددة النقاط ( - fs mode) ، وهذا هو المكان الذي نعتقد فيه
نوبات إحصائية. Unihit درجات المحاذاة المحلية (سميث / ووترمان ؛ --جنوب غرب mode) طاعة أيضًا
التخمينات الإحصائية. إحصائيات محاذاة Glocal (سواء متعددة أو unihit) هي
لا تزال غير مفهومة بشكل كافٍ ولا ملائمة بشكل كافٍ.

- fs جمع نقاط المحاذاة المحلية متعددة النقاط. هذا هو الافتراضي. محاذاة مثل
"وضع البحث عن جزء".

--جنوب غرب اجمع درجات المحاذاة المحلية الموحدة. تم تعطيل حالة H3 J. محاذاة مثل
"وضع بحث سميث / ووترمان".

--ls جمع نقاط المحاذاة glocal متعددة النقاط. في المحاذاة العالمية (العالمية / المحلية) ، فإن
يجب أن يتوافق النموذج بأكمله مع النتيجة اللاحقة للهدف. الدخول / الخروج المحلي H3
تم تعطيل احتمالات الانتقال. 'ls' يأتي من HMMER2 التاريخي
المصطلحات الخاصة بالمحاذاة المحلية متعددة النقاط كـ "وضع البحث المحلي".

--س جمع درجات محاذاة glocal unihit. كل من حالة H3 J والدخول / الخروج المحلي
تم تعطيل احتمالات الانتقال. 's' يأتي من HMMER2's التاريخية
المصطلحات الخاصة بمحاذاة glocal unihit.

OPTIONS المتابعة التسجيل الخوارزمية


--vit اجمع درجات محاذاة الاحتمالية القصوى لفيتربي. هذا هو الافتراضي.

--fwd اجمع درجات احتمالية احتمالية تسجيل الدخول إلى الأمام ، والتي تم تلخيصها عبر مجموعة المحاذاة.

--هيب اجمع الدرجات "المختلطة" ، كما هو موضح في الأوراق البحثية بواسطة Yu و Hwa (على سبيل المثال ،
المعلوماتية الحيوية 18: 864 ، 2002). هذه تتضمن حساب مصفوفة إلى الأمام وأخذ
قيمة الخلية القصوى. الرقم نفسه غير محفز من الناحية الإحصائية إلى حد ما ،
لكن من المتوقع أن يكون التوزيع توزيع قيمة قصوى حسن التصرف
(جومبل).

--msv اجمع درجات MSV (مقاطع Viterbi المتعددة غير المربوطة) ، باستخدام H3's main
استكشافية التسارع.

--بسرعة لأي من الخيارات المذكورة أعلاه ، استخدم تنفيذ الإنتاج المحسّن لـ H3 (باستخدام
اتجاه SIMD). الافتراضي هو استخدام تطبيقات تضحية صغيرة
مقدار الدقة العددية. يمكن أن يؤدي هذا إلى إحداث ضوضاء مربكة في
عمليات المحاكاة الإحصائية وتناسبها ، لذلك عندما يشعر المرء بالقلق الشديد بشأن الدقة
التفاصيل ، فمن الأفضل أن تكون قادرًا على استبعاد مصدر الضوضاء هذا.

OPTIONS المتابعة تركيب TAIL الجماهير لأي إلى الأمام


في بعض التجارب ، كان من المفيد ملاءمة الدرجات الأمامية لمجموعة من الذيل المختلفة
الجماهير ، بدلاً من كتلة واحدة. توفر هذه الخيارات آلية لتركيب
مجموعة متباعدة من كتل الذيل المختلفة. لكل كتلة ذيل مختلفة ، يتم إنشاء خط
في الإخراج.

--tmin
تعيين الحد الأدنى لتوزيع كتلة الذيل. (الافتراضي هو 0.02 لملف
كتلة ذيل واحدة افتراضية.)

--tmax
تعيين الحد الأعلى لتوزيع كتلة الذيل. (الافتراضي هو 0.02 لملف
كتلة ذيل واحدة افتراضية.)

- نقاط
اضبط عدد كتل الذيل المراد أخذ عينات منها ، بدءًا من --tmin وتنتهي عند --tmax.
(القيمة الافتراضية هي 1 ، للكتلة الافتراضية التي تبلغ 0.02 ذيل واحد).

- خطي
قم بتجربة مجموعة من كتل الذيل مع تباعد خطي منتظم. الافتراضي هو استخدام
تباعد لوغاريتمي موحد.

OPTIONS المتابعة H3 معامل تقدير طرق


يستخدم H3 ثلاث عمليات محاكاة للتسلسل العشوائي القصير لتقدير معلمات الموقع لـ
توزيعات الدرجات المتوقعة لدرجات MSV ودرجات Viterbi والنتائج إلى الأمام. هؤلاء
خيارات تسمح بتعديل هذه المحاكاة.

--EmL
يضبط طول التسلسل في المحاكاة الذي يقدر معلمة الموقع mu لـ
قيم MSV الإلكترونية. الافتراضي هو 200.

--إم إن
يضبط عدد التسلسلات في المحاكاة التي تقدر معلمة الموقع mu
لقيم MSV الإلكترونية. الافتراضي هو 200.

- إيفل
يضبط طول التسلسل في المحاكاة الذي يقدر معلمة الموقع mu لـ
قيم فيتيربي الإلكترونية. الافتراضي هو 200.

- إيفن
يضبط عدد التسلسلات في المحاكاة التي تقدر معلمة الموقع mu
لقيم Viterbi E. الافتراضي هو 200.

- EFL
يضبط طول التسلسل في المحاكاة الذي يقدر معلمة الموقع tau
للقيم الإلكترونية إلى الأمام. الافتراضي هو 100.

- EFN
يضبط عدد التسلسلات في المحاكاة التي تقدر معلمة الموقع
tau للقيم الإلكترونية إلى الأمام. الافتراضي هو 200.

- في النهاية
يضبط كسر كتلة الذيل ليلائم المحاكاة التي تقدر الموقع
المعلمة تاو للتقييمات إلى الأمام. الافتراضي هو 0.04.

تفكيك OPTIONS


--المماطلة
لتصحيح أخطاء إصدار MPI الرئيسي / العامل: توقف مؤقتًا بعد البدء ، لتمكين
مطور لإرفاق مصححات الأخطاء إلى العمليات الرئيسية والعامل (العمال) قيد التشغيل. يرسل
إشارة SIGCONT لتحرير الإيقاف المؤقت. (تحت gdb: (جدب) بسيطة سيجكون) (فقط
متاحًا إذا تم تمكين دعم MPI الاختياري في وقت الترجمة.)

--بذرة
اضبط بذرة الرقم العشوائي على . الافتراضي هو 0 ، مما يجعل الرقم العشوائي
مولد يستخدم بذرة عشوائية ، بحيث يتم تشغيل مختلف هممسم سوف تقريبا
بالتأكيد إنشاء عينة إحصائية مختلفة. لتصحيح الأخطاء ، من المفيد أن
فرض النتائج القابلة للتكرار ، عن طريق تحديد بذرة رقم عشوائي.

تجريبي OPTIONS


تم استخدام هذه الخيارات في مجموعة متنوعة صغيرة من التجارب الاستكشافية المختلفة.

--bgflat
اضبط توزيع بقايا الخلفية على توزيع موحد ، كلاهما
أغراض النموذج الفارغ المستخدم في حساب الدرجات ولإنشاء
تسلسل عشوائي. الافتراضي هو استخدام تردد خلفية قياسي للأحماض الأمينية
التوزيع.

--bgcomp
اضبط توزيع بقايا الخلفية على متوسط ​​التكوين للملف الشخصي.
تم استخدام هذا في استكشاف بعض آثار التركيب المتحيز.

--x-no-lengthmodel
قم بإيقاف تشغيل نموذج طول التسلسل المستهدف H3. اضبط الانتقالات الذاتية لـ N و C و J
والنموذج الفارغ إلى 350/351 بدلاً من ذلك ؛ هذا يحاكي HMMER2. ليست فكرة جيدة في
عام. تم استخدام هذا لتوضيح أحد الفروق الرئيسية بين H2 و H3.

--نو
اضبط المعلمة nu لخوارزمية MSV - العدد المتوقع للغة المحلية غير المحددة
المحاذاة لكل تسلسل الهدف. الافتراضي هو 2.0 ، المطابق لـ E-> J
احتمال الانتقال 0.5. تم استخدام هذا لاختبار ما إذا كان نو متفاوتة
تأثير كبير على النتيجة (لا يبدو ، في حدود المعقول). هذا الخيار فقط
يعمل إذا --msv تم تحديده (يؤثر فقط على MSV) ، ولن يعمل مع --بسرعة
(لأن التطبيقات المحسّنة مجسدة على افتراض أن nu = 2.0).

--بتريش
قم بتعيين عتبة القيمة P الخاصة بالمرشح لاستخدامها في إنشاء ملفات طاقة المرشح باستخدام
- ملف. الافتراضي هو 0.02 (والذي سيكون مناسبًا لاختبار درجات MSV ،
نظرًا لأن هذه هي عتبة مرشح MSV الافتراضية في خط أنابيب تسريع H3.)
الخيارات المناسبة الأخرى (مطابقة الافتراضات في خط أنابيب التسريع) ستكون
0.001 لـ Viterbi ، و 1e-5 للأمام.

استخدم hmmsim عبر الإنترنت باستخدام خدمات onworks.net


خوادم ومحطات عمل مجانية

قم بتنزيل تطبيقات Windows و Linux

أوامر لينكس

Ad