hmmsim - מקוון בענן

זוהי הפקודה hmmsim שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


hmmsim - איסוף התפלגות ניקוד על רצפים אקראיים

תַקצִיר


הממסים [אפשרויות]

תיאור


השמיים הממסים התוכנית מייצרת רצפים אקראיים, מדרגת אותם עם המודל/ים ,
ומוציא סוגים שונים של היסטוגרמות, עלילות והתפלגות מותאמות עבור המתקבל
ציונים.

הממסים אינו חלק מיינסטרים בחבילת HMMER. לרוב המשתמשים לא תהיה סיבה לכך
תשתמש בזה. הוא משמש לפיתוח ובדיקת השיטות הסטטיסטיות המשמשות לקביעת ערכי P
וערכי E ב-HMMER3. לדוגמה, הוא שימש ליצירת רוב התוצאות ב-2008
מאמר על סטטיסטיקת היישור המקומית של H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

מכיוון שמדובר במבחן מחקר, אל תצפו שהוא יהיה חזק כמו אחרים
תוכניות בחבילה. לדוגמה, אפשרויות עשויות לקיים אינטראקציה בדרכים מוזרות; אנחנו לא
נבדק ולא ניסה לצפות את כל השילובים האפשריים השונים.

המשימה העיקרית היא להתאים התפלגות סבירות מקסימלית של Gumbel לציוני Viterbi או
סבירות מקסימלית זנב אקספוננציאלי לציוני Forward בעלי ניקוד גבוה, ולבדוק שאלו
התפלגות מותאמות מצייתות להשערה שלמבדה ~ log_2 עבור שני ה-Viterbi Gumbel
והזנב האקספוננציאלי קדימה.

הפלט הוא טבלת מספרים, שורה אחת לכל דגם. ארבע התאמות פרמטריות שונות
לנתוני הציון נבדקים: (1) הסבירות המקסימלית מתאימה הן למיקום (mu/tau) והן
פרמטרים של שיפוע (למבדה); (2) בהנחה של lambda=log_2, התאמה מקסימלית ל-
פרמטר מיקום בלבד; (3) זהה אבל בהנחה של למבדה מתוקנת קצה, באמצעות זרם
נהלים ב-H3 [Edy, 2008]; וכן (4) שימוש בשני הפרמטרים שנקבעו על ידי הזרם של H3
נהלים. הסטטיסטיקה הפשוטה, המהירה והמלוכלכת הסטנדרטית להתאמה טובה היא 'E@10',
הערך ה-E המחושב של הלהיט המדורג במקום ה-10, שאנו מצפים שיהיה בערך 10.

בפירוט, העמודות של הפלט הן:

שם שם הדגם.

זנב חלק מהציונים הגבוהים ביותר ששימשו להתאים להתפלגות. עבור Viterbi, MSV ו
ציונים היברידיים, זה כברירת מחדל ל-1.0 (התפלגות Gumbel מותאמת לכל
נתונים). עבור ציוני קדימה, ברירת המחדל היא 0.02 (זנב אקספוננציאלי מתאים
הציונים הגבוהים ביותר של 2%).

mu/tau פרמטר מיקום להתאמה המרבית של הסבירות לנתונים.

למבדה פרמטר שיפוע להתאמה המרבית של הסבירות לנתונים.

E@10 ה-E-value מחושב עבור הציון הגבוה בדירוג ה-10 ('E@10') באמצעות ML mu/tau
ולמבדה. בהגדרה, זה צפוי להיות בערך 10, אם הערכת E-value הייתה
מדויק.

mufix פרמטר מיקום, להתאמה מקסימלית של סבירות עם שיפוע ידוע (קבוע).
פרמטר למבדה של log_2 (0.693).

E@10fix
ה-E-value מחושב עבור הציון המדורג 10 באמצעות mufix והצפוי
lambda = log_2 = 0.693.

mufix2 פרמטר מיקום, להתאמה מקסימלית של סבירות עם אפקט-קצה מתוקן
למבדה.

E@10fix2
ה-E-value מחושב עבור הציון המדורג 10 באמצעות mufix2 ו- edge-effect-
למבדה מתוקנת.

pmu פרמטר מיקום כפי שנקבע על ידי נהלי האומדן של H3.

פלמבדה
פרמטר שיפוע כפי שנקבע על ידי נהלי האומדן של H3.

pE@10 ה-E-value מחושב עבור הציון המדורג 10 באמצעות pmu, plambda.

בסוף טבלה זו מודפסת שורה נוספת, המתחילה ב-# ומסכמת את ה-
זמן CPU הכולל בשימוש על ידי הסימולציות.

חלק מקבצי הפלט האופציונליים הם בפורמט xmgrace xy. xmgrace הוא רב עוצמה ובחופשיות
תוכנה זמינה לשרטוט גרפים.

שונות אפשרויות


-h עֶזרָה; הדפס תזכורת קצרה לגבי השימוש בשורת הפקודה וכל האפשרויות הזמינות.

-a אסוף נתונים סטטיסטיים צפויים של אורך יישור Viterbi מכל רצף מדומה.
זה עובד רק עם ציוני Viterbi (ברירת המחדל; ראה --vit). שניים נוספים
שדות מודפסים בטבלת הפלט עבור כל דגם: האורך הממוצע של Viterbi
יישורים, וסטיית התקן.

-v (מִלוּלִי). הדפס גם את הציונים, ניקוד אחד בכל שורה.

-L הגדר את אורך הרצפים שנדגמו באקראי (לא הומולוגיים) ל . ה
ברירת המחדל היא 100.

-N הגדר את מספר הרצפים שנדגמו באופן אקראי ל . ברירת המחדל היא 1000.

--מפי הפעל במצב MPI מקביל, תחת מפירון. זה מקביל ברמת השליחה
פרופיל אחד בכל פעם לתהליך עובד של MPI, כך שהקבלה עוזרת רק אם
יש לך יותר מפרופיל אחד ב- , ואתה רוצה שיהיה לך לפחות כמו
פרופילים רבים כתהליכי עובד MPI. (זמין רק אם הייתה תמיכת MPI אופציונלית
מופעל בזמן ההידור.)

אפשרויות שליטה תפוקה


-o שמור את טבלת הפלט הראשית לקובץ במקום לשלוח אותו ל-stdout.

--קובץ
בעת איסוף סטטיסטיקות יישור Viterbi (ה -a אפשרות), עבור כל דגימה
רצף, פלט שני שדות בכל שורה לקובץ : אורך האופטימלי
יישור, וציון הסיביות של Viterbi. דורש כי ה -a נעשה שימוש גם באופציה.

--efile
פלט עלילה של דירוג לעומת E-value בפורמט XMGRACE xy לקובץ . ציר ה-x הוא ה
דרגה של רצף זה, מהציון הגבוה ביותר לנמוך ביותר; ציר ה-y הוא ערך ה-E
מחושב עבור רצף זה. ערכי E מחושבים באמצעות נוהלי ברירת המחדל של H3
(כלומר הפרמטרים של pmu, פלמבדה בטבלת הפלט). אתה מצפה להתאמה גסה
בין דרגה ל-E-value אם ערכי E נאמדים במדויק.

--file
פלט קובץ "כוח מסנן" ל : עבור כל דגם, שורה עם שלושה שדות:
שם הדגם, מספר הרצפים העוברים את סף ערך ה-P ושבריר של
רצפים העוברים את סף ערך P. לִרְאוֹת --פטרש להגדרת ערך P
סף, שברירת המחדל הוא 0.02 (סף מסנן MSV ברירת המחדל ב-H3). ה-P-
הערכים הם כפי שנקבעו על ידי נוהלי ברירת המחדל של H3 (הפרמטרים pmu,plambda ב
טבלת הפלט). אם הכל בסדר, אתה מצפה לראות כוח פילטר שווה ל-
הגדרת ערך P חזוי של הסף.

--pfile
פלט חלקות הישרדות מצטברות (P(S>x)) לקובץ בפורמט XMGRACE xy. שם
הן שלוש חלקות: (1) התפלגות הניקוד הנצפה; (2) הסבירות המקסימלית
חלוקה מצוידת; (3) התאמה של סבירות מקסימלית לפרמטר המיקום
(מו/טאו) תוך כדי
בהנחה של lambda=log_2.

--xfile
פלט את ציוני הסיביות כמערך בינארי של צפים בעלי דיוק כפול (8 בתים לכל
ציון) לקובץ . תוכניות כמו Easel's esl-histplot יכול לקרוא קבצים בינאריים כאלה.
זה שימושי בעת יצירת גדלי מדגם גדולים במיוחד.

אפשרויות שליטה דגם תְצוּרָה (מצב)


H3 משתמש רק ביישור מקומי multihit ( --fs מצב), וכאן אנו מאמינים שה
התאמות סטטיסטיות. ציוני היישור המקומי של Unihit (Smith/Waterman; -- sw מצב) גם לציית שלנו
השערות סטטיסטיות. נתונים סטטיסטיים של יישור גלובלי (או multihit או unihit).
עדיין לא מובן מספיק ולא מותאם כראוי.

--fs אסוף ציוני יישור מקומיים מרובי-היטים. זוהי ברירת המחדל. יישור כמו
'מצב חיפוש קטע'.

-- sw אסוף ציוני יישור מקומיים של unihit. מצב H3 J מושבת. יישור כמו
'מצב חיפוש סמית'/ווטרמן'.

--ls אסוף ציוני יישור גלוקלי מרובי-היטים. ביישור גלובלי (גלובלי/מקומי), ה
המודל כולו חייב להתיישר, לרצף של היעד. הכניסה/יציאה המקומית של H3
הסתברויות המעבר מושבתות. 'ls' מגיע מההיסטוריה של HMMER2
טרמינולוגיה ליישור מקומי רב-מגיע כ'מצב חיפוש מקומי'.

--ש אסוף ציוני יישור גלוקלי unihit. גם מדינת H3 J וגם כניסה/יציאה מקומית
הסתברויות המעבר מושבתות. 's' מגיע מההיסטוריה של HMMER2
טרמינולוגיה ליישור גלוקלי unihit.

אפשרויות שליטה מְנִיָה אַלגוֹרִיתְם


--vit אסוף ציוני יישור סבירות מקסימלית של Viterbi. זוהי ברירת המחדל.

--fwd אסוף ציוני הסבירות של יומן הסיכויים קדימה, המסוכמים על פני אנסמבל יישור.

--היב אסוף ציונים 'היברידיים', כפי שמתואר במאמרים של יו והווא (למשל,
ביואינפורמטיקה 18:864, 2002). אלה כוללים חישוב מטריצת קדימה ולקחת
ערך התא המקסימלי. המספר עצמו חסר מוטיבציה סטטיסטית,
אבל ההתפלגות צפויה להיות התפלגות ערכית מנוהלת היטב
(גמבל).

--msv אסוף ציוני MSV (מרובים מקטע Viterbi לא מאוגד), תוך שימוש ב-main של H3
היוריסטית תאוצה.

--מָהִיר עבור כל אחת מהאפשרויות לעיל, השתמש ביישום הייצור האופטימלי של H3 (באמצעות
וקטוריזציה של SIMD). ברירת המחדל היא להשתמש ביישומים להקריב מעט
כמות של דיוק מספרי. זה יכול להכניס רעש מבלבל
סימולציות סטטיסטיות והתאמות, אז כשאדם מודאג במיוחד לגבי המדויק
פרטים, עדיף להיות מסוגל להביא את מקור הרעש הזה החוצה.

אפשרויות שליטה מְצוּיָד זָנָב המונים עבור קָדִימָה


בניסויים מסוימים, היה שימושי להתאים ציוני Forward למגוון של זנבות שונים
המונים, ולא רק אחד. אפשרויות אלה מספקות מנגנון להתאמה שווה של
טווח מרווח של מסות זנב שונות. עבור כל מסת זנב שונה נוצר קו
בפלט.

--tmin
הגדר את הגבול התחתון על חלוקת מסת הזנב. (ברירת המחדל היא 0.02 עבור ה
מסת זנב בודד המוגדר כברירת מחדל.)

--tmax
הגדר את הגבול העליון על חלוקת מסת הזנב. (ברירת המחדל היא 0.02 עבור ה
מסת זנב בודד המוגדר כברירת מחדל.)

--tpoints
הגדר את מספר מסות הזנב לדגימה, החל מ --tmin ומסתיים ב --tmax.
(ברירת המחדל היא 1, עבור ברירת המחדל של מסת זנב בודד של 0.02).

--ליניארי
דגום מגוון של מסות זנב עם מרווח ליניארי אחיד. ברירת המחדל היא להשתמש
מרווח לוגריתמי אחיד.

אפשרויות שליטה H3 פרמטר אוּמדָן שיטות


H3 משתמש בשלוש סימולציות קצרות של רצף אקראיות כדי להעריך את פרמטרי המיקום עבורם
התפלגות הציונים הצפויה עבור ציוני MSV, ציוני Viterbi וציוני Forward. אלה
אפשרויות מאפשרות לשנות סימולציות אלו.

--EmL
מגדיר את אורך הרצף בסימולציה שמעריכה את פרמטר המיקום mu עבור
ערכי MSV E. ברירת המחדל היא 200.

--EmN
מגדיר את מספר הרצפים בסימולציה שמעריכה את פרמטר המיקום mu
עבור ערכי MSV E. ברירת המחדל היא 200.

--EvL
מגדיר את אורך הרצף בסימולציה שמעריכה את פרמטר המיקום mu עבור
Viterbi E-values. ברירת המחדל היא 200.

--EvN
מגדיר את מספר הרצפים בסימולציה שמעריכה את פרמטר המיקום mu
עבור ערכי Viterbi E. ברירת המחדל היא 200.

--EfL
מגדיר את אורך הרצף בסימולציה שמעריכה את פרמטר המיקום tau
עבור Forward E-values. ברירת המחדל היא 100.

--EfN
מגדיר את מספר הרצפים בסימולציה שמעריכה את פרמטר המיקום
tau עבור Forward E-values. ברירת המחדל היא 200.

--Eft
מגדיר את חלק מסת הזנב כך שיתאים לסימולציה שמעריכה את המיקום
פרמטר tau עבור הערכות קדימה. ברירת המחדל היא 0.04.

פיתרון אפשרויות


--דוּכָן
לאיתור באגים בגרסת המאסטר/עובד של MPI: השהה לאחר התחלה, כדי להפעיל את
מפתח כדי לצרף באגים לתהליכי המאסטר והעובדים הפועלים. לִשְׁלוֹחַ
אות SIGCONT לשחרור ההשהיה. (תחת gdb: (gdb) אוֹת NEXTCONT) (רק
זמין אם תמיכת MPI אופציונלית הופעלה בזמן ההידור.)

--זֶרַע
הגדר את ה-Seed של המספר האקראי ל . ברירת המחדל היא 0, מה שהופך את המספר האקראי
מחולל להשתמש זרע שרירותי, כך ריצות שונות של הממסים יהיה כמעט
בהחלט ליצור מדגם סטטיסטי אחר. עבור איתור באגים, זה שימושי
לכפות תוצאות שניתנות לשחזור, על ידי תיקון זרע של מספר אקראי.

ניסיוני אפשרויות


אפשרויות אלה שימשו במגוון קטן של ניסויים גישושים שונים.

--bgflat
הגדר את התפלגות שאריות הרקע לפיזור אחיד, הן עבור
מטרות מודל האפס המשמש לחישוב ציונים, ולהפקת ה
רצפים אקראיים. ברירת המחדל היא שימוש בתדר רקע חומצות אמינו סטנדרטיות
הפצה.

--bgcomp
הגדר את התפלגות שאריות הרקע להרכב הממוצע של הפרופיל.
זה שימש בחקירת חלק מההשפעות של הרכב מוטה.

--x-no-lengthmodel
כבה את דגם אורך רצף היעד H3. הגדר את המעברים העצמיים עבור N,C,J
ודגם האפס ל-350/351 במקום זאת; זה מחקה את HMMER2. לא רעיון טוב ב
כללי. זה שימש כדי להדגים את אחד ההבדלים העיקריים H2 לעומת H3.

--נו
הגדר את הפרמטר nu עבור אלגוריתם MSV -- המספר הצפוי של מקומיים לא מאושרים
יישור לכל רצף מטרה. ברירת המחדל היא 2.0, המקבילה ל-E->J
הסתברות מעבר של 0.5. זה שימש כדי לבדוק אם משתנה nu has
השפעה משמעותית על התוצאה (נראה שלא, בסבירות גבוהה). אפשרות זו בלבד
עובד אם --msv נבחר (זה משפיע רק על MSV), וזה לא יעבוד עם --מָהִיר
(מכיוון שהמימושים האופטימליים מקושרים להנחה ש-nu=2.0).

--פטרש
הגדר את סף ערך ה-P של המסנן לשימוש ביצירת קבצי כוח מסנן
--file. ברירת המחדל היא 0.02 (מה שיתאים לבדיקת ציוני MSV,
מכיוון שזהו ברירת המחדל של סף מסנן MSV בצינור ההאצה של H3.)
אפשרויות מתאימות אחרות (התאמת ברירות מחדל בצנרת האצה) יהיו
0.001 עבור Viterbi, ו-1e-5 עבור Forward.

השתמש ב-hmmsim באינטרנט באמצעות שירותי onworks.net



התוכניות המקוונות האחרונות של לינוקס ו-Windows