זוהי הפקודה cmbuild שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
cmbuild - בניית מודל(ים) של שיתוף פעולה מרצף מרובה של RNA עם הערות מבניות
יישור(ים)
תַקצִיר
cmbuild [אפשרויות]
תיאור
עבור כל יישור רצף מרובה ב לבנות מודל שיתופיות ולשמור אותו
קובץ חדש .
קובץ היישור חייב להיות בפורמט שטוקהולם או SELEX, ועליו להכיל קונצנזוס
הערת מבנה משני. cmbuild משתמש במבנה הקונצנזוס כדי לקבוע את
ארכיטקטורה של ה-CM.
עשוי להיות '-' (מקף), כלומר קריאת קלט זה סטדין במקום קובץ.
כדי להשתמש ב-'-', עליך לציין גם את פורמט קובץ היישור עם --אינפורמט , כמו ב
--אינפורמט שטוקהולם (בגלל מגבלה נוכחית ביישום שלנו, קובץ MSA
לא ניתן לזהות פורמטים באופן אוטומטי בזרם קלט שאינו ניתן לאחור.)
אולי לא '-' (סטדout), כי שליחת קובץ ה-CM אל stdout היה מתנגש
עם פלט הטקסט השני של התוכנית.
בנוסף לכתיבת CM(s) ל , cmbuild גם מוציא שורה בודדת עבור כל אחד מהם
מודל נוצר ל-stdout. לכל שורה יש את השדות הבאים: "aln": האינדקס של ה-
יישור המשמש לבניית ה-CM; "idx": האינדקס של ה-CM ב- ; "שֵׁם":
שם ה-CM; "nseq": מספר הרצפים ביישור המשמש לבניית ה-CM;
"eff_nseq": המספר האפקטיבי של רצפים המשמשים לבניית המודל; "אלן": האורך
של היישור המשמש לבניית ה-CM; "clen": מספר העמודות מהיישור
מוגדר כעמודות קונצנזוס (התאמה); "bps": מספר זוגות הבסיס ב-CM; "ביפים":
מספר ההתפצלות ב-CM; "rel entropy: CM": האנטרופיה היחסית הכוללת של
מודל חלקי מספר עמודות הקונצנזוס; "rel entropy: HMM": היחס היחסי הכולל
אנטרופיה של המודל תוך התעלמות ממבנה משני חלקי מספר הקונצנזוס
עמודות. "תיאור": תיאור הדגם/יישור.
אפשרויות
-h עֶזרָה; הדפס תזכורת קצרה לגבי השימוש בשורת הפקודה והאפשרויות הזמינות.
-n תן שם ל-CM החדש . ברירת המחדל היא להשתמש בשם היישור (אם כן
נוכח ב ), או, אם לא, שם ה- . If
מכיל יותר מישור אחד, -n לא עובד, וכל יישור
חייב להיות בעל שם מוער ב- (כמו בשטוקהולם #=ביאור מזהה GF).
-F להתיר להחלפת. ללא אפשרות זו, אם כְּבָר
קיים, cmbuild יוצא עם שגיאה.
-o הפנה את פלט הסיכום לקובץ , ולא מאשר stdout.
-O לאחר בניית כל מודל, שמור מחדש יישורי מקור מוערים לקובץ
בפורמט שטוקהולם. רצפים מסומנים עם משקל הרצף היחסי
הוקצו. היישורים מסומנים גם עם קו הערת התייחסות
מציין אילו עמודות הוקצו כקונצנזוס. אם יישור המקור היה
הערת התייחסות ("#=GC RF") היא תוחלף בשארית הקונצנזוס של
המודל לעמודות קונצנזוס ו-'.' עבור הוספת עמודות, אלא אם כן --יד
אופציה שימשה לציון עמדות קונצנזוס, ובמקרה כזה היא תהיה
ללא שינוי.
--devhelp הדפס עזרה, כמו עם -h , אלא לכלול גם אפשרויות מומחים שלא
מוצג עם -h . אפשרויות מומחים אלו אינן צפויות להיות רלוונטיות עבור
רובם המכריע של המשתמשים ולכן אינם מתוארים בדף המדריך. היחיד
משאבים להבנת מה שהם עושים בפועל הם השורה האחת הקצרה
פלט תיאורים מתי --devhelp מופעל, וקוד המקור.
אפשרויות שליטה דגם בְּנִיָה
אפשרויות אלה קובעות כיצד עמודות קונצנזוס מוגדרות ביישור.
--מָהִיר הגדר עמודות קונצנזוס באופן אוטומטי כעמודות שיש להן שבר >= סימפרק of
שאריות בניגוד לפערים. (ראה להלן עבור --symfrac אפשרות.) זה ה
ברירת המחדל.
--יד השתמש בביאור קואורדינטות הפניה (#=GC RF קו, בשטוקהולם) כדי לקבוע איזה
עמודות הן קונצנזוס, ואשר הן תוספות. כל תו ללא פער מציין א
טור קונצנזוס. (לדוגמה, סמן עמודות קונצנזוס ב-"x", והוסף עמודות
עם ".".) אפשרות זו נקראה --rf בגרסאות קודמות של Infernal (0.1
עד 1.0.2).
--symfrac
הגדר את סף שבר השאריות הדרוש להגדרת עמודת קונצנזוס מתי
לא משתמש --יד. ברירת המחדל היא 0.5. שבר הסמל בכל עמודה הוא
מחושב לאחר התחשבות בשקלול הרצף היחסי. מגדיר את זה ל
0.0 אומר שכל עמודת יישור תוקצה כקונצנזוס, ויכול להיות
שימושי במקרים מסוימים. הגדרתו ל-1.0 פירושה שרק עמודות הכוללות 0 פערים
יוקצה כקונצנזוס. אפשרות זו מחליפה את --gapthresh אוֹפְּצִיָה
מגירסאות קודמות של Infernal (0.1 עד 1.0.2), עם שווה ל-(1.0 -
). למשל לשחזר התנהגות לפקודה של cmbuild --gapthresh 0.8
בגרסה קודמת, השתמש cmbuild --symfrac 0.2 עם הגרסה הזו.
--נוס התעלם מהערת המבנה המשני, אם יש, ב ולבנות עם CM
אפס זוגות בסיס. דגם זה יהיה דומה לפרופיל HMM וה- cmsearch ו
cmscan תוכניות ישתמשו באלגוריתמי HMM שהם מהירים יותר מאלו של CM לשם כך
דֶגֶם. בנוסף, אין צורך לכייל דגם אפס זוג בסיסי cmcalibrate
לפני הריצה cmsearch עם זה. ה --נוס יש להשתמש באפשרות אם אין
הערת מבנה משני ב .
--מחקר
פרמטר ציוני פליטה א-לה RSEARCH, באמצעות מטריצת RIBOSUM בקובץ .
עם --מחקר מופעל, כל היישורים ב- חייב להכיל בדיוק אחד
רצף או ה --שִׂיחָה יש להפעיל גם את האפשרות. כל העמדות בכל רצף
ייחשבו "עמודות" בקונצנזוס. למעשה, ציוני הפליטה עבור אלה
מודלים לא יהיו זהים לציוני RIBOSUM עקב הבדלים בדוגמנות
האסטרטגיה בין Infernal ל-RSEARCH, אבל הם יהיו דומים ככל האפשר.
קבצי מטריצות RIBOSUM כלולים עם Infernal בספריית המשנה "matrices/" של
ספריית "infernal-xxx" ברמה העליונה. מטריצות RIBOSUM הן ציון החלפה
מטריצות שהוכשרו במיוחד עבור RNAs מבניים עם גדילים בודדים נפרדים
ציוני החלפת שאריות וזוג בסיסים. למידע נוסף עיין ב-RSEARCH
פרסום (Klein and Eddy, BMC Bioinformatics 4:44, 2003).
אחר דגם בְּנִיָה אפשרויות
--ריק
קרא מודל ריק מ . מודל האפס מגדיר את ההסתברות של כל RNA
נוקלאוטיד ברצף רקע, ברירת המחדל היא להשתמש ב-0.25 עבור כל נוקלאוטיד.
הפורמט של קבצי null מצוין במדריך למשתמש.
--קוֹדֵם
קרא Dirichlet לפני מ , החלפת תערובת ברירת המחדל Dirichlet. ה
פורמט של קבצים קודמים מצוין במדריך למשתמש.
השתמש --devhelp כדי לראות אפשרויות נוספות לבניית מודלים, שלא מתועדים אחרת.
אפשרויות שליטה קרוב משפחה משקולות
cmbuild משתמש באלגוריתם שקלול של רצף אד-הוק להורדת משקל בקשר הדוק
רצפים ובעלי משקל קשורים רחוקים. יש לכך השפעה של הפיכת דגמים לפחות
מוטה על ידי ייצוג פילוגנטי לא אחיד. לדוגמה, שני רצפים זהים יעשו זאת
בדרך כלל כל אחד מקבל חצי מהמשקל שרצף אחד יקבל. אפשרויות אלה שולטות
באיזה אלגוריתם משתמשים.
--wpb השתמש בסכימת שקלול הרצף המבוססת על מיקום הניקוף [הניקוף והניקוף,
י.מול. ביול. 243:574, 1994]. זוהי ברירת המחדל.
--wgsc השתמש באלגוריתם השקלול של Gerstein/Sonnhammer/Chothia [Gerstein et al, J. Mol.
ביול. 235:1067, 1994].
--ללא
כבה את שקלול הרצף; למשל, הגדר במפורש את כל משקלי הרצף ל-1.0.
-- נתון
השתמש במשקלי רצף כפי שמופיעים בהערה בקובץ יישור הקלט. אם לא
ניתנו משקלים, נניח שכולם 1.0. ברירת המחדל היא לקבוע חדש
משקלי רצף על ידי אלגוריתם Gerstein/Sonnehammer/Chothia, תוך התעלמות מכל
משקולות מוערות.
--wblosum
השתמש באלגוריתם הסינון BLOSUM כדי לשקלל את הרצפים, במקום ברירת המחדל
שקלול GSC. אשכול את הרצפים באחוז זהות נתון (ראה --wid);
להקצות לכל אשכול משקל כולל של 1.0, המחולק באופן שווה בין החברים
של אותו אשכול.
--wid
שולט בהתנהגות של --wblosum אפשרות שקלול על ידי הגדרת האחוז
זהות לאיסוף ההתאמה ל .
אפשרויות שליטה אפקטיבי סדר פעולות מספר
לאחר קביעת משקלים יחסיים, הם מנורמלים לסיכום סה"כ אפקטיבי
מספר רצף, eff_nseq. מספר זה עשוי להיות המספר האמיתי של רצפים ב-
יישור, אבל הוא כמעט תמיד קטן מזה. ברירת המחדל של שקלול האנטרופיה
שיטה (--eent) מקטין את מספר הרצף האפקטיבי כדי לצמצם את תוכן המידע
(אנטרופיה יחסית, או ציון ממוצע צפוי בהומולוגים אמיתיים) לפי עמדת קונצנזוס. ה
האנטרופיה היחסית של המטרה נשלטת על ידי פונקציה של שני פרמטרים, כאשר השניים
פרמטרים ניתנים להגדרה עם --הנה ו --אסיגמה.
--eent השתמש באסטרטגיית שקלול האנטרופיה כדי לקבוע את מספר הרצף האפקטיבי
נותן אנטרופיה יחסית של מצב התאמה ממוצע של יעד. אפשרות זו היא ברירת המחדל, ו
ניתן לכבות עם --enone. יעד ברירת המחדל ממוצע מצב התאמה יחסית
האנטרופיה היא 0.59 סיביות עבור דגמים עם זוג בסיסי אחד לפחות ו-1 סיביות עבור דגמים
עם אפס זוגות בסיס, אבל השתנו עם --הנה. ברירת המחדל של 0.59 או 0.38 סיביות היא
השתנה אוטומטית אם האנטרופיה היחסית הכוללת של המודל (התאמה מסוכמת
האנטרופיה היחסית של מצב) הוא פחות מ-cutoff, שהוא 6.0 סיביות כברירת מחדל, אבל
ניתן לשנות עם המומחה, ללא תיעוד --לְשֶׁעָבַר אוֹפְּצִיָה. אם אתה באמת רוצה
שחק עם האפשרות הזו, עיין בקוד המקור.
--enone
כבה את אסטרטגיית שקלול האנטרופיה. מספר הרצף האפקטיבי הוא רק ה
מספר רצפים ביישור.
--הנה
הגדר את האנטרופיה היחסית של מצב התאמה ממוצע היעד כ . כברירת מחדל היעד
האנטרופיה היחסית לכל מיקום התאמה היא 0.59 סיביות עבור דגמים עם לפחות 1
זוג בסיס ו-0.38 עבור דגמים עם אפס צמדי בסיס.
--eminseq
הגדר את מספר הרצף האפקטיבי המינימלי המותר כ .
--הממר
הגדר את האנטרופיה היחסית של היעד HMM ממוצע מצב התאמה כ . אנטרופיה עבור
מצבי התאמה של צמדי בסיס מחושב באמצעות פליטת זוג בסיס שולית
הסתברויות.
--eset
הגדר את מספר הרצף האפקטיבי עבור שקלול אנטרופיה כ .
אפשרויות שליטה סנן P7 HMM בְּנִיָה
עבור כל CM זה cmbuild בונה, מסנן נלווה p7 HMM בנוי מהקלט
יישור גם כן. אפשרויות אלה שולטות בבניית מסנן HMM:
--p7ere
הגדר את האנטרופיה היחסית של מצב התאמה ממוצע היעד עבור המסנן p7 HMM כ . By
ברירת המחדל האנטרופיה היחסית של היעד לכל מיקום התאמה היא 0.38 סיביות.
--p7ml השתמש בסבירות מקסימלית p7 HMM שנבנה מה-CM כמסנן HMM. HMM זה יהיה
להיות דומה ככל האפשר ל-CM (בעוד בהכרח בורים לגבי משני
מִבְנֶה).
השתמש --devhelp כדי לראות אפשרויות בנייה נוספות של HMM, שלא מתועדות אחרת.
אפשרויות שליטה סנן P7 HMM כִּיוּל
לאחר בניית כל מסנן HMM, cmbuild קובע פרמטרים מתאימים של E-value לשימוש
במהלך הסינון פנימה cmsearch ו cmscan על ידי דגימת סט של רצפים וחיפוש אחריהם
עם כל תצורת מסנן ואלגוריתם של HMM.
--EmN הגדר את מספר הרצפים שנדגמו עבור כיול HMM מקומי של מסנן MSV ל .
200 כברירת מחדל.
--EvN הגדר את מספר הרצפים שנדגמו עבור כיול HMM מקומי של מסנן Viterbi ל
. 200 כברירת מחדל.
--ElfN הגדר את מספר הרצפים שנדגמו עבור כיול מקומי Forward filter HMM ל
. 200 כברירת מחדל.
--EgfN הגדר את מספר הרצפים שנדגמו עבור כיול גלוקלי Forward Filter HMM
ל . 200 כברירת מחדל.
השתמש --devhelp כדי לראות אפשרויות כיול HMM נוספות, שאינן מתועדות אחרת.
אפשרויות עבור מחזור LA קלט יישור
--לעדן
נסה לחדד את היישור לפני בניית ה-CM באמצעות ציפייה-
מקסום (EM). CM נבנה לראשונה מהיישור הראשוני כרגיל. לאחר מכן,
הרצפים ביישור מיושרים מחדש בצורה אופטימלית (עם CYK עם פס HMM
אלגוריתם, אופטימלי פירושו אופטימלי בהתחשב ברצועות) ל-CM, ונבנה CM חדש
מהיישור שנוצר. לאחר מכן הרצפים מיושרים מחדש ל-CM החדש, וא
CM חדש בנוי מהיישור הזה. זה נמשך עד להתכנסות,
במיוחד כאשר היישורים עבור שתי איטרציות עוקבות אינן
שונה באופן משמעותי (ציוני הסיביות המסוכמים של כל הרצפים ב-
שינויי יישור של פחות מ-1% בין שתי איטרציות עוקבות). הגמר
alignment (היישור המשמש לבניית ה-CM שנכתב אליו ) is
כתב לי .
-l עם --לעדן, הפעל את אלגוריתם היישור המקומי, המאפשר את היישור
משתרע על שתי רצפי משנה או יותר במידת הצורך (למשל אם מבני השאילתה
המודל ורצף היעד משותפים רק בחלקם), מה שמאפשר חלק גדול
הוספות ומחיקות במבנה שיש להעניש בצורה שונה מהרגיל
אינדלס. ברירת המחדל היא יישור גלובלי של מודל השאילתה לרצפי היעד.
--גיבס
משנה את ההתנהגות של --לעדן אז נעשה שימוש בדגימת Gibbs במקום EM. ה
ההבדל הוא שבשלב היישור היישור אינו בהכרח
אופטימלי, במקום זאת נדגמת יישור (parsetree) עבור כל רצף מה-
הפצה אחורית של יישורים כפי שנקבע על ידי אלגוריתם Inside. עקב
שלב הדגימה הזה --גיבס הוא לא דטרמיניסטי, ולכן ריצות שונות עם אותו הדבר
יישור עשוי להניב תוצאות שונות. זה לא נכון מתי --לעדן משמש
בלי ה --גיבס אפשרות, ובמקרה זה היישור הסופי ו-CM יהיו תמיד
אותו הדבר. מתי --גיבס מופעלת, ה- --זֶרַע ניתן להשתמש באפשרות לזריעה של
מחולל מספרים אקראיים באופן צפוי, מה שהופך את התוצאות לניתנות לשחזור. המטרה של
מה היא --גיבס האפשרות היא לעזור לאוצרי יישור RNA מומחים לחדד את המבני
יישורים בכך שהם מאפשרים להם לצפות ביישורים חלופיים עם ניקוד גבוה.
--זֶרַע
זרעי את מחולל המספרים האקראיים עם , מספר שלם >= 0. אפשרות זו יכולה רק
לשמש בשילוב עם --גיבס. If אינו אפס, דגימה סטוכסטית של
יישורים יהיו ניתנים לשחזור; אותה פקודה תיתן את אותן תוצאות. אם
הוא 0, מחולל המספרים האקראיים מוזרע באופן שרירותי וסטוכסטי
הדגימות עשויות להשתנות מהפעלה להרצה של אותה פקודה. ברירת המחדל היא 0.
--cyk עם --לעדן, התיישר עם אלגוריתם CYK. כברירת מחדל הדיוק האופטימלי
נעשה שימוש באלגוריתם. יש מידע נוסף על זה ב- cmalign דף ידני.
--notrunc
עם --לעדן, כבה את אלגוריתם היישור הקטוע. יש עוד
מידע על כך ב- cmalign דף ידני.
השתמש --devhelp כדי לראות אפשרויות חידוד יישור נוספות, לא מתועדות אחרת
כמו גם אפשרויות אחרות של קבצי פלט ואפשרויות לבניית דגמים מרובים עבור יחיד
יישור.
השתמש ב-cmbuild באינטרנט באמצעות שירותי onworks.net