daligner - מקוון בענן

זהו הפקודה דaligner שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


daligner - יישור ארוך לקרוא

תַקצִיר


דלייןר [-vbAI][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-eכפול (.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mלעקוב]+ נושא:db|dam target:db|dam ...

תיאור


השווה רצפים בגזוז נושא חסימה נגד אלו שברשימה של יעד אבני
חיפוש אחר יישורים מקומיים הכוללים לפחות -l זוגות בסיסים (ברירת מחדל 1000) או יותר,
שיש להם שיעור מתאם ממוצע של -e (ברירת מחדל 70%). נמצאו היישורים המקומיים
ייצא בקידוד דל שבו נקודת מעקב על היישור מתועדת בכל
-s זוגות בסיס של a-read (ברירת מחדל 100bp). קריאות מושוות הן בכיוון והן
יישורים מקומיים העומדים בקריטריונים מופקים לאחד מכמה קבצים שנוצרו המתוארים
לְהַלָן. ה -v האפשרות מפעילה מצב דיווח מפורט שנותן נתונים סטטיסטיים על כל אחד מהם
השלב העיקרי של החישוב.

האפשרויות -k, -h, ו -w לשלוט בחיפוש הסינון הראשוני אחר התאמות אפשריות
בין הקריאה. באופן ספציפי, קוד החיפוש שלנו מחפש זוג פסי רוחב אלכסוניים
2^w (ברירת מחדל 2^6 = 64) המכילים אוסף של k-mers בהתאמה מדויקת (ברירת מחדל 14)
בין שני הקריאות, כך שהמספר הכולל של הבסיסים המכוסים על ידי פגעי k-mer הוא h
(ברירת מחדל 35). k לא יכול להיות גדול מ-32 ביישום הנוכחי. אם ה -b אוֹפְּצִיָה
מוגדר, ואז ה דלייןר מניח שלנתונים יש הטיית קומפוזיציה חזקה (לדוגמה >65% AT
עשיר), ובעלות של קצת יותר זמן, מתאים באופן דינמי את גדלי k-mer בהתאם
הטיית קומפוזיציה, כך שלמרס בשימוש יש סגוליות אפקטיבית של 4^k.

אם יש רצועת אינטרוולים אחת או יותר שצוינה עם ה -m אפשרות, ואז הקריאה של
ה-DB או ה-DB's שעליהם חלה המסכה הם מסכות רכות עם איחוד המרווחים
מכל מסלולי המרווחים החלים, כלומר כל k-mers שמכילים בסיסים כלשהם בכל אחד מהם
מתעלמים מהמרווחים המסוכים למטרות זריעת גפרור. מסלול אינטרוולים
הוא רצועה, כגון מסלול ה"אבק" שנוצר על ידי DBdust, המקודדת קבוצה של מרווחים
מעל ה-DB הלא גזוז או הגזום.

תמיד, חלק מה-k-mers הם בעלי ייצוג יתר משמעותי (למשל ריצות הומופולימר).
ה-k-mers הללו יוצרים מספר מוגזם של זוגות k-mer תואמים ונותרו ללא מענה
לגרום ל-daligner להציף את הזיכרון הפיזי הזמין. אחת הדרכים להתמודד עם זה היא לעשות
להגדיר במפורש את -t פרמטר שמדכא את השימוש בכל k-mer שמתרחש יותר
מֵאֲשֶׁר t פעמים בנושא או בגוש היעד. עם זאת, דרך טובה יותר להתמודד עם
המצב הוא לתת לתוכנית לבחור אוטומטית ערך של t שעונה על נתון
מגבלת השימוש בזיכרון שצוינה (ב-Gb) על ידי -M פָּרָמֶטֶר. כברירת מחדל דלייןר אשתמש
כמות הזיכרון הפיזי כבחירה עבור -M. אם אתה רוצה להשתמש בפחות, נניח רק 8Gb
על צומת אשכול של 24Gb HPC כי אתה רוצה להפעיל 3 דלייןר משרות על הצומת, אם כן
לפרט -M8. מפרט -M0 בעצם מציין שאתה לא רוצה דלייןר אל עצמי
התאם את דיכוי k-mer כך שיתאים לכמות נתונה של זיכרון.

עבור כל נושא, היעד לזוג בלוקים, נניח X ו-Y, התוכנית מדווחת על יישור היכן
ה-a-read נמצא ב-X וה-b-read הוא ב-Y, ולהיפך. עם זאת, אם ה -A האפשרות היא
מוגדר ("A" עבור "אסימטרי") ואז רק חופף כאשר ה-a-read נמצא ב-X וה-b-read הוא
ב-Y מדווחים, ואם X = Y, אז הוא מדווח רק על החופפות שבהן
אינדקס a-read קטן ממדד b-read. בכל מקרה, אם ה -I האפשרות מוגדרת ("אני"
עבור "זהות") אז כאשר X = Y, חופף בין חלקים שונים של אותה צוואה קריאה
גם להימצא ולדווח.

כל יישור שנמצא מתועד בתור -- a[ab,ae] x bo[bb,be] -- כאשר a ו-b הם
מדדים (ב-DB החתוך) של הקריאות החופפות, o מציין אם הקריאה b היא
מאותו גדיל או הפוך, ו-[ab,ae] ו-[bb,be] הם המרווחים של a ו-bo,
בהתאמה, שמתיישרים. התוכנית ממקמת את רשומות היישור הללו בקבצים ששמם
הוא בצורת XY[C|N]#.las כאשר C מציין שה-b-reads משלימים ו-N
מציין שהם לא (שתי ההשוואות מתבצעות) ו-# הוא השרשור שזיהה
וכתב את אוסף היישורים הכלולים בקובץ. זה הקובץ
XYO#.las מכיל את היישורים המיוצרים על ידי thread # שעבורו ה-a-read הוא מ-X ו
ה-b-read הוא מ-Y ובכיוון O. הפקודה דלייןר -A X Y מייצר 2*NTHREAD
קבצי שרשור XY?.las ו דלייןר X Y מייצר 4*NTHREAD קבצי XY?.las ו-YX?.las
(אֶלָא אִם X=Y במקרה זה רק קובצי NTHREAD, XX?.las, מופקים).

כברירת מחדל, דלייןר משווה את כל החפיפות בין קריאות במסד הנתונים הגדולות יותר
מהחתך המינימלי שנקבע כאשר ה-DB או DBs פוצלו, בדרך כלל 1 או 2 Kbp. למרות זאת,
צינור ההרכבה של HGAP רוצה רק לתקן קריאות גדולות, למשל 8Kbp או יותר, וכך
צריך רק את החפיפות שבהן ה-a-read הוא אחד מהקריאות הגדולות. על ידי הגדרת ה -H
פרמטר לומר N, אחד משנה דלייןר כך שהוא רק מדווח על חפיפה במקום שבו ה-a-read
באורך של מעל N זוגות-בסיס.

בעוד שהגדרות פרמטר ברירת המחדל טובות לנתוני Pacbio גולמיים, דלייןר ניתן להשתמש בו
למציאת יישור יעיל בקריאה מתוקנת או קריאות אחרות פחות רועשות. ל
לדוגמה, עבור מיפוי יישומים כנגד ‎.dams, אנו מפעילים

דלייןר -k20 -h60 -e. 85

ובקריאות מתוקנות, אנחנו בדרך כלל רצים

דלייןר -k25 -w5 -h60 -e. 95 -s500

ובהגדרות האלה זה מאוד מהיר.

השתמש ב-daligner באינטרנט באמצעות שירותי onworks.net



התוכניות המקוונות האחרונות של לינוקס ו-Windows