maq - אונליין בענן

זוהי פקודה מסוג maq שניתן להריץ בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות החינמיות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS.

תָכְנִית:

שֵׁם


Maq - מיפוי והרכבה עם איכויות

תַקצִיר


אבל ש הפקודה [אפשרויות] טיעונים

maq.pl הפקודה [אפשרויות] טיעונים

תיאור


Maq היא תוכנה שבונה מכלולי מיפוי מקריאות קצרות שנוצרו על ידי ה- next-
מכונות ריצוף דור. הן תוכננו במיוחד עבור Illumina-Solexa 1G Genetic
מנתח, ויש לו פונקציונליות ראשונית לטיפול בנתוני AB SOLiD.

עם Maq תוכלו:

· יישור מהיר של קריאות Illumina/SOLiD לגנום הייחוס. עם אפשרויות ברירת המחדל, אחת
ניתן למפות מיליון זוגות של קריאות לגנום האנושי בכ-10 שעות CPU עם פחות
מאשר זיכרון של 1G.

· למדוד במדויק את הסתברות השגיאה של היישור של כל קריאה בנפרד.

· נקרא לגנוטיפים הקונצנזוסיים, כולל פולימורפיזמים הומוזיגוטיים והטרוזיגוטיים, עם
איכות הסתברותית פרד שהוקצתה לכל בסיס.

· מצא אינדלים קצרים עם קריאות קצה מזווגות.

· מציאת מחיקות וטרנסלוקציות גנומיות בקנה מידה גדול במדויק באמצעות קריאות קצה מזווגות.

· גלה CNV פוטנציאליים על ידי בדיקת עומק הקריאה.

· להעריך את דיוק איכויות הבסיס הגולמי מרצפים ולסייע בבדיקת
שגיאות שיטתיות.

עם זאת, מק יכול לא:

· לעשות de חדש אסמבלי. (Maq יכול לקרוא לקונצנזוס רק על ידי מיפוי קריאות לקובץ ידוע
הַפנָיָה.)

· קיצורי מפה (Maq) קוראים כנגד עצמם. (Maq יכול למצוא חפיפה מלאה רק בין קריאות.)

· יישר קריאות קפילריות או קריאות 454 לקו הייחוס. (Maq אינו יכול ליישר קריאות ארוכות יותר מ
63 נקודות בסיס.)

מאק פקודות


מפתח פקודות

fasta2bfa אבל ש fasta2bfa in.ref.fasta out.ref.bfa

המרת רצפים בפורמט FASTA לפורמט BFA (FASTA בינארי) של Maq.

fastq2bfq אבל ש fastq2bfq [-n nreads] in.read.fastq out.read.bfqקידומת out

המרת קריאות בפורמט FASTQ לפורמט BFQ (FASTQ בינארי) של Maq.

אפשרויות:

-n INT מספר קריאות לכל קובץ [לא צוין]

מַפָּה אבל ש מַפָּה [-n nm] [-a מקסינס] [-c] [-1 len1] [-2 len2] [-d אדאפ3] [-m מוטציה]
[-u לא ממופה] [-ה maxerr] [-M ג'ג] [-N] [-H כל הלהיטים] [-C maxhits] out.aln.map
in.ref.bfa in.read1.bfq [in.read2.bfq] 2> out.map.log

קריאות מפה לרצפי הייחוס.

אפשרויות:

-n INT מספר אי-ההתאמות המקסימליות שניתן למצוא תמיד [2]

-a INT מרחק חיצוני מקסימלי עבור זוג קריאה נכון [250]

-A INT מרחק חיצוני מקסימלי של שתי קריאות RF (0 עבור השבתה) [0]

-c קריאות מפה במרחב הצבעים (עבור SOLiD בלבד)

-1 INT אורך קריאה לקריאה הראשונה, 0 לקריאה אוטומטית [0]

-2 INT אורך קריאה לקריאה השנייה, 0 לקריאה אוטומטית [0]

-m לצוף קצב מוטציה בין רצפי הייחוס לקריאות [0.001]

-d קובץ ציין קובץ המכיל שורה אחת של רצף מתאם 3'
[ריק]

-u קובץ dump קריאות לא ממופות וקריאות המכילות יותר מ nm אי התאמות ל
קובץ נפרד [ריק]

-e INT סף על סכום איכויות הבסיס שאינן תואמות [70]

-H קובץ dump מספר/כל התאמות 01-אי-התאמה אל קובץ [ריק]

-C INT מספר מקסימלי של פגיעות לפלט. בלתי מוגבל אם גדול מ-512. [250]

-M מצב יישור מתילציה של c⎪g. כל ה-C (או ה-G) על הגדיל הקדמי יהיו
שונה ל-T (או A). אפשרות זו מיועדת לבדיקה בלבד.

-N שמור את מיקום אי-ההתאמה בקובץ הפלט out.aln.map. כשזה
כאשר האפשרות נמצאת בשימוש, אורך הקריאה המרבי המותר הוא 55bps.

הערה:

* יש להכין קריאות קצה מזווגות בשני קבצים, אחד לכל קצה, עם
הקריאות ממוינות באותו סדר. משמעות הדבר היא שהקריאה ה-k בקריאה הראשונה
הקובץ משויך לקריאה ה-k בקובץ השני. הקריאה המתאימה
שמות חייבים להיות זהים עד לסימן `/1' או `/2' העוקב. לדוגמה, כזה
זוג שמות קריאה מותר: `EAS1_1_5_100_200/1' ו-
`EAS1_1_5_100_200/2'. הזנב `/[12]' נוצר בדרך כלל על ידי
GAPipeline כדי להבחין בין שני הקצוות בזוג.

* הפלט הוא קובץ בינארי דחוס. הוא מושפע מרמת האנדיאניזם.

* הדרך הטובה ביותר להפעיל פקודה זו היא לספק כ-1 עד 3 מיליון קריאות כ-
קלט. קריאות נוספות צורכות יותר זיכרון.

* אפשרות -n שולט ברגישות היישור. כברירת מחדל, פגיעה עם
תמיד ניתן למצוא עד 2 אי התאמות. גבוה יותר -n מוצא עוד תוצאות וגם
משפר את דיוק איכויות המיפוי. עם זאת, הדבר נעשה במחיר
של מהירות.

* יש לזרוק יישורים עם הרבה אי התאמות באיכות גבוהה כשקריים
יישורים או זיהומים אפשריים. התנהגות זו נשלטת על ידי אפשרות
-e. ה -e הסף מחושב רק בקירוב מכיוון שאיכויות הבסיס
מחולקים ב-10 בשלב מסוים של היישור. ה- -Q אפשרות ב
להרכיב הפקודה קבעה במדויק את הסף.

* זוג קריאות נחשב לזווג נכון אם ורק אם
האוריינטציה היא FR והמרחק החיצוני של הזוג אינו גדול מ
מקסינסאין הגבלה על גודל התוספת המינימלי. הגדרה זו היא
נקבע על ידי אלגוריתם יישור הקצוות המזווג המשמש ב-Maq. דורש א
גודל התוספת המינימלי יוביל ליישורים שגויים עם תוצאות גבוהות
הערכת יתר של איכויות המיפוי.

* נכון לעכשיו, זוגות קריאה מספריית הוספות ארוכות של Illumina/Solexa כוללים קריאה בתדר רדיו
כיוון. גודל ההכנסה המרבי נקבע על ידי אפשרות -Aעם זאת, ארוך-
ספריית הוספה מעורבבת גם עם חלק קטן של קריאה קצרה של הוספה
זוגות. -a צריך להיות מוגדר גם נכון.

לפעמים ניתן לרצף את רצף הקצה ה-5' או אפילו את כל רצף המתאם ה-3'.
מתן -d מעבד את Maq כדי לחסל את זיהומי המתאם.

* בהינתן 2 מיליון קריאות כקלט, אבל ש בדרך כלל דורש 800MB זיכרון.

מיזוג מפות אבל ש מיזוג מפות out.aln.map in.aln1.map in.aln2.map [...]

מיזוג קבוצה של יישורי קריאה יחד.

הערה:

* בתיאוריה, פקודה זו יכולה למזג מספר בלתי מוגבל של יישורים. עם זאת, מכיוון
mapmerge יקרא את כל הקלטים בו זמנית, ייתכן שהוא יפגע ב-
מגבלת מספר הקבצים המרבי שנפתח על ידי מערכת ההפעלה. נכון לעכשיו, זה
צריך להיפתר ידנית על ידי משתמשי הקצה.

* פקודה מיזוג מפות ניתן להשתמש בו כדי למזג קבצי יישור עם קבצי קריאה שונים
אורכים. כל הניתוחים הבאים אינם מניחים עוד אורך קבוע.

rmdup אבל ש rmdup out.rmdup.map in.ori.map

הסירו זוגות עם קואורדינטות חיצוניות זהות. באופן עקרוני, זוגות עם
קואורדינטות חיצוניות זהות אמורות להתרחש לעיתים רחוקות. עם זאת, בשל
הגברה בהכנת דגימה, זה קורה בתדירות גבוהה הרבה יותר מאשר על ידי
סיכוי. ניתוחים מעשיים מראים כי הסרת כפילויות מסייעת בשיפור
דיוק כולל של קריאת SNP.

להרכיב אבל ש להרכיב [-sp] [-m מקסים] [-Q maxerr] [-r הטרט] [-t קוף] [-q מיני-קיו] [-N
nHap] out.cns in.ref.bfa in.aln.map 2> out.cns.log

קרא לרצפי הקונצנזוס ממיפוי הקריאה.

אפשרויות:

-t לצוף מקדם תלות שגיאה [0.93]

-r לצוף חלק של הטרוזיגוטים בין כל האתרים [0.001]

-s קח את איכות המיפוי של הקצה היחיד כאיכות המיפוי הסופית;
אחרת ייעשה שימוש באיכות מיפוי קצה מזווג

-p בזקיקת קריאות קצה מזווגות שאינן ממופות בזוגות נכונים

-m INT מספר אי-התאמות מרבי המותר לשימוש בקריאה ב
קריאה לקונצנזוס [7]

-Q INT סכום מקסימלי מותר של ערכי איכות של בסיסים לא תואמים [60]

-q INT איכות מיפוי מינימלית שאפשרה שימוש בקריאה בקונצנזוס
קריאה [0]

-N INT מספר ההפלוטיפים במאגר (>=2) [2]

הערה:

* אפשרות -Q קובע מגבלה על הסכום המקסימלי של איכויות בסיס שאינן תואמות.
יש להשליך קריאות המכילות אי-התאמות רבות באיכות גבוהה.

* אפשרות -N קובע את מספר ההפלוטיפים במאגר. הוא מיועד עבור
ריצוף מחדש של דגימות על ידי איגום מספר זנים/פרטים יחד. עבור
ריצוף מחדש של גנום דיפלואידי, אפשרות זו שווה 2.

גלףגן אבל ש גלףגן [-sp] [-m מקסים] [-Q maxerr] [-r הטרט] [-t קוף] [-q מיני-קיו] [-N
nHap] out.cns in.ref.bfa in.aln.map 2> out.cns.log

חשב את הסבירות הלוגריתמית עבור כל הגנוטיפים ושמור את התוצאות בפורמט GLF
(פורמט סבירות גנוטיפינג). אנא בדקו באתר האינטרנט של MAQ לקבלת פרטים נוספים
תיאורים של פורמט הקובץ והכלי העזר הנלווים.

indelpe אבל ש indelpe in.ref.bfa in.aln.map > החוצה. ללא עלות

קריאה ל-indels עקביים מקריאות קצה מזווגות. הפלט מופרד באמצעות TAB
כל שורה המורכבת מכרומוזום, מיקום התחלה, סוג ה-indel, מספר
של קריאות על פני האינדל, גודל האינדל ונוקלאוטידים שהוכנסו/מחקו
(מופרדים על ידי נקודתיים), מספר אינדלים על הגדיל ההפוך, מספר אינדלים
על הגדיל הקדמי, רצף 5' לפני האינדל, רצף 3' אחריו
ה-indel, מספר הקריאות המיושרות ללא indels ושלוש עמודות נוספות
עבור מסננים.

בעמודה השלישית, סוג ה-indel, כוכב מציין שה-indel אושר.
על ידי קריאות משני הגדילים, סימן פלוס פירושו שה-indel נפגע על ידי לפחות שתי קריאות
אבל מאותו גדיל, סימן מינוס מראה שהאינדל נמצא רק בקריאה אחת,
ונקודה פירושה שהאינדל קרוב מדי לאינדל אחר ומסונן החוצה.

מומלץ למשתמשים לעבור דרך `maq.pl indelpe' כדי לתקן את מספר ה-
קריאות ממופות ללא אינדלים. לפרטים נוספים, עיינו ב-`maq.pl indelpe'
סָעִיף.

אינדלסואה אבל ש אינדלסואה in.ref.bfa in.aln.map > החוצה.אינדלסואה

קרא אינדלים הומוזיגוטיים פוטנציאליים ונקודות שבירה על ידי זיהוי החריגות
תבנית יישור סביב נקודות אינדל ונקודות שבירה. הפלט הוא גם TAB
מופרד על ידי כל שורה המורכבת מכרומוזום, קואורדינטה מקורבת,
אורך האזור החריג, מספר הקריאות הממופות על פני המיקום,
מספר הקריאות בצד שמאל של המיקום ומספר הקריאות ב
צד ימין. ניתן להתעלם מהעמודה האחרונה.

הפלט מכיל תוצאות חיוביות שגויות רבות. מסנן מומלץ יכול להיות:

מוזר '$5+$6-$4 >= 3 && $4 <= 1' in.indelsoa

שימו לב שפקודה זו אינה שואפת להיות גלאי אינדל מדויק, אלא
בעיקר עוזר להימנע מכמה תוצאות חיוביות שגויות בקריאות החלפה.
בנוסף, זה עובד טוב רק בעומק עמוק (~40X לדוגמה); אחרת ה-
שיעור התוצאות השליליות השגויות יהיה גבוה מאוד.

פוּרמָט המרה

סול2סאנגר אבל ש סול2סאנגר in.sol.fastq out.sanger.fastq

המרת Solexa FASTQ לפורמט סטנדרטי/סאנגר FASTQ.

bfq2fastq אבל ש bfq2fastq in.read.bfq out.read.fastq

המר את פורמט BFQ של Maq לפורמט FASTQ סטנדרטי.

מפה למאקס אבל ש מפה למאקס in.mapass2.map out.maq.map

המרת פורמט מפה מיושן של mapass2 לפורמט מפה של Maq. הפורמט הישן כן
לא מכיל שמות קריאה.

מֵידָע מחלץ

תצוגת מפה אבל ש תצוגת מפה [-bN] in.aln.map > out.aln.txt

הצג את יישור הקריאה בטקסט רגיל. עבור קריאות המיושרות לפני סמית'-
יישור ווטרמן, כל שורה מורכבת משם קריאה, כרומוזום, מיקום,
גדיל, גודל הכנס מהקואורדינטות החיצוניות של זוג, דגל מזווג, מיפוי
איכות, איכות מיפוי חד-צדדית, איכות מיפוי חלופית, מספר
אי-התאמות של הפגיעה הטובה ביותר, סכום התכונות של בסיסים לא תואמים של הטובים ביותר
פגיעה, מספר פגיעות עם 0 אי התאמה של 24 נקודות בסיס ראשונות, מספר פגיעות עם אי התאמה אחת של
24 הבסיסים הראשונים על ההפניה, אורך הקריאה, רצף הקריאה והתוצאה שלו
איכות. איכות מיפוי חלופית תמיד שווה לאיכות מיפוי אם ה-
הקריאות אינן מזווגות. אם הקריאות מזווגות, זה שווה למיפוי הקטן יותר
איכות שני הקצוות. איכות המיפוי החלופית הזו היא למעשה ה-
איכות המיפוי של זוג לא תקין.

העמודה החמישית, דגל זוגי, היא דגל סיביות. 4 הביטים התחתונים שלה נותנים את
אוריינטציה: 1 מייצג FF, 2 עבור FR, 4 עבור RF, ו-8 עבור RR, כאשר FR מייצג
שהקריאה עם הקואורדינטה הקטנה יותר נמצאת על הגדיל הקדמי, והזוג שלה הוא
על הגדיל ההפוך. רק FR מותר לזוג נכון. הביטים הגבוהים יותר
של דגל זה תן מידע נוסף. אם הזוג פוגש את הקצה הזוגי
דרישה, 16 יוגדרו. אם שתי הקריאות ממופות למקומות שונים
כרומוזומים, 32 ייקבעו. אם אחת משתי הקריאות לא ניתנת למפות כלל,
64 יוגדר. הדגל עבור זוג נכון תמיד שווה ל-18.

עבור קריאות המיושרות על ידי יישור סמית'-ווטרמן לאחר מכן, הדגל הוא
תמיד 130. שורה מורכבת משם קריאה, כרומוזום, מיקום, גדיל, תוספת
גודל, דגל (תמיד 130), מיקום ה-indel בקריאה (0 אם אין indel),
אורך ה-indels (חיובי להכנסות ושלילי למחיקות),
איכות המיפוי של בן זוגו, מספר אי-ההתאמות של הפגיעה הטובה ביותר, סכום של
תכונות של בסיסים לא תואמים של הפגיעה הטובה ביותר, שני אפסים, אורך הקריאה,
רצף הקריאה ואיכותו. בן/בת הזוג של קריאה עם 130 דגלים תמיד מקבל/ת
דגל 18.

דגל 192 מציין שהקריאה אינה ממופה אך בן זוגה ממופה. עבור קריאה כזו
זוג קריאה, לקריאה אחת יש דגל 64 ולשנייה יש 192.

אפשרויות:

-b אל תציגו את רצף הקריאה ואת האיכות

-N להציג את המיקומים שבהם מתרחשות אי התאמות. דגל זה פועל רק
עם קובץ .map שנוצר על ידי `maq map -N'.

בדיקת מפה אבל ש בדיקת מפה [-s] [-m מקסים] [-q מיני-קיו] in.ref.bfa in.aln.map > בדיקת מפה

בדיקת איכות הקריאה. בדיקת המפה מדווחת תחילה על ההרכב והעומק של
ההפניה. לאחר מכן יש טופס. העמודה הראשונה מציינת את
מיקום בקריאה. לאחר ארבע עמודות המציגות את הנוקלאוטיד
הרכב, שיעורי החלפה בין ההתייחסות לקריאות יינתנו.
שיעורים אלה והמספרים בעמודות הבאות מותאמים ל-999 ו-
מעוגל למספר השלם הקרוב ביותר. קבוצת העמודות הבאה מציגה את ההתפלגות של
איכויות בסיס לאורך הקריאות במרווח איכות של 10. דעיכה באיכות
בדרך כלל ניתן לצפות בו, מה שאומר שבסיסים בסוף הקריאה פחותים
מדויק. קבוצת העמודות האחרונה מציגה את חלק ההחלפות עבור
קריאת בסיסים במרווחי איכות. זה מודד את דיוק איכות הבסיס
הערכה. באופן אידיאלי, אנו מצפים לראות 1 בעמודה 3?, 10 בעמודה 2?
ו-100 בעמודה 1?

אפשרויות:

-s קח את איכות המיפוי של הקצה היחיד כאיכות המיפוי הסופית

-m INT מספר המקסימלי של אי-התאמה המותרת לספירת קריאה [4]

-q INT איכות מיפוי מינימלית המותרת לספירת קריאה [30]

ערימה אבל ש ערימה [-spvP] [-m מקסים] [-Q maxerr] [-q מיני-קיו] [-l קובץ site] in.ref.bfa
in.aln.map > יציאה.pileup

הצג את היישור בפורמט טקסט `pileup`. כל שורה מורכבת מ
כרומוזום, מיקום, בסיס ייחוס, עומק והבסיסים בקריאות המכסות
עמדה זו. אם -v נוסף בשורת הפקודה, איכויות בסיס ומיפוי
התכונות יוצגו בעמודות השישית והשביעית לפי הסדר.

העמודה החמישית תמיד מתחילה ב-`@`. בעמודה זו, בסיסי קריאת הבסיסים זהים
להפניה מוצגים בפסיק `,' או בנקודה `.', וקוראים בסיסים שונים
מההפניה באותיות. פסיק או אות גדולה מציינים שהבסיס
מגיע מקריאה המיושרת על הגדיל הקדמי, בעוד שנקודה או אותיות קטנות על
הגדיל ההפוך.

פקודה זו מיועדת למשתמשים שרוצים לפתח קוראים משלהם ל-SNP.

אפשרויות:

-s קח את איכות המיפוי של הקצה היחיד כאיכות המיפוי הסופית

-p מחק קריאות קצה מזווגות שאינן ממופות כזוגות נכונים

-v פלט מידע מפורט כולל איכויות בסיס ומיפוי
תכונות

-m INT מספר אי-התאמות מרבי המותר לשימוש בקריאה [7]

-Q INT מספר ערכי האיכות המרבי המותר של אי-התאמות [60]

-q INT איכות מיפוי מינימלית המותרת לשימוש בקריאה [0]

-l קובץ קובץ המכיל את האתרים שבהם יודפס הפילאפ. בקובץ זה
קובץ העמודה הראשונה מציגה את שמות ההפניות והשנייה
הקואורדינטות. עמודות נוספות יתעלמו. [null]

-P גם פלט את מיקום הבסיס בקריאה

cns2fq אבל ש cns2fq [-Q minMapQ] [-n minNeiQ] [-d עומק מינימלי] [-D עומק מקסימלי] in.cns >
out.cns.fastq

חילצו את רצפי הקונצנזוס בפורמט FASTQ. בקווי הרצף, הבסיסים
באותיות קטנות הן למעשה חוזרות או שאין להן כיסוי מספיק; בסיסים
באותיות גדולות מציינות אזורים שבהם ניתן לכנות באופן אמין SNPs.
שורות איכותיות, ASCII של תו מינוס 33 נותן את איכות PHRED.

אפשרויות:

-Q INT איכות מיפוי מינימלית [40]

-d INT עומק קריאה מינימלי [3]

-n INT איכות מינימלית של שכנות [20]

-D INT עומק קריאה מקסימלי >=255 ללא הגבלה. [255]

cns2snp אבל ש cns2snp in.cns > out.snp

חילוץ אתרי SNP. כל שורה מורכבת מכרומוזום, מיקום, בסיס ייחוס,
בסיס קונצנזוס, איכות קונצנזוס דמוית Phred, עומק קריאה, המספר הממוצע של
תוצאות של קריאות המכסות מיקום זה, איכות המיפוי הגבוהה ביותר של הקריאות
מכסה את הפוזיציה, איכות הקונצנזוס המינימלית באגף 3bp
אזורים בכל צד של האתר (6 נקודות בסיס בסך הכל), הקריאה השנייה הטובה ביותר, יומן
יחס הסבירות של השיחה השנייה בטיבה והשלישית בטיבה, והשלישית בטיבה
שיחה.

העמודה החמישית היא הקריטריון המרכזי בעת שופטת את מהימנותו של SNP.
עם זאת, מכיוון שאיכות זו מחושבת רק בהנחה של עצמאות האתר, אתה
כדאי לשקול גם עמודות אחרות כדי לקבל קריאות SNP מדויקות יותר.
פקודה `maq.pl מסנן SNP' מיועד לכך (ראה להלן).

העמודה השביעית מרמזת האם האתר נמצא באזור חוזר. אם לא
ניתן למפות את הקריאה המכסה את האתר באיכות מיפוי גבוהה, האגפים
ייתכן שהאזור חוזר על עצמו או שאין בו קריאות טובות. SNP באתר כזה
בדרך כלל אינו אמין.

העמודה השמינית מציגה בערך את מספר העותקים של האזור האגפי ב-
גנום הייחוס. ברוב המקרים, מספר זה מתקרב ל-1.00, מה שאומר ש-
האזור הוא ייחודי בערך. לפעמים ייתכן שתראו עומק קריאה שאינו אפס אבל 0.00 ב
העמודה השביעית. זה מצביע על כך שכל הקריאות המכסות את המיקום נמצאות ב-
לפחות שתי אי-התאמות. Maq סופר רק את מספר ההתאמות של 0 ו-1 כדי
ההפניה. הסיבה לכך היא בעיה טכנית מורכבת.

העמודה התשיעית מציגה את האיכות השכנה. סינון על עמודה זו מתבצע גם כן
נדרש כדי לקבל SNPs אמינים. רעיון זה נוצר בהשראת NQS, למרות ש-NQS הוא
תוכנן בתחילה לקריאה אחת במקום לקונצנזוס.

cns2view אבל ש cns2view in.cns > נוף החוצה

הצג מידע מפורט בכל האתרים. פורמט הפלט זהה ל-
cns2snp לדווח.

cns2ref אבל ש cns2ref in.cns > out.ref.fasta

חלץ את רצף ההפניה.

cns2win אבל ש cns2win [-w גודל הניצחון] [-c chr] [-b להתחיל] [-e סוף] [-q מיני-קיו] in.cns >
לנצח

חילוץ מידע בממוצע בחלון עיבוד נתונים. הפלט מופרד באמצעות טאב,
אשר מורכב משם הייחוס, קואורדינטה מחולקת ב-1,000,000, קצב SNP,
קצב חום, עומק קריאה גולמי, עומק קריאה באזורים ייחודיים בקירוב, ה-
מספר ממוצע של תוצאות קריאות בחלון ואחוז GC.

אפשרויות:

-w INT גודל של חלון [1000]

-c STR רצף ייעודי של הפניות; אחרת כל ההפניות ייעשה בהן שימוש
[ריק]

-b INT מיקום התחלה, 0 ללא אילוץ [0]

-e INT מיקום קצה, 0 ללא אילוץ [0]

-q INT איכות מינימלית של קונצנזוס האתרים בהם יש להשתמש [0]

הדמיה מוצרים מקושרים

מזויף אבל ש מזויף [-r מוטציה] [-R אינדלפראק] in.ref.fasta > out.fakeref.fasta 2>
out.fake.snp

הכניסו באופן אקראי החלפות ו-indels להפניה. החלפות ו
ניתן להוסיף אינדלים של זוג בסיסים בודדים.

אפשרויות:

-r לצוף שיעור מוטציות [0.001]

-R לצוף חלק מהמוטציות שיהיו אינדלים [0.1]

סימוטריין אבל ש סימוטריין out.simupars.dat in.read.fastq

הערכה/אימון פרמטרים עבור סימולציית קריאה.

לדמות אבל ש לדמות [-d גודל פנימי] [-s stdev] [-N nReads] [-1 קרא לן1] [-2 קרא לן2] [-r
mutRate] [-R indelFrac] [-h] out.read1.fastq out.read2.fastq in.ref.fasta
in.simupars.dat

סימולציה של קריאות קצה מזווגות. קובץ in.simupars.dat קובע את אורכי הקריאה ו
הפצה איכותית. היא נוצרת מ סימוטריין, או שניתן להוריד אותו מ
אתר Maq. בקבצי הקריאה של הפלט, שם הקריאה מורכב מההפניה
שם הרצף והקואורדינטות החיצוניות של זוג הקריאות המדומה. על ידי
ברירת מחדל לדמות מניח שהקריאות מגיעות מרצף דיפלואידי שנוצר
על ידי הוספת שתי קבוצות שונות של מוטציות, כולל אינדל אחד של זוג בסיסים, ל
in.ref.fasta.

אפשרויות:

-d INT ממוצע המרחק החיצוני של גדלי התוספות [170]

-s INT סטיית תקן של גדלי תוספות [20]

-N INT מספר זוגות הקריאות שייווצרו [1000000]

-1 INT אורך הקריאה הראשונה [נקבע על ידי in.simupars.dat]

-2 INT אורך הקריאה השנייה [נקבע על ידי in.simupars.dat]

-r לצוף שיעור מוטציה [0.001]

-R לצוף חלק של אינדלים של 1bp [0.1]

-h הוסף את כל המוטציות ל in.ref.fasta וליצור קריאות מהיחיד
רצף מוטנטי (מצב הפלואידי)

הערה:

* קריאות שנוצרות מפקודה זו הן בלתי תלויות, דבר החורג מה-
אמת. בעוד שהערכת יישור פחות מושפעת מכך, הערכה על
יש לבצע קריאות SNP בזהירות. תלות בשגיאות עשויה להיות אחת מהן:
הגורמים העיקריים לקריאות SNP שגויות.

סימוסטט אבל ש סימוסטט in.simu-aln.map > out.simustat

הערכת איכויות מיפוי מקריאות מדומות.

מוּצָק מוצרים מקושרים

fasta2csfa אבל ש fasta2csfa in.nucl-ref.fasta > out.colour-ref.fasta

המר FASTA נוקלאוטיד ל-FASTA בצבעים שונים. דגל -c יש ליישם לאחר מכן
ל מַפָּה פקודה. בפלט, האות `A' מייצגת צבע 0, `C' מייצגת 1, `G'
עבור 2 ו-`T' עבור 3. כל רצף בפלט קצר ב-1bp מהקלט.

csmap2nt אבל ש csmap2nt out.nt.map in.ref.nt.bfa in.cs.map

המר יישור צבעים ליישור נוקלאוטידים. הקלט in.ref.nt.bfa האם ה
קובץ ייחוס בינארי של נוקלאוטידים מסוג FASTA. עליו להתאים לקובץ המקורי.
שממנו מומר ייחוס הצבע. ניתן לכנות קונצנזוס נוקלאוטידים
מהיישור שנוצר.

שונות/מתקדמים פקודות

תת-מפה אבל ש תת-מפה [-q minMapQ] [-Q סכום מקסימלי] [-m מקסימוםMM] [-p] מפה החוצה in.map

סנן יישורים גרועים ב in.mapאפשרויות שורת הפקודה מתוארות ב
`להרכיב' פקודה.

eland2maq אבל ש eland2maq [-q חוסר איכות] מפה החוצה in.list אין.אילנד

המרת יישור אילנד לפורמט .map של maq. קובץ in.list מורכב
שמות רצפים המופיעים בעמודה השביעית של קובץ יישור האלנד
אין.אילנד והשם שאתם מצפים לראות ביישור maq. להלן
דוּגמָה:

cX.fa chrX
c1.fa chr1
c2.fa chr2

אם אתם מיישרים קריאות במספר קבוצות באמצעות eland, חשוב
השתמש באותו in.list עבור ההמרה. בנוסף, maq יטען את כל
יישורים ומיון שלהם בזיכרון. אם שרשרת מספר אלנדים
הפלט לקובץ אחד ענק, עליך להפריד אותו לקבצים קטנים יותר כדי
למנוע מ-maq לאכול את כל זיכרון המכונה שלך.

פקודה זו למעשה שואפת להראות את יישור האלנד ב-Maqview. מכיוון שאין איכות.
אם המידע זמין, אין להשתמש בקובץ יישור ה-MAQ שנוצר
לקרוא לגנוטיפים קונצנזוסיים.

ייצוא למאק אבל ש ייצוא למאק [-1 קרא1לן] [-2 קרא2לן] [-a maxdist] [-n] מפה החוצה in.list
ייצוא

המרת פורמט ייצוא של Illumina לפורמט של Maq .מַפָּה פורמט. פורמט ייצוא הוא חדש
פורמט יישור מאז SolexaPipeline-0.3.0 אשר מחשב גם מיפוי
תכונות כמו maq. ניתן להשתמש בקובץ המתקבל כדי לקרוא לגנוטיפים קונצנזוסיים
מכיוון שרוב המידע הדרוש זמין עבור maq כדי לעשות זאת במדויק.

אפשרויות:

-1 INT אורך הקריאה הראשונה [0]

-2 INT אורך הקריאה השנייה [0]

-a INT מרחק חיצוני מקסימלי עבור זוג קריאה נכון [250]

-n שמירת קריאות מסוננות

MAQ-PERL פקודות


הדגמה maq.pl הדגמה [-h] [-s] [-N nPairs] [-d יציאה] אין.פאסטה in.simudat

הדגימו את השימוש ב אבל ש והסקריפטים הנלווים אליהם. פקודה זו תעשה
לדמות קריאות מקובץ FASTA אין.פאסטהאורך הרצף ואיכויותיו
נקבעים על ידי in.simudat אשר נוצר מ אבל ש סימוטריין או יכול להיות
שהורד מאתר האינטרנט של Maq. הקריאות המדומות ימופו לאחר מכן באמצעות
maq.pl easyrunדיוק היישור מוערך על ידי אבל ש סימוסטט, ה
דיוק קונצנזוס לפי אבל ש סימוקנס, ודיוק ה-SNP לפי maq_eval.pl.

כברירת מחדל, קריאות קצה מזווגות יעובדו ויוצג רצף דיפלואידי.
נוצר מהקלט על ידי הוספת מוטציות לכל אחד מהסוגים ההפלואידיים. התוספת
גודל וקצב המוטציה נשלטים על ידי אבל ש לדמות.

אפשרויות:

-h לדמות רצף הפלואידי במקום רצף דיפלואידי

-s השתמש במצב קצה יחיד כדי ליישר קריאות במקום במצב קצה מזווג

-N INT מספר זוגות הקריאות שיש לדמות [1000000]

-d DIR ספריית פלט [maqdemo]

הערה:

* קבצי הפלט מ maq_eval.pl לא תועדו, אך ניתן לבצע
ניחוש טוב לגבי חלק מהקבצים האלה.

* פקודה זו רק מדגימה את השימוש בחבילת maq. הדיוק במציאות
הנתונים כמעט תמיד נמוכים יותר ממה שרואים מסימולציה טהורה.

easyrun maq.pl easyrun [-1 read1Len] [-d out.dir] [-n nReads] [-A 3 מתאם] [-e מדד דקות]
[-q minCnsQ] [-p] [-2 read2Len] [-a מקסימום אינס] [-S] [-N] in.ref.fasta in1.fastq
[in2.fastq]

מנתח צינור עבור גנומים קטנים. פקודת Easyrun תריץ את רוב הניתוחים
מיושם ב אבל ש. כברירת מחדל, easyrun מניח את כל רצפי קריאת הקלט
קבצים הם חד-צדדיים ועצמאיים; כאשר -p מצוין, שני רצפי קריאה
נדרשים קבצים, אחד לכל קצה.

מספר קבצים ייווצרו ב out.dir, ביניהם הקבצים הבאים
פלט המפתח:

cns.final.snp קריאות SNP סופיות עם אלו באיכות נמוכה שסוננו

cns.fq רצפי קונצנזוס ואיכויות בפורמט FASTQ

אפשרויות:

-d DIR ספריית פלט [easyrun]

-n INT מספר הקריאות/זוגות באצווה אחת של יישור [2000000]

-S להחיל ניתוח קריאה מפוצלת של אינדלים קצרים (אולי איטי מאוד)

-N INT מספר הפלוטיפים/זנים במאגר (>=2) [2]

-A קובץ קובץ עבור מתאם 3'. הקובץ צריך להכיל שורה אחת של רצף
[ריק]

-1 INT אורך הקריאה הראשונה, 0 עבור אוטומטי [0]

-e INT עומק קריאה מינימלי הנדרש לקריאה ל-SNP (עבור מסנן SNP) [3]

-q INT איכות קונצנזוס מינימלית עבור SNPs ב cns.final.snp [30]

-p עבור למצב יישור קצוות מזווג

-2 INT אורך הקריאה השנייה כאשר -p מוחל [0]

-a INT גודל הכנס מקסימלי כאשר -p מוחל [250]

הערות:

* עבור קריאה ל-SNP על דגימות מאוחדות, על המשתמשים להגדיר את ההגדרה הנכונה של `-Nכמו גם
`-E 0 '.

קובץ הקלט יכול להיות בפורמט בינארי של maq. maq.pl יזהה אוטומטית
פורמט הקובץ.

מסנן SNP maq.pl מסנן SNP [-d מדד דקות] [-D מקסימום דחיפה] [-Q maxMapQ] [-q minCnsQ] [-w
גודל indelWin] [-n minNeiQ] [-F in.indelpe] [-f אין.אינדלסואה] [-s ציון מינימלי] [-m
מקסימום על פני] [-a] [-N maxWinSNP] [-W גודל רווח של dens] in.cns2snp.snp >
out.filtered.snp

שללו SNPs המכוסים על ידי מספר קטן של קריאות (שצוין על ידי -d), על ידי רבים מדי
קורא (שצוין על ידי -D), ליד (כפי שצוין על ידי -w) לאפשרות של נפילה, נופל
באזור חזרתי אפשרי (המאופיין על ידי -Q), או בעלי איכות נמוכה
בסיסים שכנים (שצוינו על ידי -n). אם maxWinSNP או יותר SNPs מופיעים בכל
גודל רווח של dens חלון, הם גם יסוננו יחד.

אפשרויות:

-d INT עומק קריאה מינימלי הנדרש לקריאה ל-SNP [3]

-D INT עומק קריאה מקסימלי הנדרש לקריאה ל-SNP (<255, אחרת מתעלמים ממנו)
[256]

-Q INT איכות מיפוי מקסימלית נדרשת של קריאות המכסות את ה-SNP [40]

-q INT איכות קונצנזוס מינימלית [20]

-n INT איכות קונצנזוס סמוכה מינימלית [20]

-w INT גודל החלון סביב ה-indels הפוטנציאליים. SNPs הקרובים
לאינדלים יודחקו [3]

-F קובץ השמיים indelpe פלט [ריק]

-f קובץ השמיים אינדלסואה פלט [ריק]

-s INT ציון מינימלי כדי ש-soa-indel ייחשב [3]

-m INT מספר מקסימלי של קריאות שניתן למפות על פני soa-indel [1]

-a מסנן חלופי ליישור בקצה יחיד

indelpe maq.pl indelpe in.indelpe > החוצה. ללא עלות

תקן את מספר הקריאות הממופות ללא אינדל עבור קטעי הומופולימר. זה
הפקודה לשנות את העמודות הרביעיות, העשיריות ושלוש האחרונות של in.indelpe ו
פלט את התוצאה ב החוצה. ללא עלותלאחר התיקון, הדברים הבאים awk
הפקודה נותנת אינדלים הומוזיגוטיים משוערים:

אוקיי '($3=="*"⎪⎪$3=="+") && $6+$7>=3 && ($6+$7)/$4>=0.75'

והבא נותן הטרוזיגוטים:

מוזר '($3=="*"⎪⎪$3=="+") && $6+$7>=3 && ($6+$7)/$4<0.75'

יש לציין כי זו indelpe הפקודה פשוט מיישמת מספר כללים היוריסטיים.
זה לא מתקן ריצות הומופולימר לא טהור או די-נוקלאוטיד/טריפלט
חוזר. כתוצאה מכך, שתי פקודות awk נותנות רק ערך hom/het משוער
אינדלים.

דוגמאות


· סקריפט Easyrun:
maq.pl easyrun -d easyrun ref.fasta part1.fastq part2.fastq

· פקודות מפתח מאחורי easyrun:
maq fasta2bfa ref.fasta ref.bfa;
maq fastq2bfq part1.fastq part1.bfq;
maq fastq2bfq part2.fastq part2.bfq;
מפת maq חלק 1. הפניה למפה.bfa חלק 1.bfq;
מפת maq חלק 2. הפניה למפה.bfa חלק 2.bfq;
maq mapmerge aln.map חלק 1.map חלק 2.map;
maq להרכיב cns.cns ref.bfa aln.map;

השתמש ב-maq באינטרנט באמצעות שירותי onworks.net



התוכניות המקוונות האחרונות של לינוקס ו-Windows