אנגליתצרפתיתספרדי

Ad


סמל OnWorks

bcftools - מקוון בענן

הפעל את bcftools בספק אירוח בחינם של OnWorks על אובונטו מקוון, פדורה מקוון, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

זוהי הפקודה bcftools שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


samtools - כלי עזר לפורמט רצף יישור/מפה (SAM).

bcftools - כלי עזר לפורמט השיחה הבינארית (BCF) ו-VCF

תַקצִיר


samtools view -bt ref_list.txt -o aln.bam aln.sam.gz

samtools sort aln.bam aln.sorted

samtools index aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools view aln.sorted.bam chr2:20,100,000-20,200,000

samtools מיזוג out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools pileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools index in.bcf

bcftools view in.bcf chr2:100-200 > out.vcf

bcftools view -Nvm0.99 in.bcf > out.vcf 2> out.afs

תיאור


Samtools היא קבוצה של כלי עזר המטפלים ביישורים בפורמט BAM. זה מייבא
מפורמט SAM (יישור רצף/מפה) ומייצא לפורמט, עושה מיון, מיזוג ו
אינדקס, ומאפשר לאחזר קריאות בכל אזור במהירות.

Samtools מיועד לעבוד על זרם. זה מתייחס לקובץ קלט `-' כסטנדרט
קלט (stdin) וקובץ פלט `-' בתור הפלט הסטנדרטי (stdout). מספר פקודות יכולות
ובכך לשלב עם צינורות יוניקס. Samtools תמיד מוציא הודעות אזהרה ושגיאה ל-
פלט שגיאה סטנדרטי (stderr).

Samtools מסוגלת גם לפתוח קובץ BAM (לא SAM) בשרת FTP או HTTP מרוחק אם
שם קובץ BAM מתחיל ב- `ftp://' או `http://'. Samtools בודק את הפעילות הנוכחית
ספרייה עבור קובץ האינדקס ותוריד את האינדקס בהיעדר. Samtools לא
אחזר את כל קובץ היישור אלא אם כן הוא מתבקש לעשות זאת.

SAMTOOLS פקודות ו אפשרויות


נוף samtools view [-bchuHS] [-t in.refList] [-o output] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l library] [-r readGroup] [-R rgFile] | [אזור1
[...]]

חלץ/הדפס את כל יישורי המשנה או בפורמט SAM או BAM. אם אין אזור
שצוין, כל היישורים יודפסו; אחרת רק יישורים
חופפים בין האזורים שצוינו תופיע. ניתן לתת יישור
מספר פעמים אם הוא חופף מספר אזורים. ניתן להציג אזור,
לדוגמה, בפורמט הבא: `chr2' (כל chr2), `chr2:1000000'
(אזור שמתחיל מ-1,000,000 bp) או `chr2:1,000,000-2,000,000' (אזור בין
1,000,000 ו-2,000,000 bp כולל נקודות הסיום). הקואורדינטה מבוססת על 1.

אפשרויות:

-b פלט בפורמט BAM.

-f INT רק יישורי פלט עם כל הביטים ב-INT הקיימים בשדה FLAG.
INT יכול להיות ב-hex בפורמט של /^0x[0-9A-F]+/ [0]

-F INT דלג על יישור עם ביטים הקיימים ב-INT [0]

-h כלול את הכותרת בפלט.

-H פלט את הכותרת בלבד.

-l STR רק הפלט קורא בספריית STR [null]

-o קובץ קובץ פלט [stdout]

-q INT דלג על יישור עם MAPQ קטן מ-INT [0]

-r STR רק הפלט קורא בקבוצת קריאה STR [null]

-R קובץ פלט קורא בקבוצות קריאה המפורטות ב קובץ [ריק]

-s לצוף חלק של תבניות/זוגות לתת-דגימה; החלק השלם מטופל
בתור הזרע של מחולל המספרים האקראיים [-1]

-S הקלט הוא ב-SAM. אם חסרות שורות כותרת של @SQ, ה- `-ט' האפשרות היא
נדרש.

-c במקום להדפיס את היישורים, רק לספור אותם ולהדפיס את
מספר כולל. כל אפשרויות הסינון, כגון `-f', `-F' ו `-q' , הם
נלקח בחשבון.

-t קובץ קובץ זה מופרד ב-TAB. כל שורה חייבת להכיל את שם ההפניה
ואורך הפניה, שורה אחת לכל התייחסות מובחנת;
מתעלמים משדות נוספים. קובץ זה גם מגדיר את סדר ה-
רצפי התייחסות במיון. אם אתה מפעיל `samtools faidx ',
קובץ האינדקס שנוצר .fai יכול לשמש ככזה
קובץ.

-u פלט BAM לא דחוס. אפשרות זו חוסכת זמן מושקע
דחיסה/פירוק ולכן הוא מועדף כאשר הפלט הוא
הועבר לפקודה אחרת של samtools.

tview samtools tview [-p chr:pos] [-s STR] [-d תצוגה] [ref.fasta]

מציג יישור טקסט (מבוסס על ספריית ncurses). במציג, הקש `?'
לקבלת עזרה ולחץ על 'g' כדי לבדוק את היישור התחל מאזור בפורמט
כמו `chr10:10,000,000' או `=10,000,000' בעת צפייה באותה הפניה
סדר פעולות.

אפשרויות:

-d תצוגה פלט כ-(H)tml או (C)urses או (T)ext

-p chr:pos עבור ישירות לתפקיד זה

-s STR הצג רק קריאות מדוגמה זו או מקבוצת קריאה זו

mpileup samtools mpileup [-EBugp] [-C capQcoef] [-r רג] [-f in.fa] [-l רשימה] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [...]]

צור BCF או pileup עבור קבצי BAM אחד או מרובים. רשומות יישור הן
מקובצים לפי מזהים לדוגמה בשורות הכותרת של @RG. אם מזהים לדוגמה
חסר, כל קובץ קלט נחשב כמדגם אחד.

בפורמט ה-pileup (ללא -uor-g), כל קו מייצג מיקום גנומי,
המורכבת משם הכרומוזום, קואורדינטה, בסיס התייחסות, לקרוא בסיסים, לקרוא
איכויות ואיכויות מיפוי יישור. מידע על התאמה, אי התאמה,
indel, strand, איכות מיפוי והתחלה וסוף של קריאה מקודדים כולם ב
עמודת בסיס הקריאה. בעמודה זו, נקודה מייצגת התאמה להפניה
בסיס על הגדיל הקדמי, פסיק להתאמה על הגדיל ההפוך, '>' או
'<' לדילוג הפניה, 'ACGTN' לאי התאמה בגדיל הקדמי ו
'acgtn' לאי התאמה בגדיל ההפוך. דפוס `\+[0-9]+[ACGTNacgtn]+'
מציין שיש הוספה בין עמדת התייחסות זו למיקום הבא
עמדת התייחסות. אורך ההכנסה ניתן על ידי המספר השלם ב-
דפוס, ואחריו הרצף שהוכנס. באופן דומה, דפוס
`-[0-9]+[ACGTNacgtn]+' מייצגים מחיקה מההפניה. הנמחק
הבסיסים יוצגו בתור `*' בשורות הבאות. גם בבסיס הקריאה
עמודה, סמל `^' מסמן את תחילת הקריאה. ה-ASCII של הדמות
בעקבות `^' מינוס 33 נותן את איכות המיפוי. סמל `$' מסמן את הסוף של
קטע קריאה.

קֶלֶט אפשרויות:

-6 נניח שהאיכות היא בקידוד Illumina 1.3+. -A אל תדלג
צמדי קריאה חריגים בקריאת וריאנט.

-B השבת יישור הסתברותי מחדש עבור חישוב הבסיס
איכות יישור (BAQ). BAQ הוא ההסתברות בקנה מידה של Phred לקריאה
הבסיס לא מיושר. יישום אפשרות זו עוזר מאוד להפחית
SNPs שקריים הנגרמים על ידי חוסר יישור.

-b קובץ רשימה של קבצי BAM קלט, קובץ אחד בכל שורה [null]

-C INT מקדם לשדרוג לאחור של איכות המיפוי עבור קריאות המכילות
אי התאמה מוגזמת. בהינתן קריאה עם הסתברות בקנה מידה של phred ש
של ההפקה מהמיקום הממפה, איכות המיפוי החדשה
הוא בערך sqrt((INT-q)/INT)*INT. ערך אפס משבית זאת
פונקציונליות; אם מופעל, הערך המומלץ עבור BWA הוא 50. [0]

-d INT בעמדה, קרא בצורה מקסימלית INT קורא לכל קלט BAM. [250]

-E חישוב BAQ מורחב. אפשרות זו עוזרת לרגישות במיוחד עבור
MNPs, אבל עלול לפגוע קצת בספציפיות.

-f קובץ אל האני faidx-קובץ עזר באינדקס בפורמט FASTA. הקובץ יכול להיות
אופציונלי דחוס על ידי razip. [ריק]

-l קובץ BED או קובץ רשימת מיקום המכיל רשימה של אזורים או אתרים שבהם
יש ליצור pileup או BCF [null]

-q INT איכות מיפוי מינימלית לשימוש ביישור [0]

-Q INT איכות בסיס מינימלית כדי שבסיס ייחשב [13]

-r STR צור הערימה רק באזור STR [כל האתרים]

תְפוּקָה אפשרויות:

-D פלט לכל דגימה עומק קריאה

-g חישוב סבירות גנוטיפ ופלט אותם בפורמט השיחה הבינארית
(BCF).

-S פלט לכל מדגם Phred בקנה מידה הטיית גדיל P-value

-u דומה -g אלא שהפלט הוא BCF לא דחוס, כלומר
מועדף לצנרת.

אפשרויות ל גנוטיפ סְבִירוּת חישוב -g or -u):

-e INT הסתברות שגיאה ברצף של הרחבת פערים בקנה מידה של Phred. צמצום INT
מוביל לאינדלים ארוכים יותר. [20]

-h INT מקדם למידול שגיאות הומופולימר. נתון א l-ארוך
ריצת הומופולימר, שגיאת הרצף של אינדל בגודל s מעוצב
as INT*s/l. [100]

-I אל תבצע קריאת INDEL

-L INT דלג על קריאת INDEL אם העומק הממוצע לדגימה גבוה יותר INT.
[250]

-o INT הסתברות שגיאה ברצף פתוח בקנה מידה של Phred. צמצום INT מוביל
לשיחות אינדל נוספות. [40]

-p החל ספים -m ו-F לכל מדגם כדי להגביר את הרגישות של
יִעוּד. כברירת מחדל, שתי האפשרויות מוחלות על קריאות שנאספו מכולם
דגימות.

-P STR רשימה מוגבלת בפסיק של פלטפורמות (נקבע על ידי @RG-PL) שממנו
מתקבלים מועמדי אינדל. מומלץ לאסוף אינדל
מועמדים מטכנולוגיות רצף בעלות שיעור שגיאות אינדל נמוך
כגון ILLUMINA. [את כל]

כותרת מחדש samtools reheader

החלף את הכותרת פנימה in.bam עם הכותרת פנימה in.header.sam. הפקודה הזו היא
הרבה יותר מהר מהחלפת הכותרת בהמרה של BAM->SAM->BAM.

חתול samtools cat [-h header.sam] [-o out.bam] [...]

שרשור BAMs. מילון הרצף של כל קלט BAM חייב להיות זהה,
למרות שהפקודה הזו לא בודקת את זה. פקודה זו משתמשת בטריק דומה לזה
כותרת מחדש המאפשר שרשור BAM מהיר.

sort samtools sort [-nof] [-m maxMem]

מיין יישורים לפי קואורדינטות השמאליות ביותר. קוֹבֶץ .באם יווצר.
פקודה זו עשויה ליצור גם קבצים זמניים .%d.bam כאשר כולו
לא ניתן להכניס יישור לזיכרון (נשלט על ידי אפשרות -m).

אפשרויות:

-o פלט את היישור הסופי לפלט הסטנדרטי.

-n מיין לפי שמות שנקראו ולא לפי קואורדינטות כרומוזומליות

-f השתמש כנתיב הפלט המלא ואל תוסיפו .באם סיומת.

-m INT בערך הזיכרון המקסימלי הנדרש. [500000000]

למזג samtools מיזוג [-nur1f] [-h inh.sam] [-R reg]
[...]

מיזוג יישורים ממוינים מרובים. רשימות הפניות לכותרת של כל הקלט
קבצי BAM, והכותרות @SQ של inh.sam, אם יש, כולם חייבים להתייחס לאותו דבר
סט של רצפי התייחסות. רשימת ההפניות לכותרות ו(אלא אם כן נדחקה על ידי
-h) כותרות `@' של in1.bam יועתק אל out.bam, והכותרות של אחר
יתעלמו מהקבצים.

אפשרויות:

-1 השתמש ברמת דחיסה של zlib 1 כדי לדחוס את הפלט

-f יש לאלץ להחליף את קובץ הפלט אם קיים.

-h קובץ השתמש בקווים של קובץ ככותרות '@' להעתקה out.bam, החלפת
כל שורות כותרת שאחרת היו מועתקות מהן in1.bam. (קובץ is
למעשה בפורמט SAM, אם כי כל רשומות יישור שהוא עשוי להכיל כן
התעלם.)

-n יישורי הקלט ממוינים לפי שמות קריאה ולא לפי כרומוזומליים
קואורדינטות

-R STR מיזוג קבצים באזור שצוין המצוין על ידי STR [ריק]

-r צרף תג RG לכל יישור. ערך התג נגזר מהקובץ
שמות.

-u פלט BAM לא דחוס

מדד אינדקס samtools

יישור ממוין באינדקס לגישה אקראית מהירה. קובץ אינדקס .bai יהיה
נוצר.

idxstats samtools idxstats

אחזר והדפיס נתונים סטטיסטיים בקובץ האינדקס. הפלט מופרד עם TAB
כל שורה מורכבת משם רצף התייחסות, אורך רצף, # קריאות ממופה
ו-# קריאות לא ממופה.

faidx samtools faidx [אזור1 [...]]

רצף הפניה לאינדקס בפורמט FASTA או לחלץ רצף משנה מאינדקס
רצף התייחסות. אם לא צוין אזור, faidx יוסיף לאינדקס את הקובץ ו
לִיצוֹר .fai על הדיסק. אם מוגדרים אזורים, רצף המשנה
יאוחזר ויודפס ל-stdout בפורמט FASTA. קובץ הקלט יכול
להיות דחוס ב RAZF פורמט.

fixmate samtools fixmate

מלא קואורדינטות בן/בת זוג, ISIZE ודגלים הקשורים לזוג מתוך שם ממוין
יישור.

rmdup samtools rmdup [-sS]

הסר כפילויות פוטנציאליות של PCR: אם לזוגות קריאה מרובים יש חיצוניים זהים
קואורדינטות, שמור רק על הזוג עם איכות המיפוי הגבוהה ביותר. בזוגות-
מצב סיום, הפקודה הזו רק עובד עם אוריינטציה FR ודורש ISIZE הוא
מוגדר נכון. זה לא עובד עבור קריאות לא מותאמות (למשל שני קצוות ממופים ל
כרומוזומים שונים או קריאות יתומות).

אפשרויות:

-s הסר כפילויות לקריאה בקצה יחיד. כברירת מחדל, הפקודה פועלת עבור
קריאה זוגית בלבד.

-S טפל בקריאה בקצה זוגי ובקריאה בקצה אחד.

רגוע samtools calmd [-EeubSr] [-C capQcoef]

צור את תג MD. אם תג ה-MD כבר קיים, פקודה זו תיתן א
אזהרה אם תג ה-MD שנוצר שונה מהתג הקיים. פלט SAM
כברירת מחדל.

אפשרויות:

-A בשימוש משותף עם -r אפשרות זו מחליפה את הבסיס המקורי
איכות.

-e המר את בסיס הקריאה ל-= אם הוא זהה להפניה המיושרת
בסיס. המתקשר של Indel אינו תומך בבסיסי = כרגע.

-u פלט BAM לא דחוס

-b פלט BAM דחוס

-S הקלט הוא SAM עם שורות כותרת

-C INT מקדם למגבלה על איכות המיפוי של קריאות ממופות בצורה גרועה. ראה את
ערימה פקודה לפרטים. [0]

-r מחשב את תג ה-BQ (ללא -A) או איכות הבסיס לפי BAQ (עם -A).

-E חישוב BAQ מורחב. אפשרות זו מחליפה ספציפיות עבור
רגישות, אם כי ההשפעה מינורית.

targetcut samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
ref]

פקודה זו מזהה אזורי יעד על ידי בחינת המשכיות הקריאה
עומק, מחשב רצפי קונצנזוס הפלואידי של מטרות ומוציא עם SAM
כל רצף המתאים למטרה. כאשר אפשרות -f נמצא בשימוש, BAQ יהיה
מיושם. הפקודה הזו היא רק מיועד לחיתוך שיבוטים פוסמידים מפוסמיד
רצף בריכה [Ref. קיצמן ואח'. (2010)].

שלב samtools phase [-AF] [-k len] [-b prefix] [-q minLOD] [-Q minBaseQ]

SNPs הטרוזיגוטיים להתקשר ולשלב. אפשרויות:

-A שחרור קריאות עם שלב מעורפל.

-b STR קידומת של פלט BAM. כאשר אפשרות זו נמצאת בשימוש, קריאות שלב-0 יהיו
נשמר בקובץ STR.0.bam ו-phase-1 קוראים פנימה STR.1.באם. שלב לא ידוע
קריאות יוקצו באופן אקראי לאחד משני הקבצים. קריאה כימרית
עם שגיאות מתג יישמרו ב STR.chimeric.bam. [ריק]

-F אל תנסה לתקן קריאות כימריות.

-k INT אורך מקסימלי לשלב מקומי. [13]

-q INT LOD מינימלי בקנה מידה של Phred כדי לקרוא להטרוזיגוט. [40]

-Q INT איכות בסיס מינימלית לשימוש בהתקשרות. [13]

BCFTOOLS פקודות ו אפשרויות


נוף bcftools נוף [-AbFGNQSucgv] [-D seqDict] [-l listLoci] [-s רשימה מדגם] [-i
gapSNPratio] [-t mutRate] [-p varThres] [-m varThres] [-P קוֹדֵם] [-1 nGroup1]
[-d minFrac] [-U nPerm] [-X permThres] [-T trioType] in.bcf [באזור]

המר בין BCF ו-VCF, התקשר למועמדים וריאנטים והערכת אלל
תדרים.

פלט קלט אפשרויות:

-A שמור את כל האללים החלופיים האפשריים באתרי וריאנטים. כברירת מחדל,
פקודת התצוגה מבטלת אללים לא סבירים.

-b פלט בפורמט BCF. ברירת המחדל היא VCF.

-D קובץ מילון רצף (רשימת שמות כרומוזומים) להמרת VCF->BCF
[ריק]

-F ציין PL נוצר על ידי r921 או לפני (הסדר שונה).

-G דחק את כל מידע הגנוטיפ הפרטני.

-l קובץ רשימת האתרים שבהם המידע מופק [כל האתרים]

-N דלג על אתרים שבהם השדה REF אינו A/C/G/T

-Q פלט את פורמט הסבירות QCALL

-s קובץ רשימת דוגמאות לשימוש. העמודה הראשונה בקלט נותנת את המדגם
שמות והשני נותן את הפלואידי, שיכול להיות רק 1 או 2. מתי
העמודה השניה נעדרת, ההנחה היא שהפלואידה המדגם היא 2. ב-
פלט, סדר הדגימות יהיה זהה לזה שב קובץ.
[ריק]

-S הקלט הוא VCF במקום BCF.

-u פלט BCF לא דחוס (כוח -b).

קונצנזוס/וריאנט יִעוּד אפשרויות:

-c גרסאות שיחה באמצעות הסקה בייסיאנית. אפשרות זו אוטומטית
מעורר אפשרות -e.

-d לצוף מתי -v נמצא בשימוש, דלג על לוקוסים שבהם חלק הדגימות מכוסה
הקריאה נמצאת מתחת ל- FLOAT. [0]

-e בצע הסקת סבירות מקסימלית בלבד, כולל הערכת האתר
תדירות אללים, בדיקת שיווי משקל ובדיקה של הרדי-ויינברג
קשרים עם LRT.

-g התקשר לגנוטיפים לכל דגימה באתרי וריאנטים (כוח -c)

-i לצוף יחס של קצב מוטציות INDEL ל-SNP [0.15]

-m לצוף מודל חדש לשיחות מולטי-אלליות וגרסאות נדירות משופרות. אַחֵר
אלל ALT מתקבל אם P(chi^2) של LRT חורג מסף FLOAT.
הפרמטר נראה חזק והערך בפועל בדרך כלל לא
להשפיע הרבה על התוצאות; ערך טוב לשימוש הוא 0.99. זה
שיטת התקשרות מומלצת. [0]

-p לצוף אתר נחשב לגרסה אם P(ref|D)

-P STR ספקטרום תדר אללים קודם או ראשוני. אם STR יכול להיות מלא, תנאי 2,
דירה או הקובץ המורכב מפלט שגיאה מגרסה קודמת
קורא לרוץ.

-t לצוף שיעור מוטציה מותאמים עבור קריאת וריאנטים [0.001]

-T STR אפשר שיחות זוג/טריו. לשיחות שלישייה, אפשרות -s הוא בדרך כלל
היה צורך ליישם כדי להגדיר את חברי השלישייה ואת ההזמנה שלהם.
בקובץ שסופק לאופציה -s, המדגם הראשון חייב להיות ה
ילד, השני האב והשלישי האם. התקף
ערכים של STR הם `זוג', `trioauto', `trioxd' ו-`trioxs', כאשר
'זוג' קורא להבדלים בין שתי דגימות קלט, ו-'trioxd'
(`trioxs') מציין שהקלט הוא מכרומוזום X שאינו PAR
אזורים והילד הוא נקבה (זכר). [ריק]

-v אתרי וריאציות פלט בלבד (force -c)

קונטרסט יִעוּד ו עמותה מִבְחָן אפשרויות:

-1 INT מספר דגימות קבוצה-1. אפשרות זו משמשת לחלוקת ה
דגימות לשתי קבוצות לקריאת ניגודיות SNP או בדיקת אסוציאציות.
כאשר אפשרות זו נמצאת בשימוש, ה-VCF INFO הבא ייצא:
PC2, PCHI2 ו-QCHI2. [0]

-U INT מספר התמורות לבדיקת שיוך (יעיל רק עם -1)
[0]

-X לצוף בצע תמורות רק עבור P(chi^2) -U)
[0.01]

מדד bcftools מדד in.bcf

אינדקס ממוין BCF לגישה אקראית.

חתול bcftools חתול in1.bcf [in2.bcf [...]]]

שרשור קבצי BCF. קבצי הקלט נדרשים להיות ממוינים ויש להם
דוגמאות זהות המופיעות באותו סדר.

SAM פורמט


פורמט רצף יישור/מפה (SAM) מופרד ב-TAB. מלבד שורות הכותרת, אשר
מתחילים בסמל '@', כל קו יישור מורכב מ:

┌────┬───────┬──────────────────────────────────── ──────────────────────┐
Colשדהתיאור
├────┼───────┼──────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ תבנית שאילתה/זוג שם │
│ 2 │ FLAG │ FLAG סיביות │
│ 3 │ RNAME │ רצף התייחסות NAME │
│ 4 │ POS │ מיקום/קואורדינטה של ​​רצף קצוץ מבוסס 1 השמאלי ביותר │
│ 5 │ MAPQ │ איכות מיפוי (בקנה מידה Phred) │
│ 6 │ CIAGR │ מחרוזת CIGAR מורחב │
│ 7 │ MRNM │ רצף התייחסות בן זוג NaMe (`=' אם זהה ל-RNAME) │
│ 8 │ MPOS │ עמדת Mate POSision מבוססת 1 │
│ 9 │ TLEN │ אורך תבנית משוער (גודל הוספה) │
│10 │ SEQ │ שאילתה SEQuence על אותו גדיל כמו ההפניה │
│11 │ QUAL │ שאילתה QUALity (ASCII-33 נותן את איכות הבסיס של Phred) │
│12+ │ OPT │ משתנה שדות אופציונליים בפורמט TAG:VTYPE:VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘

כל סיביות בשדה FLAG מוגדרת כ:

┌───────┬─────┬─────────────────────────────────── ───────────────┐
דֶגֶלChrתיאור
├───────┼─────┼─────────────────────────────────── ───────────────┤
│0x0001 │ p │ הקריאה מוצמדת ברצף │
│0x0002 │ P │ הקריאה ממופה בזוג מתאים │
│0x0004 │ u │ רצף השאילתה עצמו אינו ממופה │
│0x0008 │ U │ בן הזוג לא ממופה │
│0x0010 │ r │ גדיל של השאילתה (1 להיפוך) │
│0x0020 │ R │ גדיל בן הזוג │
│0x0040 │ 1 │ הקריאה היא הקריאה הראשונה בזוג │
│0x0080 │ 2 │ הקריאה היא הקריאה השנייה בזוג │
│0x0100 │ s │ היישור אינו ראשוני │
│0x0200 │ f │ בדיקות האיכות של הפלטפורמה/ספק הקריאה נכשלו │
│0x0400 │ d │ הקריאה היא או PCR או כפיל אופטי │
└───────┴─────┴─────────────────────────────────── ───────────────┘
כאשר העמודה השנייה נותנת את ייצוג המחרוזת של שדה FLAG.

VCF פורמט


פורמט הקריאה וריאנטית (VCF) הוא פורמט מופרד ב-TAB כאשר כל קו נתונים מורכב ממנו
השדות הבאים:

┌────┬────────┬─────────────────────────────────── ───────────────────────────┐
Colשדהתיאור
├────┼────────┼─────────────────────────────────── ───────────────────────────┤
│ 1 │ CHROM │ שם כרומוזום │
│ 2 │ POS │ המיקום השמאלי ביותר של הגרסה │
│ 3 │ מזהה │ מזהה גרסה ייחודית │
│ 4 │ REF │ אלל ה-REFerence │
│ 5 │ ALT │ האלל/ים האלטרנטיביים, מופרדים בפסיק │
│ 6 │ QUAL │ גרסה/הפניה איכות │
│ 7 │ מסנן │ מסננים שהוחלו │
│ 8 │ INFO │ מידע הקשור לגרסה, מופרד על ידי נקודה-פסיק │
│ 9 │ פורמט │ פורמט של שדות הגנוטיפ, מופרדים באמצעות נקודתיים (אופציונלי) │
│10+ │ מדגם │ גנוטיפים מדגם ומידע לכל דגימה (אופציונלי) │
└────┴────────┴─────────────────────────────────── ───────────────────────────┘

הטבלה הבאה נותנת את ה מידע תגיות בשימוש על ידי samtools ו-bcftools.

┌──────┬───────────┬────────────────────────────── ────────────────────────────────────────────────── ────────────────────┐
תגפוּרמָטתיאור
├──────┼───────────┼────────────────────────────── ────────────────────────────────────────────────── ────────────────────┤
└──────┴───────────┴────────────────────────────── ────────────────────────────────────────────────── ────────────────────┘

דוגמאות


o ייבוא ​​SAM ל-BAM מתי @SQ ישנן שורות בכותרת:

samtools view -bS aln.sam > aln.bam

If @SQ אין שורות:

samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam

איפה ref.fa.fai נוצר באופן אוטומטי על ידי faidx פקודה.

o צרף את RG תג בעת מיזוג יישורים ממוינים:

perl -e 'print
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

הערך ב-a RG תג נקבע לפי שם הקובץ שממנו מגיעה הקריאה. בזה
לדוגמה, ב Merged.bam, קורא מ ga.bam יצורף RG:Z:ga, תוך כדי קריאה מ
454.באם יצורף RG:Z:454.

o קרא SNPs ו-INDELs קצרים עבור פרט דיפלואידי אחד:

samtools mpileup -ugf ref.fa aln.bam | bcftools view -bvcg - > var.raw.bcf
bcftools view var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

אל האני -D אפשרות של varFilter שולטת בעומק הקריאה המרבי, שאליו יש להתאים
בערך פי שניים מעומק הקריאה הממוצע. אפשר לשקול להוסיף -C50 ל mpileup אם מיפוי
איכות מוערכת יתר על המידה עבור קריאות המכילות אי התאמה מופרזת. יישום אפשרות זו
בדרך כלל עוזר BWA-קצר אבל אולי לא ממפים אחרים.

o צור את רצף הקונצנזוס עבור פרט דיפלואידי אחד:

samtools mpileup -uf ref.fa aln.bam | bcftools view -cg - | vcfutils.pl vcf2fq >
cns.fq

o קרא מוטציות סומטיות מזוג דגימות:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair - > var.bcf

בשדה INFO הפלט, CLR נותן את היחס Phred-log בין הסבירות על ידי
טיפול בשתי הדגימות באופן עצמאי, והסבירות על ידי דרישת הגנוטיפ
להיות זהים. זֶה CLR הוא למעשה ציון המודד את הביטחון של סומטי
שיחות. כמה שיותר גבוה יותר טוב.

o Call de novo ומוטציות סומטיות משלישייה משפחתית:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt - >
var.bcf

שלח samples.txt צריך להיות מורכב משלוש שורות המציינות את החבר והסדר של
דוגמאות (לפי סדר ילד-אבא-אמא). באופן דומה, CLR נותן את ה-Phred-log
יחס סבירות עם ובלי אילוץ השלישייה. CGU מראה את הסבירות ביותר
תצורת גנוטיפ ללא אילוץ השלישייה, ו CGT נותן את הסבירות הגבוהה ביותר
תצורת גנוטיפ העומדת באילוץ השלישייה.

o פרט שלב ראשון:

samtools calmd -AEur aln.bam ref.fa | samtools קידומת phase -b - > phase.out

אל האני רגוע הפקודה משמשת להפחתת הטרוזיגוטים כוזבים סביב INDELs.

o קרא ל-SNPs ואינדלים קצרים עבור מספר פרטים דיפלואידים:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools view -bcvg - > var.raw.bcf
bcftools view var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

אנשים מזוהים מתוך SM תגים ב @RG שורות כותרת. בודדים יכולים להיות
מאוחד בקובץ יישור אחד; ניתן גם להפריד אדם אחד למספר קבצים.
אל האני -P האפשרות מציינת כי יש לאסוף מועמדי indel רק מקבוצות קריאה
עם @RG-PL תג מוגדר ל אילומינה. איסוף מועמדי אינדל מקריאות רצף
על ידי טכנולוגיה נוטה ל-indel עשויה להשפיע על הביצועים של שיחות indel.

שים לב שיש מודל שיחות חדש שניתן להפעיל על ידי

bcftools view -m0.99 ...

אשר מתקן כמה מגבלות חמורות של שיטת ברירת המחדל.

עבור סינון, נראה שהתוצאות הטובות ביותר מושגות על ידי יישום תחילה של SnpGap לסנן ו
ואז ליישם גישת למידת מכונה

vcf-annotate -f SnpGap=n
מסנן vcf...

את שניהם ניתן למצוא ב- vcftools ו htslib חבילה (קישורים למטה).

o גזור את ספקטרום תדר האללים (AFS) על רשימה של אתרים ממספר אנשים:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

איפה sites.list מכיל את רשימת האתרים כאשר כל שורה מורכבת מההפניה
שם הרצף והמיקום. הבאים bcftools פקודות אומדן AFS על ידי EM.

o Dump BAQ הוחל יישור עבור מתקשרי SNP אחרים:

samtools calmd -bAr aln.bam > aln.baq.bam

זה מוסיף ומתקן את NM ו MD תגים בו זמנית. ה רגוע גם הפקודה מגיעה
עם -C אפשרות, זהה לזו שנמצאת ערימה ו mpileup. הגש בקשה אם זה עוזר.

מגבלות


o מילים לא מיושרות בשימוש ב-bam_import.c, bam_endian.h, bam.c ו-bam_aux.c.

o Samtools rmdup עם קצה מזווג אינו פועל עבור קריאות לא מותאמות (למשל קריאה יתומה או קצוות
ממופה לכרומוזומים שונים). אם זה מדאיג, אנא השתמש ב-Picard
MarkDuplicate אשר מטפל נכון במקרים אלו, אם כי מעט יותר איטי.

השתמש ב-bcftools באינטרנט באמצעות שירותי onworks.net


שרתים ותחנות עבודה בחינם

הורד אפליקציות Windows & Linux

  • 1
    ציפור אש
    ציפור אש
    Firebird RDBMS מציע תכונות ANSI SQL
    & פועל על לינוקס, Windows &
    מספר פלטפורמות יוניקס. תכונות
    במקביל וביצועים מצוינים
    & כוח...
    הורד את Firebird
  • 2
    קומפוזר
    קומפוזר
    KompoZer הוא עורך HTML של Wysiwyg המשתמש
    בסיס הקוד של Mozilla Composer. כפי ש
    הפיתוח של Nvu הופסק
    בשנת 2005, KompoZer מתקן באגים רבים ו
    מוסיף f...
    הורד את KompoZer
  • 3
    הורדת מנגה בחינם
    הורדת מנגה בחינם
    הורדת המנגה החינמית (FMD) היא
    יישום קוד פתוח שנכתב ב
    Object-Pascal לניהול ו
    הורדת מנגה מאתרים שונים.
    זו מראה...
    הורד בחינם מנגה הורדת
  • 4
    אטבוטין
    אטבוטין
    UNetbootin מאפשר לך ליצור אתחול
    כונני USB חיים עבור אובונטו, פדורה ו
    הפצות לינוקס אחרות ללא
    צריבת CD. זה פועל על ווינדוס, לינוקס,
    ו ...
    הורד את UNetbootin
  • 5
    Dolibarr ERP - CRM
    Dolibarr ERP - CRM
    Dolibarr ERP - CRM הוא קל לשימוש
    חבילת תוכנות ERP ו-CRM בקוד פתוח
    (הפעל עם שרת php אינטרנט או כ
    תוכנה עצמאית) לעסקים,
    יסודות...
    הורד את Dolibarr ERP - CRM
  • 6
    לקוח SQuirreL SQL
    לקוח SQuirreL SQL
    SQuirreL SQL Client הוא SQL גרפי
    לקוח כתוב ב-Java שיאפשר
    כדי להציג את המבנה של JDBC
    מסד נתונים תואם, עיין בנתונים
    שולחנות...
    הורד את SQuirreL SQL Client
  • עוד »

פקודות לינוקס

Ad