عربيالفرنسيةالإسبانية

Ad


OnWorks فافيكون

bcftools - عبر الإنترنت في السحابة

قم بتشغيل bcftools في مزود استضافة OnWorks المجاني عبر Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

هذا هو الأمر bcftools الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت

برنامج:

اسم


samtools - أدوات مساعدة لتنسيق محاذاة التسلسل / خريطة (SAM)

bcftools - الأدوات المساعدة لتنسيق الاستدعاء الثنائي (BCF) و VCF

موجز


عرض samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools فرز aln.bam aln

فهرس samtools aln.sorted.bam

Samtools idxstats aln.sorted.bam

samtools عرض aln.sorted.bam chr2: 20,100,000،20,200,000،XNUMX-XNUMX،XNUMX،XNUMX

samtools يدمج out.bam in1.bam in2.bam in3.bam

samtools faidx المرجع fasta

samtools pileup -vcf المرجع.فاستا aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3: 1,000،2,000-1،2 inXNUMX.bam inXNUMX.bam

samtools tview aln.sorted.bam المرجع fasta

فهرس bcftools في bcf

bcftools عرض in.bcf chr2: 100-200> out.vcf

عرض bcftools -Nvm0.99 in.bcf> out.vcf 2> out.afs

الوصف


Samtools هي مجموعة من الأدوات المساعدة التي تتعامل مع المحاذاة في تنسيق BAM. تستورد
من والصادرات إلى تنسيق SAM (محاذاة التسلسل / الخريطة) ، يقوم بالفرز والدمج و
الفهرسة ، ويسمح باسترداد القراءات في أي منطقة بسرعة.

تم تصميم Samtools للعمل على دفق. يعتبر ملف الإدخال "-" هو المعيار
الإدخال (stdin) وملف الإخراج "-" كإخراج قياسي (stdout). يمكن للعديد من الأوامر
وبالتالي يتم دمجه مع أنابيب Unix. يقوم Samtools دائمًا بإخراج رسائل التحذير والخطأ إلى ملف
ناتج الخطأ القياسي (stderr).

Samtools قادر أيضًا على فتح ملف BAM (وليس SAM) على خادم FTP أو HTTP بعيد إذا كان الملف
يبدأ اسم ملف BAM بـ "ftp: //" أو "http: //". يتحقق Samtools من العمل الحالي
دليل لملف الفهرس وسيتم تنزيل الفهرس عند الغياب. Samtools لا
استرداد ملف المحاذاة بالكامل ما لم يُطلب منك ذلك.

سامتولز أوامر لأي لبس OPTIONS


عرض عرض samtools [-bchuHS] [-t in.refList] [-o الإخراج] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l library] [-r readGroup] [-R rgFile] | [المنطقة 1
[...]]

استخراج / طباعة الكل أو المحاذاة الفرعية بتنسيق SAM أو BAM. إذا لم تكن هناك منطقة
المحدد ، ستتم طباعة جميع المحاذاة ؛ خلاف ذلك فقط المحاذاة
تداخل المناطق المحددة سيتم إخراجها. يمكن إعطاء محاذاة
عدة مرات إذا كانت متداخلة عدة مناطق. يمكن تقديم منطقة ،
على سبيل المثال ، بالتنسيق التالي: "chr2" (كل chr2) ، "chr2: 1000000"
(المنطقة تبدأ من 1,000,000،2،1,000,000bp) أو "chr2,000,000: XNUMX،XNUMX،XNUMX-XNUMX،XNUMX،XNUMX" (المنطقة الواقعة بين
1,000,000،2,000,000،1 و XNUMX،XNUMX،XNUMX نقطة أساس بما في ذلك نقاط النهاية). الإحداثيات هي XNUMX على أساس.

والخيارات:

-b الإخراج بتنسيق BAM.

-f INT فقط محاذاة الإخراج مع جميع وحدات البت في INT الموجودة في الحقل FLAG.
يمكن أن يكون INT بصيغة سداسية عشرية بتنسيق / ^ 0x [0-9A-F] + / [0]

-F INT تخطي المحاذاة مع وحدات البت الموجودة في INT [0]

-h قم بتضمين الرأس في الإخراج.

-H إخراج الرأس فقط.

-l STR يقرأ الإخراج فقط في مكتبة STR [فارغة]

-o FILE ملف الإخراج [stdout]

-q INT تخطي المحاذاة مع MAPQ أصغر من INT [0]

-r STR يقرأ الإخراج فقط في مجموعة القراءة STR [فارغة]

-R FILE يقرأ الإخراج في مجموعات القراءة المدرجة في FILE [باطل]

-s تطفو جزء من القوالب / الأزواج لعينة فرعية ؛ يتم التعامل مع الجزء الصحيح
كبذرة لمولد الأرقام العشوائية [-1]

-S الإدخال في SAM. إذا كانت سطور الرأسSQ غير موجودة ، فإن ملف "-t" الخيار
مطلوب.

-c بدلاً من طباعة المحاذاة ، قم فقط بحسابها وطباعة ملف
الرقم الإجمالي. جميع خيارات التصفية ، مثل "-f" ، "-F" و "-Q" ، هي
مأخوذ فى الإعتبار.

-t FILE هذا الملف محدد بعلامات تبويب. يجب أن يحتوي كل سطر على اسم المرجع
وطول المرجع ، سطر واحد لكل مرجع مميز ؛
يتم تجاهل الحقول الإضافية. يعرّف هذا الملف أيضًا ترتيب ملفات
التسلسل المرجعي في الفرز. إذا قمت بتشغيل ملف `` samtools faidx "،
ملف الفهرس الناتج .fai يمكن استخدامها على هذا النحو
ملف.

-u إخراج BAM غير مضغوط. هذا الخيار يوفر الوقت الذي يقضيه في
الضغط / decomprssion وبالتالي فهو مفضل عندما يكون الإخراج
الأنابيب إلى أمر samtools آخر.

tvview سامتولز تي فيو [-p chr: نقاط البيع] [-s STR] [-d عرض] [المرجع.فاستا]

عارض محاذاة النص (بناءً على مكتبة ncurses). في العارض ، اضغط على "؟"
للمساعدة واضغط على "g" للتحقق من المحاذاة تبدأ من منطقة في التنسيق
مثل "chr10: 10,000,000،10,000,000،XNUMX" أو "= XNUMX،XNUMX،XNUMX" عند عرض نفس المرجع
تسلسل.

خيارات:

-d عرض الإخراج مثل (H) tml أو (C) urses أو (T) ext

-p chr: نقاط البيع اذهب مباشرة إلى هذا الموقف

-s STR العرض يقرأ فقط من هذه العينة أو مجموعة القراءة

com.mpileup سامتولس mpileup [-Ebugp] [-C غطاء] [-r ريج] [-f in.fa] [-l قائمة] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] في بام [in2.bam [ ]]

قم بإنشاء BCF أو pileup لملف واحد أو عدة ملفات BAM. سجلات المحاذاة
مجمعة حسب نماذج المعرفات في سطور العنوانRG. إذا كانت معرفات العينة
غائب ، يعتبر كل ملف إدخال كعينة واحدة.

بتنسيق pileup (بدون -uor-g) ، يمثل كل سطر موقعًا جينيًا ،
يتكون من اسم كروموسوم ، تنسيق ، قاعدة مرجعية ، قواعد قراءة ، قراءة
الصفات وخصائص رسم الخرائط المحاذاة. معلومات عن المباراة ، عدم التطابق ،
إنديل ، ستراند ، تعيين الجودة وبداية ونهاية القراءة كلها مشفرة في
قراءة العمود الأساسي. في هذا العمود ، تشير النقطة إلى تطابق المرجع
قاعدة على الشريط الأمامي ، فاصلة للمباراة على الشريط العكسي ، ">" أو
'<' لتخطي مرجعي ، و "ACGTN" لعدم تطابق في الشريط الأمامي و
"acgtn" لعدم تطابق الشريط العكسي. نمط "\ + [0-9] + [ACGTNacgtn] +"
يشير إلى وجود إدراج بين هذا الموضع المرجعي والتالي
الموقف المرجعي. يتم إعطاء طول الإدراج من خلال العدد الصحيح في
نمط ، متبوعًا بالتسلسل المُدرج. وبالمثل ، نمط
"- [0-9] + [ACGTNacgtn] + 'يمثل حذفًا من المرجع. المحذوفة
سيتم تقديم القواعد كـ "*" في الأسطر التالية. أيضا في قاعدة القراءة
العمود ، يشير الرمز "^" إلى بداية القراءة. ASCII للشخصية
التالي "^" ناقص 33 يعطي جودة التعيين. يشير الرمز "$" إلى نهاية
مقطع قراءة.

إدخال خيارات:

-6 افترض أن الجودة في ترميز Illumina 1.3+. -A لا تتخطى
أزواج قراءة شاذة في استدعاء متغير.

-B تعطيل إعادة المحاذاة الاحتمالية لحساب القاعدة
جودة المحاذاة (BAQ). BAQ هو الاحتمال المتدرج للقراءة
قاعدة منحرفة. يساعد تطبيق هذا الخيار بشكل كبير على التقليل
تعدد الأشكال الكاذبة الناتجة عن الاختلالات.

-b FILE قائمة ملفات BAM المدخلة ، ملف واحد لكل سطر [فارغ]

-C INT المعامل لخفض مستوى جودة التعيين للقراءات التي تحتوي على
عدم التطابق المفرط. نظرا للقراءة مع الاحتمال phred-scaleed q
يتم إنشاؤها من الموقع المعين ، جودة الخرائط الجديدة
حوالي sqrt ((INT-q) / INT) * INT. القيمة الصفرية تعطل هذا
وظائف؛ في حالة التمكين ، تكون القيمة الموصى بها لـ BWA هي 50. [0]

-d INT في موقف ، اقرأ بأقصى حد INT يقرأ لكل BAM المدخلات. [250]

-E تمديد حساب BAQ. هذا الخيار يساعد على الحساسية خاصة بالنسبة
MNPs ، ولكنها قد تضر بالخصوصية قليلاً.

-f FILEخطأ-ملف مرجعي مفهرس بتنسيق FASTA. يمكن أن يكون الملف
مضغوط اختياريا بواسطة razip. [باطل]

-l FILE BED أو ملف قائمة المواقع الذي يحتوي على قائمة بالمناطق أو المواقع حيث
يجب إنشاء تراكم البيانات أو معامل التركيز الأحيائي [فارغ]

-q INT أدنى جودة لرسم الخرائط لاستخدام المحاذاة [0]

-Q INT الحد الأدنى من الجودة الأساسية للقاعدة التي يجب أخذها في الاعتبار [13]

-r STR فقط توليد تراكم في المنطقة STR [كل المواقع]

الناتج خيارات:

-D عمق قراءة الإخراج لكل عينة

-g حساب احتمالات التركيب الجيني وإخراجها في تنسيق المكالمة الثنائية
(بي سي إف).

-S الناتج لكل عينة انحياز حبلا متدرج التحجيم قيمة P.

-u على غرار -g فيما عدا أن الناتج غير مضغوط BCF ، وهو
مفضل للأنابيب.

مزيد من الخيارات For الطراز العرقى أرجحية حساب (لل -g or -ش):

-e INT احتمالية الخطأ في تسلسل امتداد الفجوة المحجوبة. تقليص INT
يؤدي إلى indels أطول. [20]

-h INT معامل لنمذجة أخطاء البوليمر المتجانس. نظرا ل lلونغ
تشغيل البوليمر المتجانس ، الخطأ التسلسلي لحجم indel s على غرار
as INT*s/l. [100]

-I لا تقم بإجراء مكالمات INDEL

-L INT تخطي استدعاء INDEL إذا كان متوسط ​​العمق لكل عينة أعلى INT.
[250]

-o INT فجوة متدرجة احتمالية خطأ في التسلسل المفتوح. تقليص INT يؤدي
لمزيد من المكالمات إينديل. [40]

-p تطبيق عتبات -m و -F لكل عينة لزيادة حساسية
الاتصال. يتم تطبيق كلا الخيارين بشكل افتراضي على القراءات المجمعة من الكل
العينات.

-P STR قائمة المنصات المقيدة بفاصلة (يتم تحديدها بواسطة @ RG-PL) من أي
يتم الحصول على مرشحي indel. يوصى بجمع indel
المرشحين من تقنيات التسلسل التي لديها معدل خطأ indel منخفض
مثل ILLUMINA. [الكل]

إعادة سامتولس

استبدل الرأس في في بام مع الرأس في in.header.sam. هذا الأمر
أسرع بكثير من استبدال الرأس بتحويل BAM-> SAM-> BAM.

قط samtools cat [-h header.sam] [-o out.bam] [...]

سلسلة BAMs. يجب أن يكون قاموس التسلسل لكل إدخال BAM متطابقًا ،
على الرغم من أن هذا الأمر لا يتحقق من هذا. يستخدم هذا الأمر خدعة مشابهة لـ
إعادة مما يتيح تسلسل BAM سريعًا.

sort فرز samtools [-nof] [-m maxMem]

فرز المحاذاة بواسطة الإحداثيات الموجودة في أقصى اليسار. ملف .bam سيتم إنشاؤه.
قد يقوم هذا الأمر أيضًا بإنشاء ملفات مؤقتة .٪ d.bam عندما الكل
لا يمكن تركيب المحاذاة في الذاكرة (يتم التحكم فيها بواسطة الخيار- م).

والخيارات:

-o قم بإخراج المحاذاة النهائية للإخراج القياسي.

-n قم بالفرز حسب الأسماء المقروءة بدلاً من الإحداثيات الصبغية

-f استعمل كمسار الإخراج الكامل ولا تُلحق .بام لاحقة.

-m INT ما يقرب من الحد الأقصى للذاكرة المطلوبة. [500000000]

دمج دمج samtools [-nur1f] [-h inh.sam] [-R reg]
[...]

دمج عدة محاذاة مرتبة. يسرد مرجع الرأس لكل المدخلات
BAM ورؤوسSQ لـ inh.sam، إن وجدت ، يجب أن تشير جميعها إلى نفس الشيء
مجموعة من التسلسلات المرجعية. قائمة مراجع الرأس و (ما لم يتم تجاوزها بواسطة
-h) "@" رؤوس من in1.bam سيتم نسخها إلى خارج، ورؤوس الآخر
سيتم تجاهل الملفات.

والخيارات:

-1 استخدم مستوى ضغط zlib 1 لمعالجة الإخراج

-f القوة للكتابة فوق ملف الإخراج إذا كان موجودا.

-h FILE استخدم سطور FILE كرؤوس "@" المراد نسخها إليها خارج، لتحل محل
أي سطور رأس يمكن نسخها من in1.bam. (FILE is
في الواقع بتنسيق SAM ، على الرغم من وجود أي سجلات محاذاة قد تحتوي عليها
تم تجاهله.)

-n يتم فرز محاذاة الإدخال حسب الأسماء المقروءة بدلاً من الكروموسومات
ينسق

-R STR دمج الملفات في المنطقة المحددة المشار إليها بواسطة STR [باطل]

-r قم بإرفاق علامة RG بكل محاذاة. تم استنتاج قيمة العلامة من الملف
أسماء.

-u إخراج BAM غير مضغوط

مؤشر مؤشر samtools

محاذاة مرتبة حسب الفهرس للوصول العشوائي السريع. ملف الفهرس .bai سوف يكون
مكون.

com.idxstats samtools idxstats

استرداد وطباعة الإحصائيات في ملف الفهرس. الإخراج هو TAB محدد بـ
يتكون كل سطر من اسم التسلسل المرجعي ، وطول التسلسل ، ويقرأ المعين #
و # قراءات بدون تعيين.

خطأ samtools faidx [المنطقة 1 [...]]

تسلسل مرجع الفهرس بتنسيق FASTA أو استخراج ما يليه من المفهرسة
التسلسل المرجعي. إذا لم يتم تحديد منطقة ، خطأ سيفهرس الملف و
خلق .fai على القرص. إذا تم speficified المناطق ، اللاحقة
سيتم استردادها وطباعتها على stdout بتنسيق FASTA. يمكن لملف الإدخال
أن تكون مضغوطة في رزدف تنسيق.

مثبت samtools fixmate

قم بملء إحداثيات ماتي ، ISIZE والأعلام ذات الصلة من اسم مرتب
انتقام.

com.rmdup samtools rmdup [-sS]

إزالة تكرار PCR المحتملة: إذا كانت أزواج القراءة المتعددة لها نفس الخارجية
الإحداثيات ، احتفظ فقط بالزوج الذي يتمتع بأعلى جودة لرسم الخرائط. في الزوجين-
وضع النهاية ، هذا الأمر فقط يعمل مع اتجاه FR ويتطلب ISIZE
مجموعة بشكل صحيح. لا يعمل مع القراءات غير المزدوجة (على سبيل المثال ، يتم تعيين طرفين إلى
كروموسومات مختلفة أو قراءات يتيمة).

والخيارات:

-s إزالة التكرارات للقراءات أحادية النهاية. بشكل افتراضي ، يعمل الأمر مع
يقرأ نهاية مزدوجة فقط.

-S معالجة القراءات المزدوجة والقراءات ذات النهاية الواحدة.

الهدوء samtools الهدوء [-EubSr] [-C capQcoef]

قم بإنشاء علامة MD. إذا كانت علامة MD موجودة بالفعل ، فسيعطي هذا الأمر الامتداد
تحذير إذا كانت علامة MD التي تم إنشاؤها مختلفة عن العلامة الحالية. إخراج SAM
بشكل افتراضي.

والخيارات:

-A عند استخدامها بالاشتراك مع -r هذا الخيار يحل محل القاعدة الأصلية
الجودة.

-e قم بتحويل قاعدة القراءة إلى = إذا كانت مطابقة للمرجع المحاذي
يتمركز. لا يدعم Indel caller القواعد = في الوقت الحالي.

-u إخراج BAM غير مضغوط

-b الإخراج مضغوط BAM

-S الإدخال هو SAM مع خطوط الرأس

-C INT المعامل لتحديد جودة تعيين القراءات الضعيفة. انظر
يجمع الأمر للحصول على التفاصيل. [0]

-r احسب علامة BQ (بدون -A) أو جودة قاعدة الغطاء بواسطة BAQ (مع -A).

-E تمديد حساب BAQ. هذا الخيار يتاجر بالخصوصية لـ
حساسية ، على الرغم من أن التأثير ضئيل.

com.targetcut samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
المرجع]

يحدد هذا الأمر المناطق المستهدفة من خلال فحص استمرارية القراءة
العمق ، يحسب تسلسل الإجماع الفردي للأهداف ومخرجات SAM مع
كل تسلسل مطابق لهدف. عندما الخيار -f قيد الاستخدام ، سيكون BAQ
مطبق. هذا الأمر فقط مصممة لقطع الحيوانات المستنسخة fosmid من fosmid
تسلسل المسبح [المرجع. كيتسمان وآخرون. (2010)].

مرحلة جديدة مرحلة samtools [-AF] [-k len] [-b prefix] [-q minLOD] [-Q minBaseQ]

استدعاء ومرحلة النيوكلوتايد متغاير الزيجوت. والخيارات:

-A يقرأ إسقاط مع مرحلة غامضة.

-b STR بادئة إخراج BAM. عندما يكون هذا الخيار قيد الاستخدام ، ستكون قراءات المرحلة 0
محفوظ في الملف STR.0.bam و المرحلة 1 يقرأ في STR.1. بام. المرحلة غير معروفة
سيتم تخصيص القراءات بشكل عشوائي لأحد الملفين. يقرأ كيميري
مع أخطاء التبديل سيتم حفظها بتنسيق STR.chimeric.bam. [باطل]

-F لا تحاول إصلاح قراءات خيالية.

-k INT أقصى طول للمراحل المحلية. [13]

-q INT الحد الأدنى من مستوى الحد الأدنى المقشر لاستدعاء متغاير الزيجوت. [40]

-Q INT الحد الأدنى من الجودة الأساسية لاستخدامها في الاتصال الهيت. [13]

أدوات بكفتولس أوامر لأي لبس OPTIONS


عرض com.bcftools عرض [-AbFGNQSucgv] [-D seqDict] [-l قائمة] [-s قائمة] [-i
فجوة] [-t معدل] [-p varThres] [-m varThres] [-P قبل] [-1 nGroup1]
[-d مين فراك] [-U نبيرم] [-X PermThres] [-T نوع ثلاثي] in.bcf [منطقة]

التحويل بين BCF و VCF ، واستدعاء المتغيرات المرشحة وتقدير الأليل
الترددات.

الإدخال / الإخراج خيارات:

-A احتفظ بجميع الأليلات البديلة الممكنة في مواقع مختلفة. بشكل افتراضي،
يتجاهل أمر العرض الأليلات غير المحتملة.

-b الإخراج بتنسيق BCF. الافتراضي هو VCF.

-D FILE قاموس التسلسل (قائمة أسماء الكروموسومات) لـ VCF-> تحويل BCF
[باطل]

-F تشير إلى أن PL تم إنشاؤه بواسطة r921 أو قبله (الطلب مختلف).

-G قمع جميع معلومات التركيب الجيني الفردية.

-l FILE قائمة المواقع التي يتم فيها إخراج المعلومات [كافة المواقع]

-N تخطي المواقع التي لا يكون فيها الحقل REF A / C / G / T

-Q إخراج تنسيق احتمالية QCALL

-s FILE قائمة العينات لاستخدامها. العمود الأول في الإدخال يعطي العينة
الأسماء والثاني يعطي ploidy ، والذي يمكن أن يكون فقط 1 أو 2. متى
العمود الثاني غائب ، من المفترض أن تكون العينة 2. في
الناتج ، سيكون ترتيب العينات مطابقًا للعينات الموجودة في FILE.
[باطل]

-S الإدخال هو VCF بدلاً من BCF.

-u ناتج BCF غير مضغوط (القوة-ب).

توافق / متغير دعوة خيارات:

-c متغيرات الاستدعاء باستخدام الاستدلال البايزي. هذا الخيار تلقائيا
يستدعي الخيار -e.

-d تطفو متى -v قيد الاستخدام ، فتخطى المواقع التي يغطيها جزء العينات
يقرأ أقل من FLOAT. [0]

-e نفذ استدلال الاحتمالية القصوى فقط ، بما في ذلك تقدير الموقع
تردد الأليل واختبار هاردي-واينبرغ إيكوليبريوم واختباره
الجمعيات مع LRT.

-g استدعاء الأنماط الجينية لكل عينة في مواقع مختلفة (القوة-ج)

-i تطفو نسبة معدل طفرة INDEL إلى SNP [0.15]

-m تطفو نموذج جديد للاتصال المحسن متعدد الطبقات والمتغير النادر. اخر
يتم قبول ALT allele إذا تجاوزت P (chi ^ 2) من LRT عتبة FLOAT.
تبدو المعلمة قوية والقيمة الفعلية ليست كذلك في العادة
تؤثر على النتائج كثيرًا ؛ قيمة جيدة لاستخدام 0.99. هذا ال
طريقة الاتصال الموصى بها. [0]

-p تطفو يعتبر الموقع متغيرًا إذا كان P (المرجع | D)

-P STR الطيف الترددي السابق أو الأولي. إذا كان يمكن STR بالإضافة إلى, كوند 2,
مسطحة أو الملف الذي يتكون من ناتج خطأ من متغير سابق
استدعاء المدى.

-t تطفو معدل الحركة المتدرج للاتصال المتغير [0.001]

-T STR تفعيل الاتصال الثنائي / الثلاثي. للاتصال الثلاثي ، الخيار -s عادة ما يكون
يلزم تطبيقها لتكوين أعضاء الثلاثي وترتيبهم.
في الملف المقدم إلى الخيار -s، يجب أن تكون العينة الأولى هي
الطفل الثاني للأب والثالث للأم. صالح
قيم STR هي "pair" و "trioauto" و "trioxd" و "trioxs" ، حيث
"زوج" يستدعي الاختلافات بين عينتي إدخال ، و "trioxd"
("trioxs") يحدد أن المدخلات من كروموسوم X non-PAR
المناطق والطفل أنثى (ذكر). [باطل]

-v مواقع متغيرات الإخراج فقط (القوة -c)

تباين دعوة و جمعية اختبار خيارات:

-1 INT عدد عينات المجموعة 1. يستخدم هذا الخيار لتقسيم
عينات في مجموعتين لإجراء استدعاء أو اختبار الارتباط على النقيض من SNP.
عندما يكون هذا الخيار قيد الاستخدام ، سيتم إخراج معلومات VCF التالية:
PC2 و PCHI2 و QCHI2. [0]

-U INT عدد التباديل لاختبار الارتباط (فعال فقط مع -1)
[0]

-X تطفو إجراء التباديل فقط لـ P (تشي ^ 2) -U)
[0.01]

مؤشر com.bcftools مؤشر in.bcf

تم فرز مؤشر BCF للوصول العشوائي.

قط com.bcftools قط in1.bcf [in2.bcf [ ]]]

سلسلة ملفات BCF. ملفات الإدخال مطلوبة ليتم فرزها وامتلاكها
عينات متطابقة تظهر بنفس الترتيب.

SAM FORMAT


تنسيق محاذاة التسلسل / الخريطة (SAM) محدد بعلامات جدولة. بصرف النظر عن خطوط الرأس التي
تبدأ بالرمز "@" ، فكل سطر محاذاة يتكون من:

┌────┬───────┬──────────────────────────────────── ──────────────────────┐
معالحقلالوصف
├────┼───────┼──────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ نموذج الاستعلام / الزوج NAME │
│ 2 │ FLAG │ bitwise FLAG
│ 3 │ RNAME │ التسلسل المرجعي NAME │
│ 4 │ POS │ 1 المستندة إلى أقصى اليسار / إحداثيات التسلسل المقطوع │
│ 5 │ MAPQ تخطيط الجودة (متدرج) │
│ 6 │ CIAGR سلسلة سيجار ممتدة │
│ 7 │ MRNM │ تسلسل ماتي المرجعي NaMe (`` = 'إذا كان نفس RNAME) │
│ 8 │ MPOS │ 1-based Mate POSistion
│ 9 │ TLEN │ النموذج المستنتج LENgth (حجم الإدخال) │
│10 │ SEQ الاستعلام عن SEQuence على نفس الخيط مثل المرجع │
│11 │ QUAL │ استعلام الجودة (ASCII-33 يعطي جودة قاعدة Phred) │
│12 + │ OPT │ الحقول الاختيارية المتغيرة بالتنسيق TAG: VTYPE: VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘

يتم تعريف كل بت في حقل FLAG على النحو التالي:

┌───────┬─────┬─────────────────────────────────── ───────────────┐
علممركز حقوق الانسانالوصف
├───────┼─────┼─────────────────────────────────── ───────────────┤
│0x0001 │ p القراءة مقترنة بالتسلسل │
│0x0002 │ P │ يتم تعيين القراءة في زوج مناسب │
│0x0004 │ u تسلسل الاستعلام نفسه غير معيّن │
│0x0008 │ U │ الرفيق غير معين │
│0x0010 │ r │ حبلا من الاستعلام (1 للعكس) │
│0x0020 │ R │ حبلا رفيقه │
│0x0040 │ 1 القراءة هي أول قراءة في زوج │
│0x0080 │ 2 │ القراءة هي القراءة الثانية في زوج │
│0x0100 │ s المحاذاة ليست أساسية │
│0x0200 │ f فشلت القراءة في اختبارات جودة النظام الأساسي / البائع │
│0x0400 │ د │ القراءة إما PCR أو نسخة ضوئية │
└───────┴─────┴─────────────────────────────────── ───────────────┘
حيث يعطي العمود الثاني تمثيل السلسلة لحقل FLAG.

VCF FORMAT


تنسيق الاستدعاء المتغير (VCF) هو تنسيق محدد بعلامات تبويب مع كل سطر بيانات يتكون من
المجالات التالية:

┌────┬────────┬─────────────────────────────────── ───────────────────────────┐
معالحقلالوصف
├────┼────────┼─────────────────────────────────── ───────────────────────────┤
│ 1 │ كروموسوم │ اسم كروموسوم │
│ 2 │ POS أقصى يسار موضع المتغير │
│ 3 معرف │ معرف متغير فريد │
│ 4 │ REF أليل المرجع
│ 5 │ ALT │ أليل (أليل) ALTernate ، مفصولة بفاصلة │
6 الجودة │ المتغير / جودة المرجع │
│ 7 ، مرشح ، المرشحات المطبقة │
│ 8 │ INFO معلومات متعلقة بالمتغير ، مفصولة بفاصلة منقوطة │
│ 9 │ تنسيق تنسيق حقول النمط الجيني ، مفصولة بنقطتين (اختياري) │
│10 + │ عينة │ عينة من الأنماط الجينية ومعلومات لكل عينة (اختياري) │
└────┴────────┴─────────────────────────────────── ───────────────────────────┘

الجدول التالي يعطي معلومات العلامات المستخدمة من قبل samtools و bcftools.

┌──────┬───────────┬────────────────────────────── ────────────────────────────────────────────────── ────────────────────┐
بطاقةشكلالوصف
├──────┼───────────┼────────────────────────────── ────────────────────────────────────────────────── ────────────────────┤
└──────┴───────────┴────────────────────────────── ────────────────────────────────────────────────── ────────────────────┘

أمثلة


o استيراد SAM إلى BAM عندما SQ الخطوط موجودة في الرأس:

عرض samtools -bS aln.sam> aln.bam

If SQ الخطوط غائبة:

samtools faidx المرجع
عرض samtools -bt ref.fa.fai aln.sam> aln.bam

أين المرجع .fa.fai يتم إنشاؤه تلقائيًا بواسطة خطأ أمر.

س إرفاق RG علامة أثناء دمج المحاذاة المرتبة:

perl -e 'طباعة
"RG \ tID: ga \ tSM: hs \ tLB: ga \ tPL: Illumina \ n @ RG \ tID: 454 \ tSM: hs \ tLB: 454 \ tPL: 454 \ n" '> rg.txt
دمج Samtools -rh rg.txt merged.bam ga.bam 454.bam

القيمة في RG يتم تحديد العلامة من خلال اسم الملف الذي تأتي منه القراءة. في هذا
على سبيل المثال ، في مندمجة، يقرأ من ga.bam سيتم إرفاقه RG: Z: ga، بينما يقرأ من
454. بام سيتم إرفاقه RG: Z: 454.

o اتصل بـ SNPs و INDELs القصيرة لشخص واحد ثنائي الصيغة:

samtools mpileup -ugf ref.fa aln.bam | عرض bcftools -bvcg -> var.raw.bcf
عرض bcftools var.raw.bcf | vcfutils.pl varFilter -D 100> var.flt.vcf

-D يتحكم خيار varFilter في أقصى عمق قراءة ، والذي يجب ضبطه على
حوالي ضعف متوسط ​​عمق القراءة. يمكن للمرء أن يفكر في إضافة -50 إلى com.mpileup إذا رسم الخرائط
تم المبالغة في تقدير الجودة للقراءات التي تحتوي على حالات عدم تطابق مفرطة. تطبيق هذا الخيار
عادة يساعد BWA- قصير ولكن لا يجوز لمصممي الخرائط الآخرين.

o إنشاء تسلسل إجماع لشخص واحد ثنائي الصيغة:

samtools mpileup -uf ref.fa aln.bam | عرض bcftools -cg - | vcfutils.pl vcf2fq>
cns.fq

o استدعاء الطفرات الجسدية من زوج من العينات:

samtools mpileup -DSuf ref.fa aln.bam | عرض bcftools - زوج bvcgT -> var.bcf

في حقل معلومات الإخراج ، CLR يعطي نسبة Phred-log بين الاحتمالية بواسطة
معالجة العينتين بشكل مستقل ، والاحتمالية باشتراط استخدام التركيب الوراثي
تكون متطابقة. هذه CLR هي عبارة عن درجة تقيس ثقة الجسم بشكل فعال
المكالمات. كلما كان ذلك أفضل.

o Call de novo والطفرات الجسدية من عائلة ثلاثية:

samtools mpileup -DSuf ref.fa aln.bam | عرض bcftools -bvcgT pair -s sample.txt ->
var.bcf

قم بتقديم عينات. txt يجب أن تتكون من ثلاثة أسطر تحدد العضو وترتيب
عينات (بترتيب الطفل - الأب - الأم). بصورة مماثلة، CLR يعطي Phred- سجل
نسبة الاحتمالية مع وبدون القيد الثلاثي. CGU يظهر على الأرجح
تكوين النمط الجيني بدون القيد الثلاثي ، و CGT يعطي على الأرجح
تكوين النمط الجيني يلبي القيد الثلاثي.

o فرد المرحلة الأولى:

سامتولز الهدوء -اور aln.bam ref.fa | samtools المرحلة -b البادئة -> stage.out

الهدوء يتم استخدام الأمر لتقليل تغاير الزيجوت الكاذب حول INDELs.

o اتصل بـ SNPs و indels القصيرة لأفراد ثنائي الصبغة متعددين:

samtools mpileup -P ILLUMINA -ugf ref.fa * .bam | عرض bcftools -bcvg -> var.raw.bcf
عرض bcftools var.raw.bcf | vcfutils.pl varFilter -D 2000> var.flt.vcf

يتم التعرف على الأفراد من SM العلامات في RG خطوط الرأس. يمكن للأفراد أن يكونوا
مجمعة في ملف محاذاة واحد ؛ يمكن أيضًا فصل فرد واحد إلى ملفات متعددة.
-P الخيار يحدد أنه يجب جمع مرشحي indel فقط من مجموعات القراءة
مع الالجائزة @ RG-PL تعيين العلامة إلى إيلومينا. جمع المرشحين indel من القراءات المتسلسلة
بتقنية indel-prone قد تؤثر على أداء الاتصال indel.

لاحظ أن هناك نموذج استدعاء جديد يمكن استدعاؤه بواسطة

عرض bcftools -m0.99 ...

الذي يعمل على إصلاح بعض القيود الشديدة على الطريقة الافتراضية.

بالنسبة إلى التصفية ، يبدو أنه يتم تحقيق أفضل النتائج من خلال تطبيق سنبجاب مرشح و
ثم تطبيق بعض نهج التعلم الآلي

vcf-annotate -f SnpGap = n
مرشح vcf ...

يمكن العثور على كلاهما في ملف com.vcftools و هتسليب الحزمة (الروابط أدناه).

o اشتق طيف تردد الأليل (AFS) في قائمة مواقع من عدة أفراد:

samtools mpileup -Igf ref.fa * .bam> all.bcf
bcftools view -bl sites.list all.bcf> sites.bcf
عرض bcftools -cGP cond2 sites.bcf> / dev / null 2> sites.1.afs
عرض bcftools -cGP sites.1.afs sites.bcf> / dev / null 2> sites.2.afs
عرض bcftools -cGP sites.2.afs sites.bcf> / dev / null 2> sites.3.afs
......

أين site.list يحتوي على قائمة المواقع مع كل سطر يتكون من المرجع
اسم التسلسل والموقف. الأتى com.bcftools أوامر تقدير AFS بواسطة EM.

o تطبيق محاذاة تفريغ BAQ للمتصلين الآخرين SNP:

سمتولس الهدوء -بار الن.بام> aln.baq.bam

يضيف ويصحح NM و MD العلامات في نفس الوقت. ال الهدوء يأتي الأمر أيضا
مع الالجائزة -C الخيار ، نفس الخيار الموجود في يجمع و com.mpileup. تقدم بطلب إذا كان ذلك يساعدك.

القيود


o الكلمات غير المحاذية المستخدمة في bam_import.c و bam_endian.h و bam.c و bam_aux.c.

o لا يعمل نظام rmdup ذو النهاية المزدوجة Samtools للقراءات غير المقترنة (على سبيل المثال ، القراءة اليتيمة أو النهاية
تعيين كروموسومات مختلفة). إذا كان هذا مصدر قلق ، فالرجاء استخدام Picard
MarkDuplicate الذي يعالج هذه الحالات بشكل صحيح ، على الرغم من أنها أبطأ قليلاً.

استخدم bcftools عبر الإنترنت باستخدام خدمات onworks.net


خوادم ومحطات عمل مجانية

قم بتنزيل تطبيقات Windows و Linux

أوامر لينكس

Ad