هذا هو الأمر soapdenovo-127mer الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
Soapdenovo - طريقة تجميع قصيرة القراءة يمكنها بناء مجموعة مسودة de novo
موجز
Soapdenovo_31mer Soapdenovo_63mer Soapdenovo_127mer
المُقدّمة
SOAPdenovo هي طريقة تجميع جديدة قصيرة القراءة يمكنها بناء مجموعة مسودة de novo
للجينومات ذات الحجم البشري. تم تصميم البرنامج خصيصًا لتجميع Illumina GA
قراءات قصيرة. إنه يخلق فرصًا جديدة لبناء تسلسلات مرجعية وحملها
إجراء تحليلات دقيقة للجينومات غير المكتشفة بطريقة فعالة من حيث التكلفة.
1) دعم كمر كبير يصل إلى 127 للاستفادة من القراءات الطويلة. يتم توفير ثلاثة إصدارات.
31. يدعم الإصدار 31mer kmer فقط <= XNUMX.
ثانيًا. يدعم الإصدار 63mer kmer فقط <= 63 ويضاعف استهلاك الذاكرة أكثر من
إصدار 31mer ، حتى يتم استخدامه مع kmer <= 31.
ثالثا. الإصدار 127mer يدعم kmer فقط <= 127 ومضاعفة استهلاك الذاكرة من
إصدار 63mer ، حتى يتم استخدامه مع kmer <= 63.
يرجى ملاحظة أنه مع وجود kmer الأطول ، ستنخفض كمية العقد بشكل ملحوظ ،
وبالتالي فإن استهلاك الذاكرة عادة ما يكون أقل من الضعف مع الإصدار المحول.
2) تمت إضافة معلمة جديدة في وحدة "pregraph". تبدأ هذه المعلمة الذاكرة
افتراض لتجنب المزيد من إعادة التخصيص. وحدة المعامل هي GB. بدون مزيد
إعادة التوزيع ، يعمل SOAPdenovo بشكل أسرع ويوفر إمكانية التهام كل ذاكرة
الآلة. على سبيل المثال ، إذا كانت محطة العمل توفر 50 جرامًا من الذاكرة الخالية ، فاستخدم -a 50 بوصة
pregraph ، ثم سيتم تخصيص كمية ثابتة من ذاكرة 50g قبل المعالجة
يقرأ. يمكن أن يؤدي ذلك أيضًا إلى تجنب المقاطعة من قِبل مستخدمين آخرين يشاركون نفس الجهاز.
3) يتم الآن تمثيل القواعد المملوءة بالفجوة بأحرف صغيرة في ملف "scafSeq".
4) قدم تعليمات SIMD لتعزيز الأداء.
الاعداد ملف
بالنسبة لمشروعات الجينوم الكبيرة ذات التسلسل العميق ، عادة ما يتم تنظيم البيانات على أنها متعددة
قراءة ملفات التسلسل التي تم إنشاؤها من مكتبات متعددة. يخبر ملف التكوين ملف
المجمع أين تجد هذه الملفات والمعلومات ذات الصلة. "example.config" هو ملف
مثال على مثل هذا الملف.
يحتوي ملف التكوين على قسم للمعلومات العامة ، ثم مكتبة متعددة
أقسام. في الوقت الحالي ، يتم تضمين "max_rd_len" فقط في قسم المعلومات العامة. أي
قراءة أطول من max_rd_len سيتم قطعها لهذا الطول.
معلومات المكتبة ومعلومات تسلسل البيانات المتولدة من المكتبة
يجب تنظيمها في قسم المكتبة المقابل. يبدأ كل قسم من أقسام المكتبة
بعلامة [LIB] ويتضمن العناصر التالية:
متوسطات
تشير هذه القيمة إلى متوسط حجم الإدراج لهذه المكتبة أو قيمة الذروة
الموضع في شكل توزيع حجم الإدخال.
عكسي
يأخذ هذا الخيار القيمة 0 أو 1. ويخبر المجمّع إذا كانت تسلسلات القراءة بحاجة
ليتم عكسها بشكل مكمل. تنتج Illumima GA نوعين من النهايات المزدوجة
المكتبات: أ) إلى الأمام والعكس ، ولدت من الحمض النووي المجزأ ينتهي بنموذجي
حجم الإدخال أقل من 500 نقطة أساس ؛ ب) إلى الأمام ، المتولدة من التعميم
مكتبات ذات حجم إدخال نموذجي أكبر من 2 كيلو بايت. المعلمة "reverse_seq"
يجب تعيينه للإشارة إلى هذا: 0 ، إلى الأمام والعكس ؛ 1 ، إلى الأمام.
asm_flags = 3
يحدد هذا المؤشر الجزء (الأجزاء) التي يتم استخدام القراءات فيها. يأخذ القيمة 1 (فقط
تجميع contig) ، 2 (تجميع سقالة فقط) ، 3 (كل من تجميع contig والسقالة) ،
أو 4 (سد الفجوة فقط).
rd_len_cutoff
سيقوم المجمع بقص القراءات من المكتبة الحالية إلى هذا الطول.
الترتيب يأخذ قيمًا صحيحة ويقرر ترتيب استخدام القراءات للسقالة
حَشد. يتم استخدام المكتبات التي لها نفس "الرتبة" في نفس الوقت أثناء إنشاء السقالة
التجمع.
Pair_num_cutoff
هذه المعلمة هي قيمة القطع لرقم الزوج من أجل اتصال موثوق به بين
اثنين من contigs أو ما قبل السقالات.
Map_len
يسري هذا في خطوة "الخريطة" وهو الحد الأدنى لطول المحاذاة بين a
قراءة و contig المطلوبة للحصول على موقع قراءة موثوق.
يقبل المجمّع قراءة الملف بتنسيقين: FASTA أو FASTQ. العلاقة بين الزوجين
يمكن الإشارة بطريقتين: ملفان متسلسلان ينتميان إلى نفس الترتيب
إلى زوج أو قراءتين متجاورتين في ملف واحد (FASTA فقط) ينتمي إلى زوج.
في ملف التكوين ، تتم الإشارة إلى الملفات الطرفية المفردة بـ "f = / path / filename" أو
"q = / pah / filename" لتنسيقات fasta أو fastq بشكل منفصل. يقترن يقرأ في اثنين فاستا
يشار إلى ملفات التسلسل "f1 =" و "f2 =". بينما تقرأ المقترنة في تسلسلين fastq
تتم الإشارة إلى الملفات بواسطة “q1 =” و “q2 =”. القراءات المزدوجة في ملف تسلسل فاستا واحد هو
يشار إليها بواسطة "p =" البند.
جميع العناصر المذكورة أعلاه في كل قسم مكتبة اختيارية. المجمّع يعين الافتراضي
قيم لمعظمهم. إذا لم تكن متأكدًا من كيفية تعيين معلمة ، يمكنك إزالتها
من ملف التكوين الخاص بك.
تواصل it بدأت
بمجرد توفر ملف التكوين ، فإن الطريقة النموذجية لتشغيل المجمّع هي: $ {bin}
الكل –s config_file –K 63 –R –o graph_prefix
يمكن للمستخدم أيضًا اختيار تشغيل عملية التجميع خطوة بخطوة على النحو التالي: $ {bin} pregraph
\ [u2013] s config_file \ [u2013] K 63 [\ [u2013] R -d \ [u2013] p -a] \ [u2013] o graph_prefix
$ {bin} contig \ [u2013] g graph_prefix [\ [u2013] R \ [u2013] M 1 -D] $ {bin} خريطة \ [u2013]
config_file \ [u2013] g graph_prefix [-p] $ {bin} scaff \ [u2013] g graph_prefix [\ [u2013] F -u
-ز -ص]
مزيد من الخيارات
-a INT ابدأ افتراض الذاكرة (جيجابايت) لتجنب المزيد من إعادة التخصيص
-ملف تكوين STR
-o بادئة ملف الرسم البياني الناتج STR
-g STR بادئة ملف الرسم البياني
-حجم K INT K-mer [الافتراضي 23 ، الحد الأدنى 13 ، الحد الأقصى 127]
-p INT multithreads، n thread [الافتراضي 8]
- قراءة استخدام R لحل التكرارات الصغيرة [افتراضي لا]
-d INT يزيل K-mers منخفض التردد بتردد لا يزيد عن [الافتراضي 0]
-D INT يزيل الحواف بتغطية لا تزيد عن [الافتراضي 1]
-قوة M INT لدمج التسلسلات المتشابهة أثناء الاتصال [الافتراضي 1 ، دقيقة 0 ، كحد أقصى
3]
-F سد فجوة داخل السقالة [الافتراضي لا]
-u un-mask عالية التغطية contigs قبل السقالات [defaut mask]
سمحت -G INT بفارق الطول بين الفجوة المقدرة والمملوءة
- L الحد الأدنى لطول contigs المستخدمة في السقالات
الناتج ملفات
يتم إخراج هذه الملفات كنتائج تجميع:
أ. * .contig
متواليات contig دون استخدام معلومات زوج ماتي
ب. * .scafSeq
تسلسل السقالة (يمكن استخلاص تسلسلات contig النهائية عن طريق تحطيم السقالة
تسلسل في مناطق الفجوة)
هناك بعض الملفات الأخرى التي توفر معلومات مفيدة للمستخدمين المتقدمين ، وهي ملفات
المدرجة في الملحق ب.
الأسئلة الشائعة
كيفية إلى طقم ك مير بحجم؟
يقبل البرنامج الأرقام الفردية بين 13 و 31. سيكون لدى K-mers الأكبر معدل أعلى من
التفرد في الجينوم ويجعل الرسم البياني أبسط ، لكنه يتطلب تسلسلًا عميقًا
العمق وطول القراءة الأطول لضمان التداخل في أي موقع جينومي.
كيفية إلى طقم مكتبة رتبة؟
سوف يستخدم SOAPdenovo مكتبات ذات طرفين مع حجم إدخال من الأصغر إلى الأكبر إلى
بناء السقالات. سيتم استخدام المكتبات ذات الرتبة نفسها في نفس الوقت. ل
على سبيل المثال ، في مجموعة بيانات لجينوم بشري ، قمنا بتعيين خمس رتب لخمس مكتبات مع إدراج
بحجم 200-bp ، و 500-bp ، و 2-Kb ، و 5-Kb ، و 10-Kb ، بشكل منفصل. من المرغوب فيه أن تكون الأزواج
توفر كل رتبة تغطية مادية كافية للجينوم.
APPENDIX A: an example.config
#maximal طول القراءة
max_rd_len = 50
[ليب]
# متوسط حجم الإدراج
متوسط عدد الوحدات = 200
# إذا كان التسلسل يحتاج إلى عكس
reverse_seq = 0
# في أي جزء (أجزاء) يتم استخدام القراءات
asm_flags = 3
# استخدم فقط أول 50 بت في الثانية من كل قراءة
rd_len_cutoff = 50
# في أي ترتيب يتم استخدام القراءات أثناء السقالات
رتبة = 1
# قطع رقم الزوج لاتصال موثوق (الافتراضي 3)
pair_num_cutoff = 3
# الحد الأدنى لطول المحاذاة لـ contigs للحصول على موقع قراءة موثوق (الافتراضي 32)
map_len = 32
# fastq للقراءة 1
q1 = / path / ** LIBNAMEA ** / fastq_read_1.fq
# fastq للقراءة 2 يتبع دائما ملف fastq للقراءة 1
q2 = / path / ** LIBNAMEA ** / fastq_read_2.fq
ملف #fasta للقراءة 1
f1 = / path / ** LIBNAMEA ** / fasta_read_1.fa
# fastq للقراءة 2 يتبع دائما ملف fastq للقراءة 1
f2 = / path / ** LIBNAMEA ** / fasta_read_2.fa
# fastq للقراءات الفردية
q = / المسار / ** LIBNAMEA ** / fastq_read_single.fq
# fasta للقراءات الفردية
f = / path / ** LIBNAMEA ** / fasta_read_single.fa
# ملف فاستا واحد للقراءات المزدوجة
p = / path / ** LIBNAMEA ** / pairs_in_one_file.fa
[ليب]
متوسط عدد الوحدات = 2000
reverse_seq = 1
asm_flags = 2
رتبة = 2
# قطع رقم الزوج لاتصال موثوق
# (الافتراضي 5 لحجم الإدخال الكبير)
pair_num_cutoff = 5
# الحد الأدنى لطول المحاذاة لـ contigs للحصول على موقع قراءة موثوق
# (الافتراضي 35 لحجم الإدخال الكبير)
map_len = 35
q1 = / path / ** LIBNAMEB ** / fastq_read_1.fq
q2 = / path / ** LIBNAMEB ** / fastq_read_2.fq
ف = / المسار / ** LIBNAMEB ** / fastq_read_single.fq
f = / path / ** LIBNAMEB ** / fasta_read_single.fa
الزائدة الدودية B: الناتج ملفات
1. إخراج الملفات من الأمر "pregraph"
أ. * .kmerFreq
يعرض كل صف عدد Kmers بتردد يساوي رقم الصف.
ب. *.حافة
يعطي كل سجل معلومات عن الحافة في الرسم البياني السابق: الطول ، الكيلومترات على كلا الطرفين ،
متوسط تغطية kmer ، سواء كان متطابقًا مع التتابع والتسلسل.
ج. * .markOnEdge & * .path
هذان الملفان مخصصان لاستخدام القراءات لحل التكرارات الصغيرة
ه. * .preArc
الوصلات بين الحواف التي تم إنشاؤها بواسطة مسارات القراءة.
F. * .vertex
كمرز في نهايات الحواف.
ز. * .preGraphBasic
بعض المعلومات الأساسية حول الرسم البياني المسبق: عدد الرأس ، قيمة K ، عدد الأضلاع ،
أقصى طول للقراءة وما إلى ذلك.
2. إخراج الملفات من الأمر "contig"
أ. * .contig
معلومات contig: مؤشر الحافة المقابل ، الطول ، تغطية kmer ، ما إذا كان طرفًا و
الترتيب. يتم تضمين إما contig أو نظيره التكميلي العكسي. كل
يشار إلى فهرس contig التكميلي العكسي في ملف * .ContigIndex.
ب. *.قوس
أقواس تخرج من كل حافة وتغطيتها المقابلة بالقراءات
ج. * .updated.edge
بعض المعلومات عن كل حافة في الرسم البياني: الطول ، وعدد الكيلومترات في كلا الطرفين ، وفرق المؤشر
بين الحافة التكميلية العكسية وهذه الحافة.
د. * .ContigIndex
يعطي كل سجل معلومات حول كل كونتيج في *. كونتيج: إنه فهرس الحافة ، الطول ،
فرق المؤشر بين نظيره التكميلي العكسي ونفسه.
3. إخراج الملفات من الأمر "map"
أ. * .peGrads
معلومات لكل مكتبة استنساخ: حجم الإدخال ، قراءة الحد الأعلى للفهرس ، الرتبة والزوج
عدد القطع لرابط موثوق.
يمكن مراجعة هذا الملف يدويًا لضبط السقالات.
ب. * .readOnContig
اقرأ المواقع على contigs. تتم الإشارة هنا إلى contigs بواسطة مؤشر الحافة الخاص بهم. حول Howerver
نصفهم غير مدرجين في ملف * .contig لمكملتهم العكسية
يتم تضمين النظراء بالفعل.
ج. * .readInGap
يتضمن هذا الملف قراءات يمكن أن توجد في فجوات بين contigs. هذه المعلومة
سوف تستخدم لسد الفجوات في السقالات.
4. إخراج الملفات من الأمر "scaff"
أ. * .newContigIndex
يتم فرز الكونتيج حسب طولها قبل السقالات. يتم سرد فهرسهم الجديد
في هذا الملف. هذا مفيد إذا أراد المرء أن يقابل contigs في * .contig مع هؤلاء
في *. الروابط.
ب. * الروابط
الروابط بين contigs التي تم إنشاؤها بواسطة أزواج القراءة. يتم استخدام فهرس جديد.
ج. * .scaf_gap
Contigs في الفجوات التي تم العثور عليها بواسطة الرسم البياني المتصل الناتج عن طريق الإجراء المتواصل. هنا فهرس جديد
يستخدم.
د. * .scaf
Contigs لكل سقالة: مؤشر contig (مطابق للفهرس في * .contig) ، تقريبي
وضع البداية على السقالة والتوجيه وطول الكونتيج وروابطه بالآخرين.
ه. * .gapSeq
تسلسل الفجوة بين contigs.
F. * .scafSeq
تسلسل كل سقالة.
استخدم Soapdenovo-127mer عبر الإنترنت باستخدام خدمات onworks.net