GoGPT Best VPN GoSearch

ऑनवर्क्स फ़ेविकॉन

सोपडेनोवो-63मेर - क्लाउड में ऑनलाइन

उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर पर ऑनवर्क्स मुफ्त होस्टिंग प्रदाता में सोपडेनोवो-63मेर चलाएं

यह सोपडेनोवो-63मेर कमांड है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर में से एक का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।

कार्यक्रम:

नाम


सोपडेनोवो - शॉर्ट-रीड असेंबली विधि जो एक डे नोवो ड्राफ्ट असेंबली का निर्माण कर सकती है

SYNOPSIS


सोपडेनोवो_31मेर सोपडेनोवो_63मेर सोपडेनोवो_127मेर

परिचय


SOAPdenovo एक उपन्यास शॉर्ट-रीड असेंबली विधि है जो एक डे नोवो ड्राफ्ट असेंबली का निर्माण कर सकती है
मानव आकार के जीनोम के लिए। कार्यक्रम को विशेष रूप से Illumina GA . को इकट्ठा करने के लिए डिज़ाइन किया गया है
लघु पढ़ता है। यह संदर्भ अनुक्रमों के निर्माण और ले जाने के लिए नए अवसर पैदा करता है
लागत प्रभावी तरीके से बेरोज़गार जीनोम का सटीक विश्लेषण करना।

1) लंबे रीड का उपयोग करने के लिए 127 तक के बड़े किमी का समर्थन करें। तीन संस्करण प्रदान किए गए हैं।
I. 31mer संस्करण केवल kmer का समर्थन करता है <=31।
द्वितीय. 63mer संस्करण kmer केवल <=63 का समर्थन करता है और स्मृति खपत को . से दोगुना करता है
31mer संस्करण, यहां तक ​​कि kmer <=31 के साथ प्रयोग किया जा रहा है।
III. 127mer संस्करण kmer केवल <=127 का समर्थन करता है और स्मृति खपत को . से दोगुना करता है
63mer संस्करण, यहां तक ​​कि kmer <=63 के साथ प्रयोग किया जा रहा है।

कृपया ध्यान दें कि, लंबे किमी के साथ, नोड्स की मात्रा में काफी कमी आएगी,
इस प्रकार स्मृति खपत आमतौर पर स्थानांतरित संस्करण के साथ दोगुने से कम होती है।

2) "प्रीग्राफ" मॉड्यूल में जोड़ा गया नया पैरामीटर। यह पैरामीटर मेमोरी शुरू करता है
आगे पुनर्वितरण से बचने के लिए धारणा। पैरामीटर की इकाई जीबी है। बिना आगे
पुन: आवंटन, SOAPdenovo तेजी से चलता है और की सभी मेमोरी को खाने की क्षमता प्रदान करता है
मशीन। उदाहरण के लिए, यदि वर्कस्टेशन 50g निःशुल्क मेमोरी प्रदान करता है, तो -a 50 in . का उपयोग करें
प्रीग्राफ चरण, फिर प्रसंस्करण से पहले 50g मेमोरी की एक स्थिर राशि आवंटित की जाएगी
पढ़ता है। यह उसी मशीन को साझा करने वाले अन्य उपयोगकर्ताओं द्वारा बाधित होने से भी बच सकता है।

3) गैप भरे हुए आधार अब 'scafSeq' फ़ाइल में लोअरकेस वर्णों द्वारा दर्शाए गए हैं।

4) प्रदर्शन को बढ़ावा देने के लिए SIMD निर्देश प्रस्तुत किए।

विन्यास पट्टिका


डीप सीक्वेंसिंग वाली बड़ी जीनोम परियोजनाओं के लिए, डेटा को आमतौर पर मल्टीपल के रूप में व्यवस्थित किया जाता है
एकाधिक पुस्तकालयों से उत्पन्न अनुक्रम फ़ाइलें पढ़ें। कॉन्फ़िगरेशन फ़ाइल बताती है
असेंबलर जहां इन फाइलों और प्रासंगिक जानकारी को ढूंढना है। "example.config" एक है
ऐसी फ़ाइल का उदाहरण।

कॉन्फ़िगरेशन फ़ाइल में वैश्विक जानकारी के लिए एक अनुभाग है, और फिर कई पुस्तकालय हैं
खंड। अभी वैश्विक सूचना अनुभाग में केवल “max_rd_len” शामिल है। कोई भी
max_rd_len से अधिक समय तक पढ़ें इस लंबाई में कटौती की जाएगी।

पुस्तकालय की जानकारी और पुस्तकालय से उत्पन्न अनुक्रमण डेटा की जानकारी
संबंधित पुस्तकालय अनुभाग में आयोजित किया जाना चाहिए। प्रत्येक पुस्तकालय अनुभाग शुरू होता है
टैग के साथ [LIB] और इसमें निम्नलिखित आइटम शामिल हैं:

औसत_इन्स
यह मान इस लायब्रेरी के औसत सम्मिलित आकार या शिखर मान को इंगित करता है
सम्मिलित आकार वितरण आकृति में स्थिति।

रिवर्स_सेक
यह विकल्प 0 या 1 मान लेता है। यह असेंबलर को बताता है कि क्या रीड सीक्वेंस की जरूरत है
पूरक रूप से उलट दिया जाना। Illumima GA दो प्रकार के युग्मित-अंत का उत्पादन करता है
पुस्तकालय: ए) खंडित डीएनए से उत्पन्न फॉरवर्ड-रिवर्स, विशिष्ट के साथ समाप्त होता है
500 बीपी से कम आकार डालें; बी) फॉरवर्ड-फॉरवर्ड, सर्कुलेटिंग से उत्पन्न
2 Kb से अधिक विशिष्ट सम्मिलित आकार वाले पुस्तकालय। पैरामीटर "रिवर्स_सेक"
इसे इंगित करने के लिए सेट किया जाना चाहिए: 0, फॉरवर्ड-रिवर्स; 1, आगे-आगे।

asm_flags=3
यह संकेतक तय करता है कि किस हिस्से में रीड्स का उपयोग किया जाता है। यह मान 1 लेता है (केवल
कॉन्टेग असेंबली), 2 (केवल स्कैफोल्ड असेंबली), 3 (कॉइग और स्कैफोल्ड असेंबली दोनों),
या 4 (केवल गैप क्लोजर)।

rd_len_cutoff
असेंबलर वर्तमान पुस्तकालय से इस लंबाई तक रीड्स को काट देगा।

रैंक यह पूर्णांक मान लेता है और तय करता है कि किस क्रम में स्कैफोल्ड के लिए रीड का उपयोग किया जाता है
सभा। मचान के दौरान एक ही समय में समान "रैंक" वाले पुस्तकालयों का उपयोग किया जाता है
सभा।

जोड़ी_नम_कटऑफ
यह पैरामीटर के बीच एक विश्वसनीय कनेक्शन के लिए जोड़ी संख्या का कटऑफ मान है
दो कांटे या पूर्व-मचान।

नक्शा_लेन
यह "मानचित्र" चरण में प्रभावी होता है और a . के बीच न्यूनतम संरेखण लंबाई है
पढ़ें और एक विश्वसनीय पठन स्थान के लिए आवश्यक एक प्रतियोगिता।

कोडांतरक दो स्वरूपों में फ़ाइल को पढ़ने को स्वीकार करता है: FASTA या FASTQ। साथी-जोड़ी का रिश्ता
दो तरह से इंगित किया जा सकता है: एक ही क्रम में पढ़ने वाली दो अनुक्रम फाइलें संबंधित
एक जोड़ी के लिए, या दो आसन्न एक जोड़ी से संबंधित एक फ़ाइल (केवल FASTA) में पढ़ता है।

कॉन्फ़िगरेशन फ़ाइल में एकल अंत फ़ाइलें "f=/path/filename" या . द्वारा इंगित की जाती हैं
"q=/pah/filename" फास्टा या फास्टक प्रारूपों के लिए अलग से। जोड़ी दो उपवासों में पढ़ती है
अनुक्रम फ़ाइलें "f1=" और "f2=" द्वारा इंगित की जाती हैं। जबकि युग्मित दो फास्टक अनुक्रमों में पढ़ता है
फ़ाइलें "q1=" और "q2=" द्वारा इंगित की जाती हैं। एकल फास्टा अनुक्रम फ़ाइल में युग्मित पठन है
"पी =" आइटम द्वारा इंगित।

प्रत्येक पुस्तकालय अनुभाग में उपरोक्त सभी आइटम वैकल्पिक हैं। असेंबलर डिफ़ॉल्ट असाइन करता है
उनमें से अधिकांश के लिए मूल्य। यदि आप सुनिश्चित नहीं हैं कि पैरामीटर कैसे सेट करें, तो आप इसे हटा सकते हैं
आपकी कॉन्फ़िगरेशन फ़ाइल से।

it शुरू


एक बार कॉन्फ़िगरेशन फ़ाइल उपलब्ध हो जाने पर, असेंबलर को चलाने का एक विशिष्ट तरीका है: ${bin}
सभी -s config_file -K 63 -R -o graph_prefix

उपयोगकर्ता असेंबली प्रक्रिया को चरण दर चरण चलाने का विकल्प भी चुन सकता है: ${bin} pregraph
\[u2013]s config_file \[u2013]K 63 [\[u2013]R -d \[u2013]p -a] \[u2013]o ग्राफ_उपसर्ग
${बिन} contig \[u2013]g graph_prefix [\[u2013]R \[u2013]M 1 -D] ${bin} मैप \[u2013]s
config_file \[u2013]g ग्राफ_उपसर्ग [-p] ${bin} स्कैफ़ \[u2013]g ग्राफ_उपसर्ग [\[u2013]F -u
-जी-पी]

ऑप्शंस


-a INT आगे के पुन: आवंटन से बचने के लिए मेमोरी धारणा (GB) शुरू करें

-एस एसटीआर विन्यास फाइल

-ओ एसटीआर आउटपुट ग्राफ फ़ाइल उपसर्ग

-जी एसटीआर इनपुट ग्राफ फ़ाइल उपसर्ग

-के आईएनटी के-मेर आकार [डिफ़ॉल्ट 23, न्यूनतम 13, अधिकतम 127]

-p INT मल्टीथ्रेड्स, n थ्रेड्स [डिफ़ॉल्ट 8]

-R उपयोग छोटे दोहराव को हल करने के लिए पढ़ता है [डिफ़ॉल्ट संख्या]

-d INT कम-आवृत्ति वाले K-mers को हटा दें जिसकी आवृत्ति [डिफ़ॉल्ट 0] से बड़ी नहीं है

-D INT कवरेज के साथ किनारों को हटा दें जो कि बड़ा नहीं है [डिफ़ॉल्ट 1]

-एम INT संयोजन के दौरान समान अनुक्रमों को मर्ज करने की ताकत [डिफ़ॉल्ट 1, न्यूनतम 0, अधिकतम
3]

-F इंट्रा-स्कैफोल्ड गैप क्लोजर [डिफ़ॉल्ट नहीं]

-यू मचान से पहले उच्च कवरेज वाले अंजीर को अन-मास्क करें [डिफॉल्ट मास्क]

-G INT ने अनुमानित और भरे हुए अंतराल के बीच लंबाई के अंतर की अनुमति दी

-एल मचान के लिए इस्तेमाल की जाने वाली न्यूनतम अंजीर की लंबाई

उत्पादन फ़ाइलों


ये फ़ाइलें असेंबली परिणामों के रूप में आउटपुट हैं:

ए। *.contig

मेट जोड़ी जानकारी का उपयोग किए बिना कॉन्टिग सीक्वेंस

बी। *.scafSeq

पाड़ अनुक्रम
अंतराल क्षेत्रों में अनुक्रम)

कुछ अन्य फाइलें हैं जो उन्नत उपयोगकर्ताओं के लिए उपयोगी जानकारी प्रदान करती हैं, जो हैं
परिशिष्ट बी में सूचीबद्ध।

सामान्य प्रश्न


कैसे सेवा मेरे सेट के-मेरो आकार?
कार्यक्रम 13 और 31 के बीच विषम संख्याओं को स्वीकार करता है। बड़े K-mers की दर अधिक होगी
जीनोम में विशिष्टता और ग्राफ को सरल बना देगा, लेकिन इसके लिए गहन अनुक्रमण की आवश्यकता है
किसी भी जीनोमिक स्थान पर ओवरलैप की गारंटी के लिए गहराई और लंबी पढ़ने की लंबाई।

कैसे सेवा मेरे सेट पुस्तकालय पद?
SOAPdenovo छोटे से बड़े से सम्मिलित आकार के साथ जोड़ी-अंत पुस्तकालयों का उपयोग करेगा
मचानों का निर्माण। समान रैंक वाले पुस्तकालयों का एक ही समय में उपयोग किया जाएगा। के लिये
उदाहरण के लिए, एक मानव जीनोम के डेटासेट में, हम सम्मिलित के साथ पाँच पुस्तकालयों के लिए पाँच रैंक निर्धारित करते हैं
आकार 200-बीपी, 500-बीपी, 2-केबी, 5-केबी और 10-केबी, अलग-अलग। यह वांछित है कि जोड़े में
प्रत्येक रैंक जीनोम का पर्याप्त भौतिक कवरेज प्रदान करता है।

परिशिष्ट A: an example.config


#अधिकतम पढ़ने की लंबाई
max_rd_len=50
[एलआईबी]
#औसत डालने का आकार
औसत_इन्स=200
#अगर क्रम को उलटने की जरूरत है
रिवर्स_सेक = 0
#किस भाग में पठन का प्रयोग किया जाता है
asm_flags=3
#प्रत्येक पठन के केवल पहले 50 बीपीएस का उपयोग करें
rd_len_कटऑफ=50
#मचान करते समय किस क्रम में रीड का उपयोग किया जाता है
रैंक = 1
# विश्वसनीय कनेक्शन के लिए जोड़ी संख्या का कटऑफ (डिफ़ॉल्ट 3)
जोड़ी_नम_कटऑफ=3
#विश्वसनीय पठन स्थान के लिए अंजीर से न्यूनतम संरेखित लंबाई (डिफ़ॉल्ट 32)
मानचित्र_लेन=32
#fastq फ़ाइल पढ़ने के लिए 1
q1=/पथ/**LIBNAMEA**/fastq_read_1.fq
#fastq फ़ाइल 2 पढ़ने के लिए हमेशा पढ़ने के लिए Fastq फ़ाइल का अनुसरण करती है 1
q2=/पथ/**LIBNAMEA**/fastq_read_2.fq
#फास्टा फ़ाइल पढ़ने के लिए 1
f1=/पथ/**LIBNAMEA**/fasta_read_1.fa
#fastq फ़ाइल 2 पढ़ने के लिए हमेशा पढ़ने के लिए Fastq फ़ाइल का अनुसरण करती है 1
f2=/पथ/**LIBNAMEA**/fasta_read_2.fa
#फास्टक्यू फाइल सिंगल रीड के लिए
q=/पथ/**LIBNAMEA**/fastq_read_single.fq
#फास्टा फाइल सिंगल रीड के लिए
f=/path/**LIBNAMEA**/fasta_read_single.fa
#युग्मित पठन के लिए एक एकल फास्टा फ़ाइल
p=/path/**LIBNAMEA**/pairs_in_one_file.fa
[एलआईबी]
औसत_इन्स=2000
रिवर्स_सेक = 1
asm_flags=2
रैंक = 2
# विश्वसनीय कनेक्शन के लिए जोड़ी संख्या का कटऑफ
#(बड़े डालने के आकार के लिए डिफ़ॉल्ट 5)
जोड़ी_नम_कटऑफ=5
#विश्वसनीय पठन स्थान के लिए अंजीर से न्यूनतम संरेखित लंबाई
#(बड़े डालने के आकार के लिए डिफ़ॉल्ट 35)
मानचित्र_लेन=35
q1=/पथ/**LIBNAMEB**/fastq_read_1.fq
q2=/पथ/**LIBNAMEB**/fastq_read_2.fq
q=/पथ/**LIBNAMEB**/fastq_read_single.fq
f=/पथ/**LIBNAMEB**/fasta_read_single.fa

परिशिष्ट B: उत्पादन फ़ाइलों


1. "प्रीग्राफ" कमांड से आउटपुट फाइलें

ए। *.kmerFreq

प्रत्येक पंक्ति एक आवृत्ति के साथ Kmers की संख्या दिखाती है जो पंक्ति संख्या के बराबर होती है।

बी। *।किनारा

प्रत्येक रिकॉर्ड प्री-ग्राफ में किनारे की जानकारी देता है: लंबाई, दोनों सिरों पर किलोमीटर,
औसत किमीर कवरेज, चाहे वह विपरीत-पूरक रूप से समान और अनुक्रम हो।

सी। *.markOnEdge & *.path

ये दो फाइलें छोटे दोहराव को हल करने के लिए रीड का उपयोग करने के लिए हैं

इ। *.प्रीआर्क

किनारों के बीच कनेक्शन जो पठन पथ द्वारा स्थापित किए जाते हैं।

एफ। *.वर्टेक्स

किनारों के सिरों पर किमी.

जी। *.प्रीग्राफबेसिक

प्री-ग्राफ के बारे में कुछ बुनियादी जानकारी: शीर्षों की संख्या, K मान, किनारों की संख्या,
अधिकतम पढ़ने की लंबाई आदि।

2. "contig" कमांड से आउटपुट फाइलें

ए। *.contig

कॉन्टिग जानकारी: संबंधित एज इंडेक्स, लंबाई, किमी कवरेज, चाहे वह टिप हो और
क्रम। या तो एक कॉन्टेग या इसके विपरीत पूरक समकक्ष शामिल हैं। प्रत्येक
रिवर्स पूरक कॉन्टिग इंडेक्स *.ContigIndex फ़ाइल में इंगित किया गया है।

बी। *.आर्क

प्रत्येक किनारे से निकलने वाले चाप और उनके संगत कवरेज को पढ़ता है

सी। *.अद्यतन.एज

ग्राफ में प्रत्येक किनारे के लिए कुछ जानकारी: लंबाई, दोनों सिरों पर किलोमीटर, सूचकांक अंतर
रिवर्स-पूरक किनारे और इस के बीच।

डी। *.ContigIndex

प्रत्येक रिकॉर्ड *.contig में प्रत्येक कॉन्टेग के बारे में जानकारी देता है: यह एज इंडेक्स, लंबाई,
इसके विपरीत-पूरक समकक्ष और स्वयं के बीच सूचकांक अंतर।

3. "मैप" कमांड से आउटपुट फाइलें

ए। *.पेग्रेड्स

प्रत्येक क्लोन पुस्तकालय के लिए जानकारी: सम्मिलित आकार, सूचकांक ऊपरी सीमा, रैंक और जोड़ी पढ़ें
विश्वसनीय लिंक के लिए नंबर कटऑफ।

मचान ट्यूनिंग के लिए इस फ़ाइल को मैन्युअल रूप से संशोधित किया जा सकता है।

बी। *.readOnContig

अंजीर पर स्थान पढ़ें। यहां कंटिग्स को उनके एज इंडेक्स द्वारा संदर्भित किया जाता है। हाउवर के बारे में
उनमें से आधे अपने रिवर्स-पूरक के लिए *.contig फ़ाइल में सूचीबद्ध नहीं हैं
समकक्ष पहले से ही शामिल हैं।

सी। *.readInGap

इस फ़ाइल में ऐसे पठन शामिल हैं जो अंजीर के बीच अंतराल में स्थित हो सकते हैं। यह जानकारी
मचानों में अंतराल को बंद करने के लिए इस्तेमाल किया जाएगा।

4. "scaff" कमांड से आउटपुट फाइलें

ए। *.newContigIndex

मचान से पहले कंटिग्स को उनकी लंबाई के अनुसार क्रमबद्ध किया जाता है। उनके नए सूचकांक सूचीबद्ध हैं
इस फ़ाइल में। यह उपयोगी है यदि कोई *.contig में उन लोगों के साथ संगति करना चाहता है
*.लिंक्स में।

बी। *.लिंक

अंजीर के बीच की कड़ियाँ जो पठन जोड़ियों द्वारा स्थापित की जाती हैं। नए सूचकांक का उपयोग किया जाता है।

सी। *.scaf_gap

कॉन्टिगिंग प्रक्रिया द्वारा आउटपुट किए गए कॉन्टिग ग्राफ़ द्वारा पाए गए अंतराल में कंटिग्स। यहां नया सूचकांक
उपयोग किया जाता है।

डी। *.scaf

प्रत्येक मचान के लिए कांटे: contig अनुक्रमणिका (*.contig में अनुक्रमणिका के अनुरूप), अनुमानित
मचान, अभिविन्यास, कांटे की लंबाई, और दूसरों के साथ इसके लिंक पर स्थिति शुरू करें।

इ। *.गैपसेक

अंजीर के बीच गैप क्रम।

एफ। *.scafSeq

प्रत्येक मचान का अनुक्रम।

onworks.net सेवाओं का उपयोग करके सोपडेनोवो-63मेर ऑनलाइन का उपयोग करें


फ्री सर्वर और वर्कस्टेशन

विंडोज और लाइनेक्स एप डाउनलोड करें

लिनक्स कमांड

Ad




×
विज्ञापन
❤️यहां खरीदारी करें, बुक करें या खरीदें - कोई शुल्क नहीं, इससे सेवाएं निःशुल्क बनी रहती हैं।