यह कमांड डेलिग्नर है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
डेलिग्नर - लंबे समय तक पढ़ा जाने वाला एलाइनर
SYNOPSIS
दलिग्नर [-वीबीएआई][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-eडबल(.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mट्रैक]+ विषय:डीबी|डैम लक्ष्य:डीबी|डैम ...
वर्णन
छंटनी में अनुक्रमों की तुलना करें विषय की सूची में शामिल लोगों के विरुद्ध ब्लॉक करें लक्ष्य ब्लॉक
कम से कम शामिल स्थानीय संरेखण की खोज -l आधार जोड़े (डिफ़ॉल्ट 1000) या अधिक,
जिसकी औसत सहसंबंध दर है -e (डिफ़ॉल्ट 70%). स्थानीय संरेखण मिले
एक विरल एन्कोडिंग में आउटपुट होगा जहां संरेखण पर एक ट्रेस बिंदु प्रत्येक दर्ज किया जाता है
-s ए-रीड के आधार जोड़े (डिफ़ॉल्ट 100बीपी)। दोनों ओरिएंटेशन में रीड्स की तुलना की जाती है
मानदंडों को पूरा करने वाले स्थानीय संरेखण वर्णित कई बनाई गई फ़ाइलों में से एक में आउटपुट होते हैं
के नीचे। -v विकल्प एक वर्बोज़ रिपोर्टिंग मोड चालू करता है जो प्रत्येक पर आँकड़े देता है
गणना का प्रमुख चरण.
विकल्प -k, -h, तथा -w संभावित मिलानों के लिए प्रारंभिक निस्पंदन खोज को नियंत्रित करें
पढ़ने के बीच. विशेष रूप से, हमारा खोज कोड चौड़ाई के विकर्ण बैंड की एक जोड़ी की तलाश करता है
2^डब्ल्यू (डिफ़ॉल्ट 2^6 = 64) जिसमें सटीक मिलान वाले के-मेर्स का संग्रह होता है (डिफ़ॉल्ट 14)
दोनों रीड्स के बीच, जैसे कि के-मेर हिट्स द्वारा कवर किए गए आधारों की कुल संख्या एच है
(डिफ़ॉल्ट 35). वर्तमान कार्यान्वयन में k 32 से बड़ा नहीं हो सकता। यदि -b विकल्प
सेट है, तो दलिग्नर यह मानता है कि डेटा में एक मजबूत संरचनागत पूर्वाग्रह है (उदाहरण के लिए >65% एटी)।
समृद्ध), और थोड़े अधिक समय की कीमत पर, के-मेर आकार के आधार पर गतिशील रूप से समायोजित करता है
संरचनागत पूर्वाग्रह, ताकि उपयोग किए गए मेर्स में 4^k की प्रभावी विशिष्टता हो।
यदि इसके साथ एक या अधिक अंतराल ट्रैक निर्दिष्ट हैं -m विकल्प, फिर का पाठ
डीबी या डीबी जिस पर मास्क लागू होता है वह अंतराल के मिलन के साथ नरम मुखौटा होता है
लागू होने वाले सभी अंतराल ट्रैकों में से कोई भी k-mers होता है जिसमें किसी में भी कोई आधार होता है
किसी मैच को सीडिंग करने के प्रयोजनों के लिए छिपे हुए अंतरालों को नजरअंदाज कर दिया जाता है। एक अंतराल ट्रैक
एक ट्रैक है, जैसे कि DBdust द्वारा बनाया गया "डस्ट" ट्रैक, जो अंतरालों के एक सेट को एन्कोड करता है
या तो बिना काटे गए या काटे गए डीबी पर।
निरपवाद रूप से, कुछ के-मर्स का अत्यधिक प्रतिनिधित्व किया जाता है (उदाहरण के लिए होमोपोलिमर रन)।
ये के-मर्स अत्यधिक संख्या में मेल खाने वाले के-मेर जोड़े बनाते हैं और उन्हें बिना संबोधित किए छोड़ दिया जाता है
डेलिग्नर के कारण उपलब्ध भौतिक मेमोरी अतिप्रवाहित हो जाती है। इससे निपटने का एक तरीका यह है
स्पष्ट रूप से सेट करें -t पैरामीटर जो अधिक होने वाले किसी भी k-mer के उपयोग को दबा देता है
से t विषय या लक्ष्य ब्लॉक में कई बार। हालाँकि, इसे संभालने का एक बेहतर तरीका है
स्थिति यह है कि प्रोग्राम को स्वचालित रूप से एक मान का चयन करने दें t जो दिए गए से मिलता है
द्वारा निर्दिष्ट मेमोरी उपयोग सीमा (जीबी में)। -M पैरामीटर. डिफ़ॉल्ट रूप से दलिग्नर उपयोग होगा
विकल्प के रूप में भौतिक स्मृति की मात्रा -M. यदि आप कम उपयोग करना चाहते हैं, तो केवल 8 जीबी कहें
24 जीबी एचपीसी क्लस्टर नोड पर क्योंकि आप 3 चलाना चाहते हैं दलिग्नर फिर, नोड पर नौकरियाँ
उल्लिखित करना -M8. निर्दिष्ट करना -M0 मूलतः यह इंगित करता है कि आप नहीं चाहते दलिग्नर आत्म के लिए
मेमोरी की दी गई मात्रा में फ़िट होने के लिए k-mer दमन को समायोजित करें।
प्रत्येक विषय के लिए, ब्लॉकों की लक्ष्य जोड़ी, मान लीजिए एक्स और वाई, प्रोग्राम संरेखण की रिपोर्ट करता है
ए-रीड एक्स में है और बी-रीड वाई में है, और इसके विपरीत। हालाँकि, यदि -A विकल्प है
सेट करें ("असममित" के लिए "ए") फिर बस ओवरलैप हो जाता है जहां ए-रीड एक्स में है और बी-रीड है
Y में रिपोर्ट की जाती है, और यदि X = Y है, तो यह आगे केवल उन ओवरलैप्स की रिपोर्ट करता है जहां
ए-रीड इंडेक्स बी-रीड इंडेक्स से कम है। किसी भी स्थिति में, यदि -I विकल्प सेट है ("मैं"
"पहचान" के लिए) तब जब X = Y, एक ही पठन के विभिन्न भागों के बीच ओवरलैप होता है
भी पाया जाएगा और रिपोर्ट किया जाएगा।
प्रत्येक पाए गए संरेखण को - a[ab,ae] x bo[bb,be] के रूप में दर्ज किया गया है - जहां a और b हैं
ओवरलैप होने वाले रीड्स के सूचकांक (छंटनी किए गए डीबी में), ओ इंगित करता है कि बी-रीड है या नहीं
एक ही या विपरीत स्ट्रैंड से, और [ab,ae] और [bb,be] a और bo के अंतराल हैं,
क्रमशः, वह संरेखित करें। प्रोग्राम इन संरेखण रिकॉर्ड को उन फ़ाइलों में रखता है जिनके नाम
XY[C|N]#.las के रूप का है जहां C इंगित करता है कि b-रीड्स पूरक हैं और N
इंगित करता है कि वे नहीं हैं (दोनों तुलनाएँ की जाती हैं) और # वह थ्रेड है जिसका पता लगाया गया है
और फ़ाइल में निहित संरेखणों का संग्रह लिख दिया। वह फ़ाइल है
XYO#.las में थ्रेड # द्वारा निर्मित संरेखण शामिल हैं जिसके लिए ए-रीड X और से है
बी-रीड वाई से है और ओरिएंटेशन ओ में है। कमांड दलिग्नर -A X Y 2*NTHREAD उत्पन्न करता है
थ्रेड फ़ाइलें XY?.las और दलिग्नर X Y 4*NTHREAD फ़ाइलें XY?.las और YX?.las उत्पन्न करता है
(जब तक X=Y किस स्थिति में केवल NTHREAD फ़ाइलें, XX?.las, उत्पादित की जाती हैं)।
डिफ़ॉल्ट रूप से, दलिग्नर डेटाबेस में रीड्स के बीच सभी ओवरलैप्स की तुलना करता है जो अधिक हैं
डीबी या डीबी को विभाजित करते समय निर्धारित न्यूनतम कटऑफ से, आमतौर पर 1 या 2 केबीपी। तथापि,
HGAP असेंबली पाइपलाइन केवल बड़े रीड्स को सही करना चाहती है, मान लीजिए 8Kbp या उससे अधिक, इत्यादि
केवल ओवरलैप्स की आवश्यकता है जहां ए-रीड बड़े रीड्स में से एक है। सेटिंग करके -H
एन कहने के लिए पैरामीटर, एक बदल जाता है दलिग्नर ताकि यह रिपोर्ट केवल वहीं ओवरलैप हो जहां पढ़ा गया हो
एन बेस-जोड़े से अधिक लंबा है।
जबकि डिफ़ॉल्ट पैरामीटर सेटिंग्स कच्चे पैकबियो डेटा के लिए अच्छी हैं, दलिग्नर इस्तेमाल किया जा सकता है
सही रीड्स या अन्य कम शोर वाले रीड्स में कुशलतापूर्वक संरेखण खोजने के लिए। के लिए
उदाहरण के लिए, .dams के विरुद्ध अनुप्रयोगों की मैपिंग के लिए, हम चलाते हैं
दलिग्नर -k20 -h60 -e85.
और सही पाठों पर, हम आम तौर पर दौड़ते हैं
दलिग्नर -k25 -w5 -h60 -e95. -s500
और इन सेटिंग्स पर यह बहुत तेज़ है।
onworks.net सेवाओं का उपयोग करके ऑनलाइन डेलिग्नर का उपयोग करें