यह कमांड मुरासाकी-एमपीआई है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
मुरासाकी - कई अनुक्रमों के बीच एंकर की गणना करें
SYNOPSIS
मुरासाकी [विकल्प] -p[पैटर्न] seq1.fa seq2.gbk [seq3.raw...] #[पैटर्न] का उपयोग करके seq1.fa और seq2.gbk के बीच एंकर की गणना करें
एमपिरुन मुरासाकी [विकल्प] -पी[पैटर्न] seq1.fa seq2.gbk [seq3.raw ...] #MPI के माध्यम से समानांतर में [पैटर्न] का उपयोग करके seq1.fa और seq2.gbk के बीच एंकर की गणना करें
वर्णन
मुरासाकी उपयोगकर्ता द्वारा आपूर्ति किए गए सभी अनुक्रमों के आधार पर एंकर उत्पन्न करता है
पैटर्न और हैश टेबल. अनिवार्य रूप से प्रत्येक अनुक्रम का प्रत्येक आधार पैटर्न द्वारा छिपा हुआ है,
गठन बीज जिसका उपयोग हैश उत्पन्न करने के लिए किया जाता है। बीज का स्थान संग्रहित है
हैश तालिका. एक बार जब सभी बीजों को धोकर भंडारित कर लिया जाता है, तो मुरासाकी हैश तालिका को स्कैन करता है,
सभी मेल खाने वाले बीजों के लिए एंकर तैयार करना। एक एंकर एक सेट अंतराल को संदर्भित करता है
इनपुट अनुक्रमों का सबसेट। इन्हें संग्रहित किया जाता है नाम.एंकर फ़ाइलें, और में वर्णित है
"फ़ाइल प्रारूप"। डिफ़ॉल्ट रूप से एंकरों को उनके न्यूनतम जोड़ीवार तक अधिकतम बढ़ाया जाता है
एक्स-ड्रॉप पैरामीटर के समान अनगैप्ड एलाइनमेंट स्कोर एक सीमा से नीचे चला जाता है
ब्लास्ट और ब्लास्ट जैसी खोजों में।
पैटर्न
मुरासाकी उपयोग करता है दूरी बीज पैटर्न उपयोग करें बीज पर विचार करने के लिए. ए दूरी बीज पैटर्न is
आम तौर पर 1s और 0s की एक स्ट्रिंग के रूप में व्यक्त किया जाता है जो आवश्यक रूप से 1. 1s से शुरू और समाप्त होती है
इंगित करें कि इस आधार को बीज का हिस्सा माना जाता है, जबकि 0 स्थिति पर आधार हैं
नहीं। उदाहरण के लिए पैटर्न "1011" के साथ अनुक्रम "एसीजीटी" अनुक्रम "एजीजीटी" से मेल खाएगा।
और "एटीजीटी" लेकिन "एसीटीटी" नहीं। पैटर्न में 1s की संख्या को "वजन" के रूप में जाना जाता है
पैटर्न, और 1s और 0s की संयुक्त संख्या पैटर्न की "लंबाई" है। मुरासाकी
1s और 0s की एक स्ट्रिंग के रूप में व्यक्त किसी भी मनमाने पैटर्न के उपयोग की अनुमति देता है, और भी
"x:y" फॉर्म के पैटर्न की व्याख्या "वजन के यादृच्छिक पैटर्न" के रूप में की जाती है x और लंबाई y."
पैटर्न का चुनाव स्पष्ट रूप से संवेदनशीलता और विशिष्टता पर प्रभाव डालता है, लेकिन क्या
एक पैटर्न दूसरे से "बेहतर" है यह एप्लिकेशन और इनपुट अनुक्रम पर निर्भर करता है
विचाराधीन। "अधिकतम संवेदनशील दूरी वाले बीज पैटर्न" की गणना करना एक है
कम्प्यूटेशनल रूप से कठिन समस्या और इसका वर्णन करने वाले कई शोध पत्र हैं
सन्निकटन के लिए विभिन्न विधियाँ ("संबंधित पढ़ना")। हालाँकि, सामान्य तौर पर, "भारी"
दूरी वाले बीज पैटर्न हल्के बीजों की तुलना में कम संवेदनशील, लेकिन अधिक विशिष्ट होते हैं।
वास्तविक रूप से हम पाते हैं कि बीजों का वजन लगभग 60% से 75% (लंबाई के आसपास) होता है
बैक्टीरिया के लिए 24, और स्तनधारियों के लिए 36 से 48) अधिकांश अनुप्रयोगों के लिए अच्छे हैं। अत्यंत
समान प्रजातियाँ (उदाहरण के लिए मानव और चिंपांजी) लंबे, भारी बीजों से लाभान्वित होती हैं।
HASH कार्य
हैश फ़ंक्शन (साथ ही हैश पैरामीटर) सिस्टम के आधार पर स्वचालित रूप से उत्पन्न होते हैं
पर्यावरण और इनपुट अनुक्रम। हैश फ़ंक्शन मूलतः दो प्रकार के होते हैं
मुरासाकी में उपलब्ध: अनुकूली और क्रिप्टोराफिक हैश। अनुकूली हैश XOR हैं
बीज के विभिन्न बिटवाइज़ बदलावों के संयोजन का विश्लेषण करके डिज़ाइन किया गया दूरी बीज
पैटर्न परिणामी हैश की एन्ट्रापी को अधिकतम करने के लिए। क्रिप्टोग्राफ़िक हैश उपलब्ध हैं
क्रिप्टोपीपी लाइब्रेरी के माध्यम से और इसका उपयोग करें संपूर्ण हैश उत्पन्न करने के लिए दूरी वाले बीज पैटर्न का उपयोग करें
MD5 या SHA-1 जैसे सामान्य क्रिप्टोग्राफ़िक हैश में से एक। अनुकूली हैश फ़ंक्शन हैं
MD5 और SHA-1 की तुलना में लगभग हमेशा तेज़ और अधिक कुशल, लेकिन क्रिप्टोग्राफ़िक
फ़ंक्शंस संदर्भ के लिए उपलब्ध हैं और असंभावित में एक विकल्प के रूप में उपयोगी हो सकते हैं
घटना आप ऐसे वातावरण से निपट रहे हैं जहां अनुकूली हैशर अनुपयुक्त है (के लिए)।
उदाहरण के लिए एक अनुक्रम जिसमें केवल ए और टी शामिल है (प्रत्येक 1 बिट्स में से 2 को इकाईकृत छोड़कर))।
स्मृति स्केलिंग
मुरासाकी बहुत सारी मेमोरी ले सकता है। हैश तालिका में प्रत्येक बीज का स्थान संग्रहीत करना है
ऑपरेशन का सबसे महंगा हिस्सा, जिसके लिए लगभग "ceil(log_2(N))" बिट्स की आवश्यकता होती है
बीज जहां "एन" कुल अनुक्रम लंबाई है। स्थान, डिफ़ॉल्ट रूप से, में संग्रहीत होते हैं
सैद्धांतिक न्यूनतम तक पहुंचने के लिए बिटपैक्ड प्रारूप। दूसरा सबसे महंगा तत्व है
हैश टेबल संरचना, जहां प्रत्येक बाल्टी में एक छोटा सा ओवरहेड होता है और अप्रयुक्त बस होता है
विशाल स्थल। अधिक हैश टेबल बकेट (अर्थात् लंबी हैश टेबल) से अपेक्षा कम हो जाती है
टकरावों की संख्या, जिससे निष्पादन समय तेज हो गया। इसलिए मुरासाकी उपयोग करने का प्रयास करता है
उपलब्ध सिस्टम मेमोरी का निरीक्षण करके और जितना संभव हो उतना उपयोग करके अधिक से अधिक बकेट का उपयोग करें
यह अभी भी सभी बीज स्थानों को संग्रहीत कर सकता है। यदि यह स्वचालित स्केलिंग है
अप्रभावी, हैश तालिका आकार को सीधे --hashbits|-b विकल्पों के माध्यम से सेट करना बाध्य कर सकता है
एक विशिष्ट हैश तालिका आकार. यदि एक कंप्यूटर की मेमोरी स्टोर करने के लिए अपर्याप्त है
वांछित हैश तालिका, समानांतरीकरण का उपयोग हैश तालिका को वितरित करने के लिए किया जा सकता है
एकाधिक कंप्यूटर.
साथ में चलाना
मुरासाकी को एमपीआई का उपयोग करके समानांतर में चलाने के लिए डिज़ाइन किया गया है। के लिए दस्तावेज़ देखें
आपके एमपीआई कार्यान्वयन की विशिष्ट विविधताएं, हालांकि सामान्य तौर पर निष्पादन विधि
की तरह लगता है:
एमपिरुन [एमपीआई विकल्प] मुरासाकी [मुरासाकी विकल्प] -पी[पैटर्न] [seq1 ...]
मुरासाकी समानांतर रूप से उपलब्ध प्रोसेसर (एनपी) की संख्या को दो समूहों में विभाजित करता है:
हैशर नोड्स और स्टोरेज नोड्स। स्टोरेज नोड्स हैश टेबल को प्रत्येक के बीच विभाजित करते हैं
स्वयं, प्रत्येक तालिका के एक अलग हिस्से के लिए जिम्मेदार है। हैशर नोड्स विभाजित होते हैं
आपस में इनपुट अनुक्रम, प्रत्येक इनपुट का एक अलग हिस्सा हैशिंग
अनुक्रम, और भंडारण के लिए बीज स्थान को उचित भंडारण नोड तक भेजना। कब
सभी हैशर नोड्स की हैशिंग समाप्त हो जाती है, स्टोरेज नोड्स हैश के अपने हिस्से को स्कैन करते हैं
तालिका बनाएं और बीजों के मिलान सेट को हैशर नोड में पास करें जहां उन्हें इकट्ठा किया जाता है
लंगर और विस्तारित. अंत में सभी हैशर नोड्स अपने स्वतंत्र एंकर सेट को जोड़ते हैं
"ceil(log_2(H))" पुनरावृत्तियों में एक अंतिम सेट में (जहां "H" हैशर की संख्या है)
नोड्स), प्रत्येक हैशर नोड संख्या 2एच अपने एंकर को प्रत्येक पर हैशर संख्या 2एच-1 तक पहुंचाता है
पुनरावृत्ति.
क्योंकि लगभग किसी भी समानांतरीकरण चरण के बीच संचार की आवश्यकता नहीं होती है सब नोड्स,
और प्रत्येक बीज और प्रत्येक एंकर को समानांतर में संसाधित किया जा सकता है, मुरासाकी बहुत अच्छी तरह से स्केल करता है
समानांतर, जब दोगुने नोड उपलब्ध हों तो यह लगभग दोगुनी तेजी से चलता है।
इसके अलावा, संयुक्त का लाभ उठाने के लिए हैश तालिका स्वचालित रूप से विकसित हो जाती है
एकाधिक मशीनों से मेमोरी।
विकल्प
अधिकांश विकल्प उनके लंबे रूप में निर्दिष्ट किए जा सकते हैं (उदाहरण के लिए "--डायरेक्टरी आउट" या
"--directory=out") या संक्षिप्त रूप (जैसे "-dout")। एक स्ट्रिंग की अपेक्षा करके चिह्नित विकल्प,
पूर्णांक, एक फ़्लोट, और एक बूलियन मान ("हाँ/पर/सत्य/1" सत्य के लिए,
असत्य के लिए "नहीं/बंद/झूठा/0")। अधिकांश बूलियन मान को टॉगल करके मान को छोड़ सकते हैं
जो कुछ भी था वह बिल्कुल विपरीत था।
मुरासाकी के पास बहुत सारे विकल्प हैं। यहां हमने मदद के लिए उन्हें श्रेणियों में विभाजित किया है
विभिन्न विकल्पों के दायरे को अलग करें, हालाँकि कुछ स्थितियों में निश्चित विकल्प
विकल्पों के अप्रत्याशित परिणाम हो सकते हैं, और निश्चित रूप से अंततः यदि निर्दिष्ट आउटपुट हो
is विशाल, आवश्यक रनटाइम अनिवार्य रूप से होगा लंबा. ऐसा सोचना ग़लत है
प्रदर्शन अनुभाग में "ट्यूनिंग विकल्प" के बाहर की हर चीज़ का कोई प्रभाव नहीं पड़ता है
प्रदर्शन.
लंगर प्राचल सम्बंधित विकल्पों
ये विकल्प उस चीज़ को आकार देते हैं जिसे "एंकर" माना जाता है।
--पैटर्न|-प
बीज पैटर्न निर्दिष्ट करता है (उदाहरण 11101001010011011)। प्रारूप का उपयोग करना
सी<[ : ]> स्वचालित रूप से वजन का एक यादृच्छिक पैटर्न उत्पन्न करता है
और लंबाई
--रिपीटमास्क|-आर
बार-बार छिपाए गए डेटा को छोड़ें (यानी: लोअरकेस एटीजीसी)। ध्यान रखें कि कुछ अनुक्रम फ़ाइलें हैं
विशुद्ध रूप से निचले मामले में वितरित।
--सीडफिल्टर|-एफ
ऐसे बीज छोड़ें जो N से अधिक बार हों। असाधारण रूप से धीमा. ए के लिए --हैशफ़िल्टर देखें
तेज़ सन्निकटन.
--हैशफ़िल्टर|-एम
जैसे --seedfilter लेकिन बीज के बजाय हैश कुंजियों पर काम करता है। कुछ संपार्श्विक कारण हो सकता है
अन्यथा अनूठे बीजों को नुकसान, लेकिन यह तेज़ है।
--स्किपएफडब्ल्यूडी|-एफ
आगे के स्ट्रैंड्स को हैश/मैच न करें।
--स्किपरेव|-आर
रिवर्स कॉम्प्लीमेंट स्ट्रैंड्स को हैश/मैच न करें।
--स्किप1टू1|-1
1:1 लाइन के साथ मैचों को छोड़ें (स्वयं से तुलना करने के लिए अच्छा है)।
--हैशोनली|-प्र
केवल हैश. कोई एंकर आउटपुट नहीं, सिर्फ आँकड़े।
--हैशस्किप|-एस
प्रत्येक n आधार को हैश करें। डिफ़ॉल्ट 1 है (अर्थात् सभी स्थितियों को हैश करना)। कोई आपूर्ति नहीं कर रहा
तर्क स्किप राशि को 1 से बढ़ा देता है।
--जॉइन|-जे
प्रत्येक दूसरे के n आधारों के भीतर एंकरों को जोड़ें (डिफ़ॉल्ट: 0)। एक नकारात्मक डी निर्दिष्ट करने का तात्पर्य है
-डी*पैटर्नलंबाई।
--बिटस्कोर|-बी
सभी एंकरों के लिए बिटस्कोर की गणना टॉगल करता है (डिफ़ॉल्ट चालू है)।
--बीज शर्तें|-टी
बीज शर्तों के प्रतिधारण को टॉगल करता है (डिफ़ॉल्ट रूप से बंद)। ये कंप्यूटिंग के लिए आवश्यक हैं
टीएफ-आईडीएफ स्कोर)।
--सेकटाइम|-इ
मानव पठनीय "1 दिन 3 घंटे 45 मिनट 5 सेकंड" शैली के विपरीत समय को हमेशा सेकंड में प्रदर्शित करें
बार.
--मर्जफ़िल्टर|-Y
उन मैचों को फ़िल्टर करें जो इससे अधिक का कारण बनेंगे D कई एंकर तैयार किए जाने हैं
1 बीज से (डिफ़ॉल्ट -Y100)। अक्षम करने के लिए -Y0 का उपयोग करें.
--स्कोरफ़िल्टर
बीजों के लिए न्यूनतम अनगैप्ड स्कोर निर्धारित करें।
--दरारें|-/
एंकरों को डी अनुक्रम छोड़ने की अनुमति दें (डिफ़ॉल्ट 0)।
--द्वीप|-%
--rifts=SD के समान (जहाँ S इनपुट अनुक्रमों की संख्या है)।
--fuzzyextend|-z
एंकर के फ़ज़ी एक्सटेंशन (यानी अनगैप्ड अलाइनमेंट) को सक्षम (डिफ़ॉल्ट) या अक्षम करें।
--fuzzyextendloslimit|-Z
फ़ज़ी हिट्स (यानी ब्लास्ट एक्स पैरामीटर) को रोकने के लिए कटऑफ़ सेट करें।
--gappeddanchors
गैप्ड (सही) या अनगैप्ड (गलत (डिफ़ॉल्ट)) एंकर का उपयोग करें।
--स्कोरबायमिनिममपेयर
उचित (डिफ़ॉल्ट) होने पर न्यूनतम जोड़ी द्वारा एंकर स्कोरिंग करें। विकल्प है
अंकगणितीय माध्य (शायद ही कभी उपयोगी, लेकिन सैद्धांतिक रूप से तेज़)। = आइटम -- दरार|-/
एंकरों को डी अनुक्रम छोड़ने की अनुमति दें (डिफ़ॉल्ट 0)।
--द्वीप|-%
--rifts=SD के समान (जहाँ S इनपुट अनुक्रमों की संख्या है)।
--fuzzyextend|-z
एंकर के फ़ज़ी एक्सटेंशन (यानी अनगैप्ड अलाइनमेंट) को सक्षम (डिफ़ॉल्ट) या अक्षम करें।
--fuzzyextendloslimit|-Z
फ़ज़ी हिट्स (यानी ब्लास्ट एक्स पैरामीटर) को रोकने के लिए कटऑफ़ सेट करें।
--gappeddanchors
गैप्ड (सही) या अनगैप्ड (गलत (डिफ़ॉल्ट)) एंकर का उपयोग करें।
--स्कोरबायमिनिममपेयर
उचित (डिफ़ॉल्ट) होने पर न्यूनतम जोड़ी द्वारा एंकर स्कोरिंग करें। विकल्प है
अंकगणितीय माध्य (शायद ही कभी उपयोगी, लेकिन सैद्धांतिक रूप से तेज़)।
उत्पादन विकल्पों
ये विकल्प मुख्य रूप से प्रभावित करते हैं कि कौन सा डेटा कहां आउटपुट है।
--निर्देशिका|-डी
आउटपुट निर्देशिका (डिफ़ॉल्ट: आउटपुट)
--नाम|-एन
संरेखण नाम (डिफ़ॉल्ट: परीक्षण)
--रिपीटमैप|-i
जब --mergefilter का उपयोग किया जाता है तो दोहराए गए मानचित्र को बनाए रखना टॉगल करता है (डिफ़ॉल्ट रूप से हाँ)।
--हिस्टोग्राम|-एच
हिस्टोग्राम गणना स्तर: (-H अकेले का अर्थ है -H1)
0 - कोई हिस्टोग्राम नहीं (डिफ़ॉल्ट)
1 - मूल बकेटसाइज़/बकेटकाउंट हिस्टोग्राम डेटा
2 - एंकर.डेटिल्स के लिए बकेट-आधारित स्कोर
3 - प्रतिबकेट गिनती डेटा
4 - प्रतिबकेट + प्रतिपैटर्न गणना डेटा
2 से ऊपर का कोई भी मान पूरी तरह से खोजपूर्ण है और इसके परिणामस्वरूप बड़े पैमाने पर आउटपुट फ़ाइलें हो सकती हैं।
--tfidf|-k
मुरासाकी के भीतर से सटीक tfidf स्कोरिंग करें (एंकर पर अतिरिक्त मेमोरी की आवश्यकता होती है
उत्पादन समय)। डिफ़ॉल्ट नहीं है.
प्रदर्शन सुधारना विकल्पों
ये विकल्प मुख्य रूप से प्रदर्शन को प्रभावित करते हैं, और (सामान्य तौर पर) आउटपुट को प्रभावित नहीं करते हैं।
--क्विकहैश|-क्यू
एक हैशिंग फ़ंक्शन निर्दिष्ट करें:
0 - एस-बॉक्स के साथ अनुकूली (डिफ़ॉल्ट जब बहुत सारी हैश टेबल खाली हो)
1 - हैश बनाने के लिए बिट्स को पैक न करें (केवल पहले शब्द का उपयोग करें)
2 - पैटर्न के लायक पहले हैशबिट्स का भोलेपन से उपयोग करें
3 - अनुकूल रूप से एक अच्छा हैश ढूंढें (डिफ़ॉल्ट)
**प्रयोगात्मक क्रिप्टोपीपी हैश**
4 - एमडी5
5 - एसएचए1
6 - व्हर्लपूल
7 - सीआरसी-32
8 - एडलर-32
ध्यान दें: 3 और 0 ही एकमात्र "अनुशंसित" हैश फ़ंक्शन हैं, और एकमात्र
स्वचालित रूप से चयनित. अन्य केवल संदर्भ के लिए प्रदान किए गए हैं। 1, 7, और 8
उनसे संपूर्ण हैश स्पेस का उपयोग करने की भी अपेक्षा नहीं की जाती है।
--हैशबिट्स|-बी
डी बिट हैश का उपयोग करें (1 से वर्डसाइज के एन के लिए। डिफ़ॉल्ट 26)
--हैशटाइप|-t
उपयोग करने के लिए हैश तालिका डेटा संरचना का चयन करें:
ओपनहैश - हैशबिट्स की उप-शब्द पैकिंग खोलें (बहुत अधिक हैश होने पर डिफ़ॉल्ट
अतिरिक्त टेबल)
इकोहैश - हैशबिट्स की श्रृंखलाबद्ध उप-शब्द पैकिंग (डिफ़ॉल्ट)
ऐरेहैश - मॉलोक/रियललोक (तेज़ लेकिन विखंडन-प्रवण)
MSetHash - स्मृति अत्यधिक, लगभग निरर्थक।
--जाँच
0 - रैखिक, 1 - द्विघात (डिफ़ॉल्ट)। केवल --हैशटाइप=ओपनहैश के लिए लागू।
--हिटफ़िल्टर|-एच
एंकर के रूप में आउटपुट किए जाने वाले हिट की न्यूनतम संख्या (डिफ़ॉल्ट 1)। पैटर्नहंटर में यह
एक्सएनएनएक्स है।
--rseed|-s
गैर-नियतात्मक एल्गोरिदम के लिए यादृच्छिक संख्या बीज (यानी: एडेटिव हैश फ़ंक्शन)।
पीढ़ी)। यदि आप कोई प्रदर्शन तुलना कर रहे हैं, तो यह संभवतः अनिवार्य है
कि आप समान सेटिंग्स के प्रत्येक रन के लिए समान बीज का उपयोग करें। डिफ़ॉल्ट प्राप्त होता है
से समय() (यानी: 1970 से सेकंड)।
--स्मृति|-एम [ | ]
कुल मेमोरी की लक्ष्य मात्रा निर्धारित करें (या तो जीबी में या % कुल मेमोरी के रूप में)।
--reversotf|-o
तुरंत रिवर्स पूरक उत्पन्न करें (डिफ़ॉल्ट रूप से चालू)। इसे प्रीकंप्यूट बंद कर रहा हूं
सभी रिवर्स स्ट्रैंड्स को पूरक करते हैं और उन्हें मेमोरी में संग्रहीत करते हैं, जो शायद ही कभी प्रदान करता है
मापने योग्य प्रदर्शन में सुधार.
--बाइनरीसेक
सक्षम करें (डिफ़ॉल्ट) या बाइनरी अनुक्रम पढ़ने/लिखने को अक्षम करें
अनुकूली हैश समारोह सम्बंधित:
अनुकूली हैश फ़ंक्शन पीढ़ी से संबंधित प्रदर्शन विकल्प।
--हैशरफेयरएन्ट्रॉपी
अधिक संतुलित एन्ट्रापी अनुमान का उपयोग करें (डिफ़ॉल्ट: हाँ)।
--हैशरसहसंबंधसमायोजित करें
कुछ सहसंबंध मानकर आस-पास के स्रोतों के लिए एन्ट्रापी अनुमान समायोजित करें (डिफ़ॉल्ट: हाँ)।
--हैशरटार्गेटजीएसीसाइकिल
अनुकूली हैश फ़ंक्शन जनरेशन जेनेटिक एल्गोरिदम चक्र कटऑफ़।
--हैशरएंट्रॉपीएग्रो
अधिकतम एन्ट्रॉपी हैश फ़ंक्शंस को आगे बढ़ाने के बारे में कितना आक्रामक होना वास्तविक है।
डिफ़ॉल्ट 1 है)।
MPI विशिष्ट:
--हैशर्स|-ए [ | ]
हैशर्स के रूप में उपयोग की जाने वाली प्रक्रियाओं की संख्या निर्दिष्ट करें (केवल एमपीआई पर लागू होता है। यदि ए
0 और 1 के बीच की संख्या एनपी के अनुपात को दर्शाती है)।
--localhash|-K
इसे नेटवर्क पर भेजने के बजाय प्रत्येक स्टोरेज नोड पर स्थानीय रूप से हैशिंग करें
(धीमे नेटवर्क के लिए सहायक)।
--mpidistro|-एल
अनुक्रम डेटा को वितरित करने के लिए एमपीआई का उपयोग टॉगल करता है (यदि अनुक्रम उपलब्ध है)।
प्रत्येक नोड पर स्थानीय डिस्क को बंद करने से संभावित रूप से प्रारंभिक गति तेज हो सकती है
अनुक्रम लोड हो रहा है)।
--waittoanchor|-w
जब तक सभी स्थान सेट प्राप्त नहीं हो जाते तब तक वास्तविक एंकर गणना को स्थगित कर दें (जैसा कि)।
बीज पैकेट प्राप्त करने के बीच काम करने की कोशिश का विरोध)।
--बफ़र्स|-यू
संदेश पास करते समय अनुमति देने के लिए अपूर्ण बफ़र्स की अधिकतम संख्या (0 का अर्थ है
असीमित)। भाग लेने वाले नोड्स की संख्या के आधार पर डिफ़ॉल्ट सेट किया जाता है। एमपीआई क्रैश हो सकता है
या प्रदर्शन बहुत यदि यह मान बहुत अधिक है तो ख़राब।
--नोबफ़र्स|-यू
--बफ़र्स=1 के समान।
--बिगफर्स्ट|-मैं
पहले बड़े मेमोरी नोड्स को हैशर्स असाइन करें।
--होस्टबैलेंस|-एल
यदि हां (डिफ़ॉल्ट): हैशर्स को सभी नोड्स के बीच समान रूप से फैलाएं।
यदि नहीं: कार्य आवंटित करते समय होस्ट नाम को अनदेखा करें।
--स्मृति संतुलन|-ए
यदि हां (डिफ़ॉल्ट): उपलब्ध मात्रा के आधार पर नोड्स के बीच हैश भंडारण को संतुलित करें
राम।
यदि नहीं: भंडारण को समान रूप से वितरित करें। इससे इष्टतम रन टाइम प्राप्त होने की अधिक संभावना है, लेकिन
हो सकता है कि मेमोरी का कुशलतापूर्वक उपयोग न किया जा सके।
--डिस्टमर्ज|-<
यदि हां (डिफ़ॉल्ट): मर्ज चरण के दौरान, भंडारण नोड्स किसी भी उपलब्ध बीज को भेजते हैं
हैशर.
यदि नहीं: सभी बीज केवल एक नोड पर भेजें।
--डिस्टकलेक्ट|->
यदि हाँ (डिफ़ॉल्ट): सभी हैशर्स से एंकर डेटा एकत्र करें।
यदि नहीं: सभी बीज केवल अंतिम असेंबली नोड पर भेजें।
--mpiredirectoutput
यदि हाँ (डिफ़ॉल्ट): प्रत्येक रैंक अपने stdout/stderr को एक अलग फ़ाइल पर पुनर्निर्देशित करता है
(मुरासाकी-mpiout-N).
यदि नहीं: तो वही करें जो स्वाभाविक रूप से आता है (यानी: mpirun द्वारा प्रबंधित (OpenMPI के लिए देखें)।
--आउटपुट-फ़ाइलनाम और --टैग-आउटपुट इन mpirun(1))).
--कीपस्टडो
सफलता मिलने पर मुरासाकी-mpiout फ़ाइलों को न मिटाएँ।
--sysvipc|-V
साझा मेमोरी क्षेत्रों पर बातचीत करने के लिए सिस्टम वी आईपीसी का उपयोग करें (जब एक होस्ट चलता है तो मेमोरी बचाता है
एकाधिक नोड्स)। डिफ़ॉल्ट सत्य है.
सार्वभौम विकल्प हैं:
--verbose|-v
वाचालता बढ़ाता है.
--संस्करण|-वी
संस्करण जानकारी प्रिंट करता है और बंद हो जाता है।
--मदद|-?
एक सहायता संदेश प्रिंट करता है और छोड़ देता है।
फ़ाइल प्रारूप
मुरासाकी के पास आउटपुट फ़ाइलों की एक विस्तृत श्रृंखला है, जिनमें से अधिकांश के प्रारूप इच्छित हैं
सहज ज्ञान युक्त। सभी आउटपुट फ़ाइलें --name पैरामीटर के मान से पहले लगाई जाती हैं। मुख्य
आउटपुट फ़ाइल स्वरूपों का वर्णन यहां किया गया है। फ़ाइलें लाइन आधारित होती हैं और टैब सीमांकित होती हैं जब तक
अन्यथा निर्दिष्ट।
.seqs
.seqs दिखाता है कि इनपुट के रूप में कौन से अनुक्रमों का उपयोग किया गया था, प्रति पंक्ति 1। इस फ़ाइल का उपयोग किया जाता है
.anchors फ़ाइल के संयोजन में विभिन्न प्रोग्राम, इसलिए यह आम तौर पर महत्वपूर्ण है
सामग्री सही अनुक्रम फ़ाइलों को दर्शाती है। कंप्यूटर के बीच एंकर परिणाम को स्थानांतरित करना
इसके परिणामस्वरूप पथ में परिवर्तन हो सकता है, जिसके लिए उपयोगकर्ता को .seqs फ़ाइल को अद्यतन करने की आवश्यकता होगी। एक के रूप में
वैकल्पिक रूप से, हमेशा सापेक्ष पथों का उपयोग करने से यह समस्या कम हो सकती है।
.एंकर फ़ाइलों
ये फ़ाइलें प्रति पंक्ति 1 एंकर हैं, प्रति अनुक्रम 3-ट्यूपल के साथ। प्रत्येक टौपल का प्रतिनिधित्व करता है
प्रत्येक अनुक्रम पर एंकर अंतराल के निर्देशांक और स्ट्रैंड को प्रारंभ और बंद करें।
अनुक्रम क्रम .seqs फ़ाइल के क्रम से मेल खाता है। निर्देशांक संरचित हैं
जैसे कि 1 अनुक्रम में पहले आधार को संदर्भित करता है, 2 दूसरे को, आदि। नकारात्मक
मान विपरीत पूरक अनुक्रम को संदर्भित करते हैं जहां -1 है पिछली बार उलटे का आधार
पूरक अनुक्रम (यानी: आगे के अनुक्रम में पूरक पहला आधार)। समुद्र - तट"
तत्व एक '+' या '-' है जो केवल निर्देशांक के चिह्न से मेल खाता है (यह अनावश्यक है
जानकारी, लेकिन पार्सिंग या फ़िल्टरिंग को सरल बनाने के लिए रखी गई है)।
उदाहरण के लिए:
1 18 + -1 -18 -
यह पंक्ति एक एंकर का वर्णन करती है जहां पहले अनुक्रम के पहले 18 आधार मेल खाते हैं
दूसरे अनुक्रम के विपरीत पूरक के पहले 18 आधार।
.एंकर.विवरण
यह एक प्राचीन फ़ाइल स्वरूप है, लेकिन टीएफ-आईडीएफ जैसे आंकड़ों की गणना करने के लिए जीएमवी द्वारा इसका उपयोग किया जाता है
स्कोर, और इसी कारण से इसे इधर-उधर रखा गया है। .anchors.details फ़ाइल में वही है
.anchors फ़ाइल के रूप में प्रारूप और जानकारी, हालाँकि एंकर ट्यूपल्स के बाद दो और हैं
पद: एक अंक, और एक अल्पविराम (,) पद और गिनती जोड़े की सीमांकित सूची (लिखित)।
"अवधि:गणना"). स्कोर और गिनती डेटा "--हिस्टोग्राम" के आधार पर भिन्न हो सकता है
विकल्प विकल्प.
.एंकर.बिटस्कोर
यहां "बिटस्कोर" शब्द एक मिथ्या नाम है, लेकिन ऐतिहासिक कारणों से इसे बरकरार रखा गया है। यथार्थ में,
इस फ़ाइल में प्रत्येक एंकर के मिलान आधारों की औसत संख्या और लंबाई शामिल है
(.anchors फ़ाइल की पंक्ति दर पंक्ति संगत)।
.stats.tfidf
इसमें एंकर TF-IDF स्कोर (.anchors फ़ाइल की पंक्ति दर पंक्ति संगत) शामिल हैं।
.हिस्टोग्राम
इसमें हैश तालिका उपयोग का एक सरल हिस्टोग्राम शामिल है। पहला फ़ील्ड बाल्टी का आकार है,
और दूसरी है आवृत्ति. उदाहरण के लिए एक .हिस्टोग्राम फ़ाइल इस प्रकार है:
1 24
2 1
यह इंगित करेगा कि 24 हैश बकेट थे जो केवल 1 स्थान पर संग्रहीत थे (अर्थात 24 अद्वितीय
बीज), और 1 हैश बाल्टी 2 स्थानों पर संग्रहित होती है (यानी 1 बीज जो 2 स्थानों से मेल खाता है (या 2
गैर-मिलान वाले बीज जिसके परिणामस्वरूप हैश टकराव हुआ))।
.विकल्प
मुरासाकी चलाते समय उपयोग किए गए विकल्पों का रिकॉर्ड रखता है।
.दोहराता है
.repeats फ़ाइल --mergefilter विकल्प द्वारा परिभाषित "रिपीट्स" का रिकॉर्ड संग्रहीत करती है
(अर्थात ऐसे बीज जिन्होंने अनुमति से अधिक एंकरों को प्रेरित किया होगा)। इस फ़ाइल में, प्रत्येक
रिपीट रिकॉर्ड को एक रिक्त रेखा से अलग किया जाता है। एक दोहराव रिकॉर्ड इस तरह दिखता है:
आर: जी.जीसीसीटीटी.टी.एक्ट.सीएसीएए..एटी
0: 2145540494 -425039256 -113794380 1998323403
1: 2480929222 -1874514626 2543723555 -2550045172
पहली पंक्ति (हमेशा उपसर्ग "R:") दोहराए जाने वाले बीज को ही दर्शाती है (जहाँ . हैं)।
पैटर्न द्वारा छिपाए गए आधार)। आगे की पंक्तियाँ दर्शाती हैं कि ये बीज कहाँ उत्पन्न हुए
इनपुट अनुक्रम (पहले (0) और दूसरे (1) अनुक्रम में)। ध्यान दें कि यदि कोई नहीं हैं
किसी विशेष क्रम में हिट होने पर, इसमें उस क्रम के लिए कोई रिक्त पंक्ति शामिल नहीं होती है। के लिए
उदाहरण:
आर: जी.जीसीसीटीटी.टी.एक्ट.सीएसीएए..एटी
0: 2145540494 -425039256 -113794380 1998323403
2: 2480929222 -1874514626 2543723555 -2550045172
यह एक वैध .रिपीट्स फ़ाइल भी है।
onworks.net सेवाओं का उपयोग करके मुरासाकी-एमपीआई का ऑनलाइन उपयोग करें