GoGPT Best VPN GoSearch

ऑनवर्क्स फ़ेविकॉन

samtools

उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर पर ऑनवर्क्स मुफ्त होस्टिंग प्रदाता में samtools चलाएं।

यह कमांड samtools है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर में से एक का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।

कार्यक्रम:

नाम


samtools - अनुक्रम संरेखण/मानचित्र (एसएएम) प्रारूप के लिए उपयोगिताएँ

bcftools - बाइनरी कॉल फॉर्मेट (BCF) और VCF के लिए उपयोगिताएँ

SYNOPSIS


samtools व्यू -bt ref_list.txt -o aln.bam aln.sam.gz

samtools सॉर्ट aln.bam aln.sorted

samtools अनुक्रमणिका aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools aln.sorted.bam chr2:20,100,000-20,200,000 देखें

samtools मर्ज आउट.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools पाइलअप -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools टीवी aln.sorted.bam ref.fasta

bcftools अनुक्रमणिका in.bcf

bcftools in.bcf देखें chr2:100-200 > out.vcf

bcftools देखें -Nvm0.99 in.bcf > out.vcf 2> out.afs

वर्णन


Samtools उपयोगिताओं का एक समूह है जो BAM प्रारूप में संरेखण में हेरफेर करता है। यह आयात करता है
से और एसएएम (अनुक्रम संरेखण/मानचित्र) प्रारूप में निर्यात करता है, छँटाई, विलय और
अनुक्रमण, और किसी भी क्षेत्र में तेजी से पढ़ने को पुनः प्राप्त करने की अनुमति देता है।

Samtools को एक स्ट्रीम पर काम करने के लिए डिज़ाइन किया गया है। यह एक इनपुट फ़ाइल `-' को मानक मानता है
इनपुट (stdin) और एक आउटपुट फ़ाइल `-' मानक आउटपुट (stdout) के रूप में। कई आदेश कर सकते हैं
इस प्रकार यूनिक्स पाइप के साथ जोड़ा जा सकता है। Samtools हमेशा चेतावनी और त्रुटि संदेशों को आउटपुट करता है
मानक त्रुटि आउटपुट (stderr)।

Samtools दूरस्थ FTP या HTTP सर्वर पर BAM (SAM नहीं) फ़ाइल खोलने में भी सक्षम है यदि
BAM फ़ाइल का नाम `ftp://' या `http://' से शुरू होता है। Samtools वर्तमान कार्य की जाँच करता है
अनुक्रमणिका फ़ाइल के लिए निर्देशिका और अनुपस्थिति पर अनुक्रमणिका डाउनलोड करेगा। Samtools नहीं करता है
संपूर्ण संरेखण फ़ाइल को पुनः प्राप्त करें जब तक कि उसे ऐसा करने के लिए न कहा जाए।

समटूल कमानों और विकल्प


राय samtools देखें [-bchuHS] [-t in.refList] [-o आउटपुट] [-f reqFlag] [-F SkipFlag]
[-क्यू मिनमैपक्यू] [-एल लाइब्रेरी] [-आर रीडग्रुप] [-आर आरजीफाइल] | [क्षेत्र1
[...]]

एसएएम या बीएएम प्रारूप में सभी या उप संरेखण निकालें/प्रिंट करें। यदि कोई क्षेत्र नहीं है
निर्दिष्ट, सभी संरेखण मुद्रित किए जाएंगे; अन्यथा केवल संरेखण
निर्दिष्ट क्षेत्रों को ओवरलैप करना आउटपुट होगा। एक संरेखण दिया जा सकता है
कई बार अगर यह कई क्षेत्रों को ओवरलैप कर रहा है। एक क्षेत्र प्रस्तुत किया जा सकता है,
उदाहरण के लिए, निम्न प्रारूप में: `chr2' (संपूर्ण chr2), `chr2:1000000'
(क्षेत्र 1,000,000bp से शुरू) या `chr2:1,000,000-2,000,000' (क्षेत्र के बीच
1,000,000 और 2,000,000bp अंतिम बिंदुओं सहित)। निर्देशांक 1-आधारित है।

विकल्प:

-b बीएएम प्रारूप में आउटपुट।

-f INT FLAG फ़ील्ड में मौजूद INT में सभी बिट्स के साथ केवल आउटपुट संरेखण।
INT /^0x[0-9A-F]+/ [0] के प्रारूप में हेक्स में हो सकता है

-F INT INT [0] में मौजूद बिट्स के साथ संरेखण छोड़ें

-h आउटपुट में हेडर शामिल करें।

-H केवल हेडर आउटपुट करें।

-l एसटीआर लाइब्रेरी एसटीआर में केवल आउटपुट पढ़ता है [नल]

-o फ़ाइल आउटपुट फ़ाइल [स्टडआउट]

-q INT INT [0] से छोटे MAPQ के साथ संरेखण छोड़ें

-r एसटीआर रीड ग्रुप एसटीआर में केवल आउटपुट पढ़ता है [नल]

-R फ़ाइल आउटपुट में सूचीबद्ध पठन समूहों में पढ़ता है फ़ाइल [शून्य]

-s फ्लोट नमूना लेने के लिए टेम्पलेट्स/जोड़े का अंश; पूर्णांक भाग का इलाज किया जाता है
यादृच्छिक संख्या जनरेटर के लिए बीज के रूप में [-1]

-S इनपुट सैम में है। यदि @SQ शीर्षलेख पंक्तियाँ अनुपस्थित हैं, तो `-टी' विकल्प है
आवश्यक.

-c संरेखण को प्रिंट करने के बजाय, केवल उन्हें गिनें और प्रिंट करें
कुल गणना। सभी फ़िल्टर विकल्प, जैसे `-एफ', `-एफ' और `-क्यू' , कर रहे हैं
ध्यान में रखा।

-t फ़ाइल यह फ़ाइल टैब-सीमांकित है। प्रत्येक पंक्ति में संदर्भ नाम होना चाहिए
और संदर्भ की लंबाई, प्रत्येक विशिष्ट संदर्भ के लिए एक पंक्ति;
अतिरिक्त क्षेत्रों को नजरअंदाज कर दिया जाता है। यह फ़ाइल के क्रम को भी परिभाषित करती है
छँटाई में संदर्भ अनुक्रम। यदि आप `samtools faidx . चलाते हैं ',
परिणामी अनुक्रमणिका फ़ाइल .fai इस रूप में इस्तेमाल किया जा सकता है
फ़ाइल.

-u आउटपुट असम्पीडित बीएएम। इस विकल्प पर खर्च किए गए समय की बचत होती है
संपीड़न/विघटन और इस प्रकार आउटपुट होने पर पसंद किया जाता है
दूसरे samtools कमांड को पाइप किया गया।

टीवी samtools टीवी [-p सीआर: स्थिति] [-s एसटीआर] [-d प्रदर्शन] [संदर्भ फास्टा]

पाठ संरेखण दर्शक (ncurses पुस्तकालय पर आधारित)। व्यूअर में, `?' दबाएं
सहायता के लिए और प्रारूप में एक क्षेत्र से संरेखण शुरू करने के लिए 'g' दबाएं
जैसे `chr10:10,000,000' या `=10,000,000' एक ही संदर्भ देखने पर
अनुक्रम।

विकल्प:

-d प्रदर्शन (एच) टीएमएल या (सी) urses या (टी) ext . के रूप में आउटपुट

-p सीआर: स्थिति सीधे इस पोजीशन पर जाएं

-s एसटीआर प्रदर्शन केवल इस नमूने या पढ़ने वाले समूह से पढ़ता है

mpileup सैमटूल एमपाइलअप [-ईबगपो] [-C कैपक्यूकोफ] [-r REG] [-f in.fa] [-l सूची] [-M
कैपमैपक्यू] [-Q मिनबेसक्यू] [-q मिनमैपक्यू] in.bam [in2.bam [...]]

एक या एक से अधिक BAM फ़ाइलों के लिए BCF या पाइलअप जनरेट करें। संरेखण रिकॉर्ड हैं
@RG हेडर लाइनों में नमूना पहचानकर्ताओं द्वारा समूहीकृत। यदि नमूना पहचानकर्ता हैं
अनुपस्थित, प्रत्येक इनपुट फ़ाइल को एक नमूना माना जाता है।

पाइलअप प्रारूप में (बिना -uor-g), प्रत्येक पंक्ति एक जीनोमिक स्थिति का प्रतिनिधित्व करती है,
गुणसूत्र नाम से मिलकर, समन्वय, संदर्भ आधार, आधार पढ़ें, पढ़ें
गुण और संरेखण मानचित्रण गुण। मैच, बेमेल, के बारे में जानकारी
इंडेल, स्ट्रैंड, मैपिंग गुणवत्ता और पढ़ने की शुरुआत और अंत सभी को एन्कोड किया गया है
आधार स्तंभ पढ़ें। इस कॉलम पर, एक बिंदु संदर्भ के लिए एक मैच के लिए खड़ा है
फॉरवर्ड स्ट्रैंड पर बेस, रिवर्स स्ट्रैंड पर मैच के लिए कॉमा, a '>' or
संदर्भ स्किप के लिए '<', फॉरवर्ड स्ट्रैंड पर बेमेल के लिए 'एसीजीटीएन' और
रिवर्स स्ट्रैंड पर बेमेल के लिए `acgtn'। एक पैटर्न `\+[0-9]+[ACGTNacgtn]+'
इंगित करता है कि इस संदर्भ स्थिति और अगले के बीच एक प्रविष्टि है
संदर्भ स्थिति। सम्मिलन की लंबाई पूर्णांक द्वारा दी गई है
पैटर्न, सम्मिलित अनुक्रम के बाद। इसी तरह, एक पैटर्न
`-[0-9]+[ACGTNacgtn]+' संदर्भ से हटाने का प्रतिनिधित्व करता है। हटाया गया
आधारों को निम्नलिखित पंक्तियों में `*' के रूप में प्रस्तुत किया जाएगा। रीड बेस पर भी
कॉलम, एक प्रतीक `^' एक पठन की शुरुआत को चिह्नित करता है। चरित्र का ASCII
निम्नलिखित `^' माइनस 33 मैपिंग गुणवत्ता देता है। एक प्रतीक `$' . के अंत का प्रतीक है
एक पढ़ा खंड।

निवेश विकल्प:

-6 मान लें कि गुणवत्ता Illumina 1.3+ एन्कोडिंग में है। -A छोडो मत
वैरिएंट कॉलिंग में विषम पठन जोड़े।

-B आधार की गणना के लिए संभाव्य पुनर्संरेखण अक्षम करें
संरेखण गुणवत्ता (BAQ)। BAQ पढ़ने की फ़्रेड-स्केल की संभावना है
आधार का गलत इस्तेमाल किया जा रहा है। इस विकल्प को लागू करने से कम करने में बहुत मदद मिलती है
गलत संरेखण के कारण झूठे एसएनपी।

-b फ़ाइल इनपुट BAM फ़ाइलों की सूची, प्रति पंक्ति एक फ़ाइल [शून्य]

-C INT युक्त पठन के लिए मानचित्रण गुणवत्ता को कम करने के लिए गुणांक
अत्यधिक बेमेल। एक फ़्रेड-स्केल प्रायिकता q . के साथ एक पठन को देखते हुए
मैप की गई स्थिति से उत्पन्न होने की, नई मैपिंग गुणवत्ता
sqrt((INT-q)/INT)*INT के बारे में है। एक शून्य मान इसे अक्षम करता है
कार्यक्षमता; यदि सक्षम है, तो BWA के लिए अनुशंसित मान 50 है। [0]

-d INT किसी पोजीशन पर ज्यादा से ज्यादा पढ़ें INT प्रति इनपुट बीएएम पढ़ता है। [250]

-E विस्तारित बीएक्यू गणना। यह विकल्प विशेष रूप से संवेदनशीलता में मदद करता है
एमएनपी, लेकिन विशिष्टता को थोड़ा नुकसान पहुंचा सकता है।

-f फ़ाइल RSI faidxFASTA प्रारूप में अनुक्रमित संदर्भ फ़ाइल। फ़ाइल हो सकती है
वैकल्पिक रूप से संकुचित रज़िप. [शून्य]

-l फ़ाइल BED या स्थिति सूची फ़ाइल जिसमें उन क्षेत्रों या साइटों की सूची है जहाँ
पाइलअप या बीसीएफ उत्पन्न किया जाना चाहिए [शून्य]

-q INT उपयोग किए जाने वाले संरेखण के लिए न्यूनतम मानचित्रण गुणवत्ता [0]

-Q INT आधार के लिए न्यूनतम आधार गुणवत्ता पर विचार किया जाना है [13]

-r एसटीआर केवल क्षेत्र में पाइलअप उत्पन्न करें एसटीआर [सभी साइटें]

उत्पादन विकल्प:

-D आउटपुट प्रति-नमूना गहराई पढ़ें

-g जीनोटाइप संभावनाओं की गणना करें और उन्हें बाइनरी कॉल प्रारूप में आउटपुट करें
(बीसीएफ)।

-S प्रति-नमूना आउटपुट

-u के समान -g सिवाय इसके कि आउटपुट असम्पीडित बीसीएफ है, जो है
पाइपिंग के लिए प्राथमिकता

ऑप्शंस एसटी जीनोटाइप संभावना गणना (के लिए -g or -यू):

-e INT फ़्रेड-स्केल्ड गैप एक्सटेंशन अनुक्रमण त्रुटि संभावना। कमी INT
लंबे समय तक indels की ओर जाता है। [20]

-h INT होमोपोलिमर त्रुटियों के मॉडलिंग के लिए गुणांक। दिया गया lलंबी
होमोपोलिमर रन, आकार के एक इण्डेल की अनुक्रमण त्रुटि s प्रतिरूपित है
as INT*s/l। [100]

-I इंडेल कॉलिंग न करें

-L INT औसत प्रति-नमूना गहराई ऊपर होने पर INDEL कॉलिंग छोड़ें INT.
[250]

-o INT फ्रेड-स्केल्ड गैप ओपन सीक्वेंसिंग एरर प्रायिकता। कमी INT ओर जाता है
अधिक इंडेल कॉल के लिए। [40]

-p की संवेदनशीलता बढ़ाने के लिए प्रति नमूना -m और -F थ्रेसहोल्ड लागू करें
बुला रहा है। डिफ़ॉल्ट रूप से दोनों विकल्प सभी से पूल किए गए पढ़ने के लिए लागू होते हैं
नमूने हैं।

-P एसटीआर प्लेटफार्मों की अल्पविराम सीमित सूची (द्वारा निर्धारित @आरजी-पीएल) किस से
इंडेल उम्मीदवार प्राप्त होते हैं। इंडेल को इकट्ठा करने की सिफारिश की जाती है
अनुक्रमण तकनीकों के उम्मीदवार जिनमें कम इंडेल त्रुटि दर है
जैसे इल्लुमिना। [सब]

पुनर्शीर्षक samtools reheader

शीर्षलेख को इसमें बदलें in.bam हेडर के साथ in.header.sam. यह आदेश है
हेडर को BAM->SAM->BAM रूपांतरण से बदलने की तुलना में बहुत तेज़।

बिल्ली samtools cat [-h header.sam] [-o out.bam] [...]

बीएएम को जोड़ना। प्रत्येक इनपुट BAM का अनुक्रम शब्दकोश समान होना चाहिए,
हालांकि यह आदेश इसकी जांच नहीं करता है। यह आदेश एक समान चाल का उपयोग करता है
पुनर्शीर्षक जो तेजी से BAM संयोजन को सक्षम बनाता है।

तरह samtools सॉर्ट [-nof] [-m maxMem]

सबसे बाईं ओर के निर्देशांक के आधार पर संरेखण को क्रमबद्ध करें। फ़ाइल .बामा उत्पन्न होगा।
यह आदेश अस्थायी फ़ाइलें भी बना सकता है .%d.bam जब पूरा
संरेखण को स्मृति में फिट नहीं किया जा सकता (विकल्प -m द्वारा नियंत्रित)।

विकल्प:

-o मानक आउटपुट के लिए अंतिम संरेखण को आउटपुट करें।

-n क्रोमोसोमल निर्देशांक के बजाय पढ़े गए नामों के आधार पर छाँटें

-f उपयोग पूर्ण आउटपुट पथ के रूप में और संलग्न न करें .बामा प्रत्यय।

-m INT लगभग अधिकतम आवश्यक मेमोरी। [500000000]

मर्ज samtools मर्ज [-nur1f] [-h inh.sam] [-R reg]
[...]

एकाधिक क्रमबद्ध संरेखण मर्ज करें। सभी इनपुट की हेडर संदर्भ सूची
BAM फ़ाइलें, और @SQ शीर्षलेख इंह.सैम, यदि कोई हो, तो सभी को उसी का उल्लेख करना चाहिए
संदर्भ अनुक्रमों का सेट। शीर्षलेख संदर्भ सूची और (जब तक कि द्वारा ओवरराइड न किया गया हो
-h) `@' के शीर्षलेख in1.bam में कॉपी किया जाएगा बाहर.बामा, और अन्य के शीर्षलेख
फाइलों पर ध्यान नहीं दिया जाएगा।

विकल्प:

-1 आउटपुट को संपीड़ित करने के लिए zlib संपीड़न स्तर 1 का उपयोग करें

-f यदि मौजूद हो तो आउटपुट फ़ाइल को अधिलेखित करने के लिए बाध्य करें।

-h फ़ाइल की पंक्तियों का प्रयोग करें फ़ाइल '@' हेडर के रूप में कॉपी किया जाना है बाहर.बामा, बदल रहा है
कोई भी शीर्षलेख पंक्तियाँ जिन्हें अन्यथा से कॉपी किया जाएगा in1.bam। (फ़ाइल is
वास्तव में एसएएम प्रारूप में, हालांकि इसमें शामिल कोई भी संरेखण रिकॉर्ड हो सकता है
अवहेलना करना।)

-n इनपुट संरेखण को क्रोमोसोमल के बजाय पढ़े गए नामों से क्रमबद्ध किया जाता है
निर्देशांक

-R एसटीआर निर्दिष्ट क्षेत्र में फाइलों को मर्ज करें एसटीआर [शून्य]

-r प्रत्येक संरेखण के लिए एक RG टैग संलग्न करें। टैग मान फ़ाइल से अनुमानित है
नाम।

-u असम्पीडित बीएएम आउटपुट

अनुक्रमणिका samtools अनुक्रमणिका

तेजी से यादृच्छिक अभिगम के लिए सूचकांक क्रमबद्ध संरेखण। अनुक्रमणिका फ़ाइल बाई होगा
बनाया।

idxstats samtools idxstats

अनुक्रमणिका फ़ाइल में आँकड़े प्राप्त करें और प्रिंट करें। आउटपुट TAB के साथ सीमांकित है
प्रत्येक पंक्ति में संदर्भ अनुक्रम नाम, अनुक्रम लंबाई, # मैप किए गए रीड शामिल हैं
और # अनमैप्ड पढ़ता है।

faidx samtools faidx [क्षेत्र 1 [...]]

FASTA प्रारूप में अनुक्रमणिका संदर्भ अनुक्रम या अनुक्रमित से अनुक्रम निकालें
संदर्भ क्रम। यदि कोई क्षेत्र निर्दिष्ट नहीं है, faidx फ़ाइल को अनुक्रमित करेगा और
बनाना .fai डिस्क पर। यदि क्षेत्रों को निर्दिष्ट किया जाता है, तो परिणाम
प्राप्त किया जाएगा और FASTA प्रारूप में stdout पर मुद्रित किया जाएगा। इनपुट फ़ाइल कर सकते हैं
में संकुचित होना RAZF प्रारूप.

फिक्समेट samtools फिक्समेट

नाम-क्रमबद्ध से मेट निर्देशांक, ISIZE और मेट संबंधित फ़्लैग भरें
संरेखण।

आरएमडीयूपी samtools rmdup [-sS]

संभावित पीसीआर डुप्लिकेट निकालें: यदि कई पढ़े गए जोड़े में समान बाहरी हैं
निर्देशांक, केवल उच्चतम मानचित्रण गुणवत्ता वाले युग्म को बनाए रखते हैं। जोड़ी में-
अंत मोड, यह आदेश केवल FR अभिविन्यास के साथ काम करता है और इसके लिए ISIZE की आवश्यकता होती है
सही ढंग से सेट। यह अयुग्मित पठन के लिए काम नहीं करता है (उदाहरण के लिए दो सिरों को मैप किया गया है
विभिन्न गुणसूत्र या अनाथ पढ़ता है)।

विकल्प:

-s सिंगल-एंड रीड्स के लिए डुप्लिकेट निकालें। डिफ़ॉल्ट रूप से, आदेश के लिए काम करता है
युग्मित-अंत केवल पढ़ता है।

-S पेयर-एंड रीड्स और सिंगल-एंड रीड्स को ट्रीट करें।

शांत samtools शांत [-EeubSr] [-C capQcoef]

एमडी टैग जेनरेट करें। यदि एमडी टैग पहले से मौजूद है, तो यह कमांड देगा a
चेतावनी अगर जनरेट किया गया एमडी टैग मौजूदा टैग से अलग है। आउटपुट सैम
डिफ़ॉल्ट रूप से

विकल्प:

-A जब के साथ संयुक्त रूप से उपयोग किया जाता है -r यह विकल्प मूल आधार को अधिलेखित कर देता है
गुणवत्ता.

-e एक पठन आधार को = में परिवर्तित करें यदि यह संरेखित संदर्भ के समान है
आधार। इंडेल कॉलर इस समय = ठिकानों का समर्थन नहीं करता है।

-u आउटपुट असम्पीडित BAM

-b आउटपुट संपीड़ित बीएएम

-S इनपुट एसएएम हेडर लाइनों के साथ है

-C INT खराब मैप किए गए रीड की मैपिंग क्वालिटी को कैप करने के लिए गुणांक। देखें
ढेर लगाना विवरण के लिए आदेश। [0]

-r BQ टैग (बिना -A) या BAQ (-A के साथ) द्वारा कैप बेस क्वालिटी की गणना करें।

-E विस्तारित बीएक्यू गणना। यह विकल्प के लिए विशिष्टता का व्यापार करता है
संवेदनशीलता, हालांकि प्रभाव मामूली है।

लक्ष्य कट samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
संदर्भ]

यह आदेश पढ़ने की निरंतरता की जांच करके लक्ष्य क्षेत्रों की पहचान करता है
गहराई, लक्ष्य के अगुणित सर्वसम्मति अनुक्रमों की गणना करता है और एक एसएएम को आउटपुट करता है
प्रत्येक अनुक्रम एक लक्ष्य के अनुरूप है। जब विकल्प -f उपयोग में है, BAQ होगा
लागू। यह आदेश है केवल फॉस्मिड से फॉस्मिड क्लोन काटने के लिए डिज़ाइन किया गया
पूल अनुक्रमण [Ref। किट्ज़मैन एट अल। (2010)]।

चरण samtools चरण [-AF] [-k लेन] [-b उपसर्ग] [-q minLOD] [-Q minBaseQ]

कॉल और चरण विषमयुग्मजी एसएनपी। विकल्प:

-A ड्रॉप अस्पष्ट चरण के साथ पढ़ता है।

-b एसटीआर BAM आउटपुट का उपसर्ग। जब यह विकल्प प्रयोग में हो, तो फेज-0 रीड्स होगा
फ़ाइल में सहेजा गया एसटीआर.0.bam और चरण -1 में पढ़ता है एसटीआर.1.बाम। चरण अज्ञात
दो फाइलों में से एक को यादृच्छिक रूप से आवंटित किया जाएगा। काइमेरिक पढ़ता है
स्विच त्रुटियों के साथ सहेजा जाएगा एसटीआर.चिमेरिक.बाम। [शून्य]

-F काइमरिक रीड्स को ठीक करने का प्रयास न करें।

-k INT स्थानीय चरणबद्धता के लिए अधिकतम लंबाई। [13]

-q INT हेटेरोज़ीगोट को कॉल करने के लिए न्यूनतम फ़्रेड-स्केल एलओडी। [40]

-Q INT हेट कॉलिंग में उपयोग की जाने वाली न्यूनतम आधार गुणवत्ता। [13]

बीसीएफटीयूएलएस कमानों और विकल्प


राय बीसीएफटीटूल्स राय [-एबीएफजीएनक्यूसुकगव] [-D seqDict] [-l सूची लोकी] [-s सूची नमूना] [-i
गैपएसएन अनुपात] [-t उत्परिवर्तन दर] [-p varThres] [-m varThres] [-P पूर्व] [-1 एनग्रुप1]
[-d मिनफ्रैक] [-U एनपर्म] [-X पर्मथ्रेस] [-T तिकड़ी प्रकार] में.बीसीएफ [क्षेत्र]

बीसीएफ और वीसीएफ के बीच कनवर्ट करें, वैरिएंट उम्मीदवारों को कॉल करें और एलील का अनुमान लगाएं
आवृत्तियों।

इनपुट / आउटपुट विकल्प:

-A विभिन्न स्थानों पर सभी संभावित वैकल्पिक एलील बनाए रखें। डिफ़ॉल्ट रूप से,
व्यू कमांड असंभावित एलील्स को त्याग देता है।

-b बीसीएफ प्रारूप में आउटपुट। डिफ़ॉल्ट वीसीएफ है।

-D फ़ाइल VCF->BCF रूपांतरण के लिए अनुक्रम शब्दकोश (गुणसूत्र नामों की सूची)
[शून्य]

-F इंगित करें कि PL r921 या इससे पहले उत्पन्न होता है (आदेश अलग है)।

-G सभी व्यक्तिगत जीनोटाइप जानकारी को दबाएं।

-l फ़ाइल उन साइटों की सूची जिन पर सूचना का उत्पादन किया जाता है [सभी साइटें]

-N उन साइटों को छोड़ें जहाँ REF फ़ील्ड A/C/G/T . नहीं है

-Q QCALL संभावना प्रारूप को आउटपुट करें

-s फ़ाइल उपयोग के लिए नमूनों की सूची। इनपुट में पहला कॉलम नमूना देता है
नाम और दूसरा प्लोइड देता है, जो केवल 1 या 2 हो सकता है। कब
दूसरा स्तंभ अनुपस्थित है, नमूना ploidy 2 माना जाता है। में
आउटपुट, नमूनों का क्रम एक in . के समान होगा फ़ाइल.
[शून्य]

-S इनपुट बीसीएफ के बजाय वीसीएफ है।

-u असम्पीडित बीसीएफ आउटपुट (बल-बी)।

आम सहमति/वेरिएंट कॉलिंग विकल्प:

-c बायेसियन अनुमान का उपयोग करके कॉल वेरिएंट। यह विकल्प स्वचालित रूप से
विकल्प आमंत्रित करता है -e.

-d फ्लोट . -v उपयोग में है, लोकी को छोड़ दें जहां नमूने के अंश द्वारा कवर किया गया है
पढ़ता है फ्लोट के नीचे है। [0]

-e साइट का अनुमान लगाने सहित केवल अधिकतम-संभाव्यता अनुमान करें
एलील आवृत्ति, परीक्षण हार्डी-वेनबर्ग संतुलन और परीक्षण
एलआरटी के साथ संबंध।

-g विभिन्न साइटों पर कॉल प्रति-नमूना जीनोटाइप (बल-सी)

-i फ्लोट इंडेल-टू-एसएनपी उत्परिवर्तन दर का अनुपात [0.15]

-m फ्लोट बेहतर बहुविकल्पी और दुर्लभ-संस्करण कॉलिंग के लिए नया मॉडल। एक और
ALT एलील स्वीकार किया जाता है यदि LRT का P(chi^2) FLOAT थ्रेशोल्ड से अधिक हो जाता है।
पैरामीटर मजबूत लगता है और वास्तविक मान आमतौर पर नहीं होता है
परिणामों को बहुत प्रभावित करते हैं; उपयोग करने के लिए एक अच्छा मूल्य 0.99 है। यह है
अनुशंसित कॉलिंग विधि। [0]

-p फ्लोट साइट को वैरिएंट माना जाता है यदि P(ref|D)

-P एसटीआर पूर्व या प्रारंभिक एलील आवृत्ति स्पेक्ट्रम। यदि एसटीआर हो सकता है पूर्ण, हालत2,
फ्लैट या पिछले संस्करण से त्रुटि आउटपुट वाली फ़ाइल
कॉलिंग रन।

-t फ्लोट वैरिएंट कॉलिंग के लिए स्केल्ड म्यूटेशन दर [0.001]

-T एसटीआर जोड़ी/तीनों कॉलिंग सक्षम करें। तिकड़ी कॉलिंग के लिए, विकल्प -s आमतौर पर है
तीनों सदस्यों और उनके आदेश को कॉन्फ़िगर करने के लिए लागू करने की आवश्यकता है।
विकल्प को दी गई फ़ाइल में -s, पहला नमूना होना चाहिए
बच्चा, दूसरा पिता और तीसरा माता। मान्य
के मान एसटीआर 'जोड़ी', 'ट्रायोआटो', 'ट्रायोक्सड' और 'ट्रायोक्स' हैं, जहां
`जोड़ी' दो इनपुट नमूनों और `ट्रायोक्सड' के बीच अंतर को बुलाती है
(`trioxs') निर्दिष्ट करता है कि इनपुट X गुणसूत्र गैर-PAR . से है
क्षेत्र और बच्चा एक महिला (पुरुष) है। [शून्य]

-v केवल आउटपुट प्रकार वाली साइटें (बल-सी)

कंट्रास्ट कॉलिंग और संघ टेस्ट विकल्प:

-1 INT समूह-1 के नमूनों की संख्या। इस विकल्प का उपयोग को विभाजित करने के लिए किया जाता है
एसएनपी कॉलिंग या एसोसिएशन टेस्ट के विपरीत दो समूहों में नमूने।
जब यह विकल्प उपयोग में होता है, तो निम्न VCF INFO आउटपुट होगा:
PC2, PCHI2 और QCHI2। [0]

-U INT एसोसिएशन परीक्षण के लिए क्रमपरिवर्तन की संख्या (केवल के साथ प्रभावी -1)
[0]

-X फ्लोट केवल P(chi^2) के लिए क्रमपरिवर्तन निष्पादित करें -U)
[0.01]

अनुक्रमणिका बीसीएफटीटूल्स अनुक्रमणिका में.बीसीएफ

रैंडम एक्सेस के लिए इंडेक्स ने BCF को सॉर्ट किया।

बिल्ली बीसीएफटीटूल्स बिल्ली in1.बीसीएफ [in2.बीसीएफ [...]]]

बीसीएफ फाइलों को जोड़ना। इनपुट फ़ाइलों को सॉर्ट करने और रखने की आवश्यकता है
एक ही क्रम में समान नमूने दिखाई दे रहे हैं।

सैम FORMAT


अनुक्रम संरेखण/मानचित्र (एसएएम) प्रारूप टैब-सीमांकित है। हेडर लाइनों के अलावा, जो
'@' प्रतीक से शुरू होते हैं, प्रत्येक संरेखण रेखा में निम्न शामिल होते हैं:

मैं मैं
ज़ीनक्षेत्रविवरण
मैं मैं
1 QNAME │ क्वेरी टेम्पलेट/जोड़ी NAME
2 FLAG बिटवाइज़ FLAG
3 RNAME संदर्भ क्रम NAME
4 │ POS 1-आधारित सबसे बाईं ओर काटे गए अनुक्रम का स्थान/निर्देशांक
│ 5 MAPQ मैपिंग गुणवत्ता (फ्रेड-स्केल्ड)
│ 6 │ CIAGR विस्तारित CIGAR स्ट्रिंग │
7 MRNM मेट रेफरेंस सीक्वेंस NaMe (`=' अगर RNAME के ​​समान है)
8 MPOS 1-आधारित Mate POSistion
9 TLEN अनुमानित टेम्पलेट लंबाई (सम्मिलित करें आकार) │
10 SEQ क्वेरी SEQuence संदर्भ के समान स्ट्रैंड पर
11 QUAL क्वेरी गुणवत्ता (ASCII-33 Phred आधार गुणवत्ता देता है)
12+ ऑप्ट चर वैकल्पिक फ़ील्ड प्रारूप में TAG:VTYPE:VALUE
मैं मैं

FLAG फ़ील्ड में प्रत्येक बिट को इस प्रकार परिभाषित किया गया है:

मैं मैं
झंडाईसा पूर्वविवरण
मैं मैं
0x0001 │ पी │ पठन को अनुक्रमण में जोड़ा जाता है
0x0002 │ P पठन को उचित जोड़ी में मैप किया जाता है
0x0004 u क्वेरी अनुक्रम ही अनमैप्ड है
│0x0008 │ यू │ मेट अनमैप्ड है
0x0010 r │ क्वेरी का किनारा (रिवर्स के लिए 1)
0x0020 │ आर │ मेट का किनारा
0x0040 │ 1 पठन एक जोड़ी में पहली बार पढ़ा जाता है
│0x0080 │ 2 पठन एक जोड़ी में दूसरा पठन है
0x0100 s संरेखण प्राथमिक नहीं है
0x0200 f पठन विफल मंच/विक्रेता गुणवत्ता जांच
│0x0400 │ d पठन या तो पीसीआर है या ऑप्टिकल डुप्लीकेट
मैं मैं
जहां दूसरा कॉलम FLAG फ़ील्ड का स्ट्रिंग प्रतिनिधित्व देता है।

वीसीएफ FORMAT


वेरिएंट कॉल फॉर्मेट (वीसीएफ) एक टैब-सीमांकित प्रारूप है जिसमें प्रत्येक डेटा लाइन में शामिल हैं
निम्नलिखित फ़ील्ड:

मैं मैं
ज़ीनक्षेत्रविवरण
मैं मैं
1 क्रोम क्रोमोसोम नाम
2 POS वैरिएंट की सबसे बाईं ओर की स्थिति
3 │ आईडी │ अद्वितीय प्रकार पहचानकर्ता │
4 │ आरईएफ संदर्भ एलील
5 ALT वैकल्पिक एलील, अल्पविराम द्वारा अलग किए गए
│ 6 गुणवत्ता │ प्रकार/संदर्भ गुणवत्ता
7 फ़िल्टर फ़िल्टर लागू │
8 │ जानकारी │ सेमी-कोलन द्वारा अलग किए गए प्रकार से संबंधित जानकारी
9 प्रारूप जीनोटाइप क्षेत्रों का प्रारूप, कोलन द्वारा अलग किया गया (वैकल्पिक) │
10+ नमूना │ नमूना जीनोटाइप और प्रति-नमूना जानकारी (वैकल्पिक) │
मैं मैं

निम्न तालिका देता है जानकारी samtools और bcftools द्वारा उपयोग किए जाने वाले टैग।

मैं मैं मैं
टैगप्रारूपविवरण
मैं मैं मैं
मैं मैं मैं

उदाहरण


o एसएएम को बीएएम में आयात करें जब @एसक्यू शीर्षलेख में पंक्तियाँ मौजूद हैं:

samtools view -bS aln.sam > aln.bam

If @एसक्यू लाइनें अनुपस्थित हैं:

samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam

जहां रेफ.फा.फाई द्वारा स्वचालित रूप से उत्पन्न होता है faidx आदेश।

ओ संलग्न करें RG क्रमबद्ध संरेखण विलय करते समय टैग करें:

पर्ल-ई 'प्रिंट'
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools मर्ज -rh rg.txt मर्ज किया गया.bam ga.bam 454.bam

a . में मान RG टैग फ़ाइल नाम से निर्धारित होता है जिसे पढ़ा जा रहा है। इसमें
उदाहरण, में विलय.बाम, से पढ़ता है गा.बामा संलग्न किया जाएगा आरजी: जेड: गा, जबकि से पढ़ता है
454.बाम संलग्न किया जाएगा आरजी: जेड: 454.

o एक द्विगुणित व्यक्ति के लिए SNPs और लघु INDEL को कॉल करें:

samtools mpileup -ugf ref.fa aln.bam | bcftools देखें -बीवीसीजी -> var.raw.bcf
bcftools देखें var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

RSI -D varFilter का विकल्प अधिकतम पढ़ने की गहराई को नियंत्रित करता है, जिसे समायोजित किया जाना चाहिए
औसत पढ़ने की गहराई से लगभग दोगुना। कोई जोड़ने पर विचार कर सकता है —सी ०२३ सेवा मेरे mpileup अगर मानचित्रण
अत्यधिक बेमेल वाले पठन के लिए गुणवत्ता को कम करके आंका जाता है। इस विकल्प को लागू करना
आमतौर पर मदद करता है बीडब्ल्यूए-लघु लेकिन अन्य मैपर नहीं हो सकते हैं।

o एक द्विगुणित व्यक्ति के लिए सर्वसम्मति अनुक्रम उत्पन्न करें:

samtools mpileup -uf ref.fa aln.bam | bcftools व्यू -सीजी - | vcfutils.pl vcf2fq >
सीएनएस.एफक्यू

o नमूनों की एक जोड़ी से दैहिक उत्परिवर्तन को बुलाओ:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT जोड़ी -> var.bcf

आउटपुट जानकारी क्षेत्र में, CLR संभावना के बीच Phred-log अनुपात देता है
दो नमूनों का स्वतंत्र रूप से इलाज करना, और जीनोटाइप की आवश्यकता के कारण संभावना
समान हो। इस CLR प्रभावी रूप से दैहिक के आत्मविश्वास को मापने वाला एक अंक है
कॉल। जितना ऊँचा उतना अच्छा।

o परिवार की तिकड़ी से कॉल डे नोवो और दैहिक उत्परिवर्तन:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT जोड़ी -s sample.txt ->
वर.बीसीएफ

पट्टिका नमूने.txt सदस्य और आदेश को निर्दिष्ट करने वाली तीन पंक्तियों से मिलकर बना होना चाहिए
नमूने (बाल-पिता-माता के क्रम में)। इसी तरह, CLR Phred-log . देता है
तीनों बाधाओं के साथ और बिना संभावना अनुपात। यूजीटी सबसे अधिक संभावना दिखाता है
तीनों बाधाओं के बिना जीनोटाइप विन्यास, और CGT सबसे अधिक संभावना देता है
जीनोटाइप विन्यास तीनों बाधाओं को संतुष्ट करता है।

o चरण एक व्यक्ति:

samtools शांत -AEur aln.bam ref.fa | samtools चरण-बी उपसर्ग -> चरण.आउट

RSI शांत कमांड का उपयोग INDELs के आस-पास झूठे विषमयुग्मजी को कम करने के लिए किया जाता है।

o कई द्विगुणित व्यक्तियों के लिए SNPs और लघु इंडल्स को कॉल करें:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools देखें -bcvg -> var.raw.bcf
bcftools देखें var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

व्यक्तियों की पहचान से होती है SM में टैग @आरजी शीर्ष लेख पंक्तियाँ। व्यक्ति हो सकते हैं
एक संरेखण फ़ाइल में जमा; एक व्यक्ति को कई फाइलों में अलग किया जा सकता है।
RSI -P विकल्प निर्दिष्ट करता है कि इंडेल उम्मीदवारों को केवल पढ़े गए समूहों से एकत्र किया जाना चाहिए
साथ @आरजी-पीएल टैग सेट Illumina. अनुक्रमित पठन से इंडेल उम्मीदवारों को एकत्रित करना
एक इंडेल-प्रोन तकनीक द्वारा इंडेल कॉलिंग के प्रदर्शन को प्रभावित कर सकता है।

ध्यान दें कि एक नया कॉलिंग मॉडल है जिसे द्वारा लागू किया जा सकता है

bcftools व्यू -एम0.99 ...

जो डिफ़ॉल्ट विधि की कुछ गंभीर सीमाओं को ठीक करता है।

फ़िल्टरिंग के लिए, पहले लागू करने से सर्वोत्तम परिणाम प्राप्त होते प्रतीत होते हैं स्नैपगैप फ़िल्टर और
फिर कुछ मशीन लर्निंग दृष्टिकोण लागू करना

vcf-एनोटेट -f SnpGap=n
वीसीएफ फिल्टर...

दोनों में पाया जा सकता है vcftools और एचटीएसलिब पैकेज (नीचे लिंक)।

o एकाधिक व्यक्तियों से साइटों की सूची पर एलील फ़्रीक्वेंसी स्पेक्ट्रम (AFS) प्राप्त करें:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

जहां साइटों.सूची संदर्भ वाली प्रत्येक पंक्ति वाली साइटों की सूची शामिल है
अनुक्रम का नाम और स्थिति। निम्नलिखित बीसीएफटीटूल्स आदेश EM द्वारा AFS का अनुमान लगाते हैं।

o अन्य एसएनपी कॉलर्स के लिए डंप बीएक्यू एप्लाइड अलाइनमेंट:

samtools शांत -bAr aln.bam > aln.baq.bam

यह जोड़ता और सुधारता है NM और MD एक ही समय में टैग। NS शांत आदेश भी आता है
साथ -C विकल्प, एक के समान ढेर लगाना और mpileup. अगर यह मदद करता है तो आवेदन करें।

सीमाएं


o bam_import.c, bam_endian.h, bam.c और bam_aux.c में प्रयुक्त असंरेखित शब्द।

o Samtools पेयर-एंड rmdup अनपेयर्ड रीड्स के लिए काम नहीं करता है (उदाहरण के लिए, ऑर्फ़न पढ़ता है या समाप्त होता है)
विभिन्न गुणसूत्रों के लिए मैप किया गया)। यदि यह एक चिंता का विषय है, तो कृपया Picard's . का उपयोग करें
मार्कडुप्लिकेट जो इन मामलों को सही ढंग से संभालता है, हालांकि थोड़ा धीमा।

onworks.net सेवाओं का उपयोग करके ऑनलाइन samtools का उपयोग करें


Ad




×
विज्ञापन
❤️यहां खरीदारी करें, बुक करें या खरीदें - कोई शुल्क नहीं, इससे सेवाएं निःशुल्क बनी रहती हैं।