अंग्रेज़ीफ्रेंचस्पेनिश

Ad


ऑनवर्क्स फ़ेविकॉन

vcftools - क्लाउड में ऑनलाइन

उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर पर ऑनवर्क्स मुफ्त होस्टिंग प्रदाता में vcftools चलाएं।

यह कमांड vcftools है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे कि उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर में से एक का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।

कार्यक्रम:

नाम


vcftools - वीसीएफ फाइलों का विश्लेषण करें

SYNOPSIS


vcftools [विकल्प]

वर्णन


Vcftools प्रोग्राम कमांड लाइन से चलाया जाता है। इंटरफ़ेस PLINK से प्रेरित है, और
so उस पैकेज के उपयोगकर्ताओं के लिए काफी हद तक परिचित होना चाहिए। आदेश निम्नलिखित रूप लेते हैं:

vcftools --vcf फ़ाइल1.vcf --chr 20 --freq

उपरोक्त आदेश vcftools को फ़ाइल में पढ़ने के लिए कहता है file1.vcf, साइटों को निकालें
गुणसूत्र 20, और प्रत्येक साइट पर एलील आवृत्ति की गणना करें। परिणामी एलील
आवृत्ति अनुमान आउटपुट फ़ाइल, out.freq में संग्रहीत किए जाते हैं। जैसा कि ऊपर के उदाहरण में है,
vcftools से आउटपुट मुख्य रूप से आउटपुट फाइलों को भेजा जाता है, जैसा कि पर दिखाया जा रहा है
स्क्रीन।

ध्यान दें कि कुछ कमांड केवल vcftools के नवीनतम संस्करण में उपलब्ध हो सकते हैं। प्राप्त करना
नवीनतम संस्करण, आपको नवीनतम कोड चेकआउट करने के लिए एसवीएन का उपयोग करना चाहिए, जैसा कि पर वर्णित है
मुख पृष्ठ.

यह भी ध्यान दें कि पॉलीप्लोइड जीनोटाइप वर्तमान में समर्थित नहीं हैं।

बुनियादी ऑप्शंस
--वीसीएफ
यह विकल्प संसाधित होने वाली VCF फ़ाइल को परिभाषित करता है। फ़ाइलों को विघटित करने की आवश्यकता है
vcftools के साथ प्रयोग करने से पहले। vcftools VCF प्रारूप v4.0 में फ़ाइलों की अपेक्षा करता है, a
जिसकी विशिष्टता यहां पाई जा सकती है।

--gzvcf
संपीड़ित (gzipped) पढ़ने के लिए --vcf विकल्प के स्थान पर इस विकल्प का उपयोग किया जा सकता है
सीधे वीसीएफ फाइलें। ध्यान दें कि बड़े के साथ उपयोग किए जाने पर यह विकल्प काफी धीमा हो सकता है
फाइलें.

--बाहर
यह विकल्प vcftools द्वारा उत्पन्न सभी फाइलों के लिए आउटपुट फ़ाइल नाम उपसर्ग को परिभाषित करता है।
उदाहरण के लिए, यदि output_filename पर सेट है, तो सभी आउटपुट फ़ाइलें होंगी
फ़ॉर्म का output_filename.***। यदि यह विकल्प छोड़ दिया जाता है, तो सभी आउटपुट फ़ाइलें होंगी
उपसर्ग 'बाहर' है।

साइट फ़िल्टर ऑप्शंस
--chr
केवल क्रोमोसोम पहचानकर्ता मिलान वाली साइटों को प्रोसेस करें

--से-बीपी

--टू-बीपी
ये विकल्प परिभाषित करते हैं कि साइटों की भौतिक श्रेणी संसाधित की जाएगी। बाहर की साइटें
इस श्रेणी से बाहर रखा जाएगा। इन विकल्पों का उपयोग केवल के संयोजन में ही किया जा सकता है
--chr।

- एसएनपी
मिलान आईडी के साथ एसएनपी शामिल करें। इस आदेश को क्रम में कई बार इस्तेमाल किया जा सकता है
एक से अधिक एसएनपी शामिल करने के लिए।

--एसएनपीएस
एक फाइल में दिए गए एसएनपी की सूची शामिल करें। फ़ाइल में एसएनपी आईडी की सूची होनी चाहिए,
प्रति पंक्ति एक आईडी के साथ।

--निकालना
किसी फ़ाइल में दिए गए SNPs की सूची को बाहर करें। फ़ाइल में एसएनपी आईडी की सूची होनी चाहिए,
प्रति पंक्ति एक आईडी के साथ।

--स्थिति
पदों की सूची के आधार पर साइटों का एक समूह शामिल करें। इनपुट की प्रत्येक पंक्ति
फ़ाइल में एक (टैब से अलग) गुणसूत्र और स्थिति होनी चाहिए। फ़ाइल चाहिए
एक हेडर लाइन है। सूची में शामिल नहीं की गई साइटों को बाहर रखा गया है।

--बिस्तर

--बेड-बेड
BED फ़ाइल के आधार पर साइटों के एक समूह को शामिल करें या बाहर करें। केवल पहले तीन
कॉलम (क्रोम, क्रोमस्टार्ट और क्रोमएंड) आवश्यक हैं। बीईडी फाइल में एक होना चाहिए
हेडर लाइन।

--निकालें-फ़िल्टर्ड-सब

--निकालें-फ़िल्टर्ड

--रखने-फ़िल्टर्ड
इन विकल्पों का उपयोग साइटों को उनके FILTER ध्वज के आधार पर फ़िल्टर करने के लिए किया जाता है। NS
पहला विकल्प फ़िल्टर ध्वज वाली सभी साइटों को हटा देता है। दूसरा विकल्प इस्तेमाल किया जा सकता है
विशिष्ट फ़िल्टर फ़्लैग वाली साइटों को बहिष्कृत करें. तीसरे विकल्प का चयन करने के लिए इस्तेमाल किया जा सकता है
विशिष्ट फ़िल्टर फ़्लैग के आधार पर साइटें। दूसरा और तीसरा विकल्प हो सकता है
एकाधिक फ़िल्टर निर्दिष्ट करने के लिए एकाधिक बार उपयोग किया जाता है। --रखें-फ़िल्टर्ड विकल्प है
--remove-filtered विकल्प से पहले लागू किया गया।

--मिनक्यू
केवल इस सीमा से अधिक गुणवत्ता वाली साइटें शामिल करें.

--न्यूनतम-मीनDP

--मैक्स-मीनडीपी
इन विकल्पों द्वारा परिभाषित थ्रेसहोल्ड के भीतर औसत गहराई वाली साइटों को शामिल करें।

--माफ

--मैक्स-माफ
निर्दिष्ट सीमा के भीतर केवल माइनर एलील फ़्रीक्वेंसी वाली साइटें शामिल करें।

--गैर-रेफरी-एफ़

--मैक्स-नॉन-रेफरी-एएफ
निर्दिष्ट सीमा के भीतर केवल गैर-संदर्भ एलील फ़्रीक्वेंसी वाली साइटें शामिल करें।

--ह्यू
हार्डी-वेनबर्ग इक्विलिब्रियम के लिए एक सटीक परीक्षण का उपयोग करके साइटों का आकलन करता है, जैसा कि परिभाषित किया गया है
विगिंटन, कटलर और एबेकसिस (2005)। थ्रेशोल्ड के नीचे पी-मान वाली साइटें
इस विकल्प द्वारा परिभाषित एचडब्ल्यूई से बाहर होने के लिए लिया जाता है, और इसलिए बाहर रखा जाता है।

--जीनो
अनुपलब्ध डेटा के अनुपात के आधार पर साइटों को बहिष्कृत करें (के बीच होने के लिए परिभाषित
0 और 1)।

--मिन-एलीलेस

--मैक्स-एलील्स
केवल निर्दिष्ट सीमा के भीतर कई एलील वाली साइटें शामिल करें। के लिये
उदाहरण के लिए, केवल द्वि-युग्मक साइटों को शामिल करने के लिए, कोई इसका उपयोग कर सकता है:

vcftools --vcf file1.vcf --min-aleles 2 --max-aleles 2

--मुखौटा

--इनवर्ट-मास्क

--मास्क-मिनट
FASTA जैसी फ़ाइल के आधार पर साइटों को शामिल करें। प्रदान की गई फ़ाइल में शामिल है a
एक गुणसूत्र पर प्रत्येक स्थिति के लिए पूर्णांक अंकों (0 और 9 के बीच) का क्रम जो
निर्दिष्ट करें कि उस स्थान पर किसी साइट को फ़िल्टर किया जाना चाहिए या नहीं। एक उदाहरण मुखौटा फ़ाइल
ऐसा दिखेगा:

>1
0000011111222 ...

इस उदाहरण में, VCF फ़ाइल में साइट के पहले 5 ठिकानों के भीतर स्थित है
गुणसूत्र 1 की शुरुआत को रखा जाएगा, जबकि स्थान 6 के बाद के स्थान होंगे
छांटा हुआ। थ्रेशोल्ड पूर्णांक जो निर्धारित करता है कि साइटों को फ़िल्टर किया गया है या नहीं है
--mask-min विकल्प का उपयोग करके सेट करें, जो डिफ़ॉल्ट रूप से 0. में निहित है
मास्क फ़ाइल को VCF फ़ाइल के समान क्रम में क्रमबद्ध किया जाना चाहिए। --mask विकल्प
उपयोग की जाने वाली मास्क फ़ाइल को निर्दिष्ट करने के लिए उपयोग किया जाता है, जबकि --invert-mask विकल्प कर सकते हैं
एक मुखौटा फ़ाइल निर्दिष्ट करने के लिए इस्तेमाल किया जा सकता है जो लागू होने से पहले उलटा हो जाएगा।

व्यक्ति फ़िल्टर
--इंडवी
विश्लेषण में रखे जाने के लिए एक व्यक्ति निर्दिष्ट करें। इस विकल्प का उपयोग एकाधिक . किया जा सकता है
कई व्यक्तियों को निर्दिष्ट करने का समय।

--रखना
बाद के विश्लेषण में शामिल करने के लिए व्यक्तियों की सूची वाली एक फ़ाइल प्रदान करें।
प्रत्येक व्यक्तिगत आईडी (जैसा कि वीसीएफ हेडरलाइन में परिभाषित किया गया है) को एक पर शामिल किया जाना चाहिए
अलग लाइन।

--निकालें-indv
विश्लेषण से निकाले जाने वाले व्यक्ति को निर्दिष्ट करें। इस विकल्प का उपयोग किया जा सकता है
एकाधिक व्यक्तियों को निर्दिष्ट करने के लिए कई बार। यदि --indv विकल्प भी है
निर्दिष्ट है, तो --indv विकल्प --remove-indv विकल्प से पहले निष्पादित किया जाता है।

--हटाना
बाद के विश्लेषण में बहिष्कृत करने के लिए व्यक्तियों की सूची वाली एक फ़ाइल प्रदान करें।
प्रत्येक व्यक्तिगत आईडी (जैसा कि वीसीएफ हेडरलाइन में परिभाषित किया गया है) को एक पर शामिल किया जाना चाहिए
अलग लाइन। यदि --keep और --remove दोनों विकल्पों का उपयोग किया जाता है, तो
--keep विकल्प --remove विकल्प से पहले निष्पादित होता है।

--mon-indv-meanDP

--मैक्स-इंडव-मीनडीपी
प्रति व्यक्ति आधार पर औसत कवरेज की गणना करें। केवल व्यक्तियों के साथ
इन विकल्पों द्वारा निर्दिष्ट सीमा के भीतर कवरेज को बाद में शामिल किया गया है
विश्लेषण करती है।

--मन
प्रत्येक व्यक्ति के लिए न्यूनतम कॉल दर सीमा निर्दिष्ट करें।

--चरणबद्ध
पहले सभी जीनोटाइप वाले सभी व्यक्तियों को शामिल नहीं किया गया है, और बाद में
चरणबद्ध जीनोटाइप वाली सभी साइटों को शामिल नहीं करता है। इसलिए शेष डेटा में शामिल हैं
केवल चरणबद्ध डेटा का।

जीनोटाइप फ़िल्टर
--निकालें-फ़िल्टर्ड-जीनो-सब

--निकालें-फ़िल्टर्ड-जीनो
पहला विकल्प फ़िल्टर ध्वज के साथ सभी जीनोटाइप को हटा देता है। दूसरा विकल्प हो सकता है
एक विशिष्ट फिल्टर ध्वज के साथ जीनोटाइप को बाहर करने के लिए उपयोग किया जाता है।

--मिनजीक्यू
इस विकल्प द्वारा निर्दिष्ट सीमा से नीचे की गुणवत्ता वाले सभी जीनोटाइप को बाहर करें
(जीक्यू)।

--minDP
इस विकल्प द्वारा निर्दिष्ट की गई अनुक्रमण गहराई के साथ सभी जीनोटाइप को बाहर करें
(डीपी)

उत्पादन सांख्यिकी (स्टेटिस्टिक्स)
--freq

--गणना

--freq2

--गिनती2
आउटपुट प्रति साइट आवृत्ति जानकारी। --freq एलील आवृत्ति को a . में आउटपुट करता है
प्रत्यय '.frq' के साथ फ़ाइल। --counts विकल्प के साथ एक समान फ़ाइल को आउटपुट करता है
प्रत्यय '.frq.count', जिसमें प्रत्येक साइट पर कच्चे एलील की संख्या होती है। --freq2
और --count2 विकल्पों का उपयोग आउटपुट फ़ाइल में एलील जानकारी को दबाने के लिए किया जाता है। में
इस मामले में, आवृत्ति/गणना का क्रम VCF फ़ाइल में क्रमांकन पर निर्भर करता है।

--गहराई
प्रति व्यक्ति औसत गहराई वाली फ़ाइल बनाता है। इस फ़ाइल में प्रत्यय है
'. गहराई'।

--साइट-गहराई

--साइट-माध्य-गहराई
प्रति साइट गहराई वाली फ़ाइल बनाता है। --साइट-गहराई विकल्प आउटपुट करता है
प्रत्येक साइट के लिए गहराई व्यक्तियों में संक्षेपित है। इस फ़ाइल में प्रत्यय '.ldepth' है।
इसी तरह, --साइट-माध्य-गहराई प्रत्येक साइट के लिए औसत गहराई को आउटपुट करती है, और
आउटपुट फ़ाइल में प्रत्यय '.ldepth.mean' है।

--जीनो-गहराई
एक (संभवतः बहुत बड़ी) फ़ाइल उत्पन्न करता है जिसमें प्रत्येक जीनोटाइप के लिए गहराई होती है
वीसीएफ फ़ाइल। गुम प्रविष्टियों को मान -1 दिया जाता है। फ़ाइल में प्रत्यय है
'.गडेप'।

--साइट-गुणवत्ता
प्रति-साइट एसएनपी गुणवत्ता वाली फ़ाइल उत्पन्न करता है, जैसा कि QUAL कॉलम में पाया जाता है
वीसीएफ फ़ाइल का। इस फ़ाइल में प्रत्यय '.lqual' है।

--हेट प्रति व्यक्ति आधार पर विषमयुग्मजीता के माप की गणना करता है। विशेष रूप से,
इनब्रीडिंग गुणांक, एफ, का अनुमान प्रत्येक व्यक्ति के लिए की एक विधि का उपयोग करके लगाया जाता है
क्षण। परिणामी फ़ाइल में प्रत्यय '.het' है।

--हार्डी
हार्डी-वेनबर्ग संतुलन परीक्षण से प्रत्येक साइट के लिए पी-मान की रिपोर्ट करता है (जैसा परिभाषित किया गया है
विगिन्टन, कटलर और एबेकसिस (2005) द्वारा)। परिणामी फ़ाइल (प्रत्यय '.hwe' के साथ)
इसमें होमोज़ायगोट्स और हेटेरोज़ीगोट्स की प्रेक्षित संख्याएँ भी शामिल हैं और
एचडब्ल्यूई के तहत संबंधित अपेक्षित संख्या।

--लापता
प्रति व्यक्ति और प्रति साइट पर गुम होने की रिपोर्ट करने वाली दो फाइलें उत्पन्न करता है
आधार। दो फाइलों में क्रमशः '.imiss' और '.lmiss' प्रत्यय हैं।

--हाप-आर2

--जीनो-आर2

--ld-खिड़की

--ld-विंडो-बीपी

--मिनट-r2
इन विकल्पों का उपयोग लिंकेज डिसिपिलिब्रियम (एलडी) के आंकड़ों की रिपोर्ट करने के लिए किया जाता है:
r2 सांख्यिकी द्वारा संक्षेपित। --hap-r2 विकल्प vcftools को आउटपुट के लिए सूचित करता है a
चरणबद्ध हैप्लोटाइप्स का उपयोग करके r2 आँकड़ों की रिपोर्टिंग करने वाली फ़ाइल। यह पारंपरिक है
एलडी का माप अक्सर जनसंख्या आनुवंशिकी साहित्य में रिपोर्ट किया जाता है। अगर चरणबद्ध
हैप्लोटाइप अनुपलब्ध हैं तो --geno-r2 विकल्प का उपयोग किया जा सकता है, जो गणना करता है
जीनोटाइप के बीच वर्ग सहसंबंध गुणांक 0, 1 और 2 से . के रूप में एन्कोड किया गया
प्रत्येक व्यक्ति में गैर-संदर्भ एलील की संख्या का प्रतिनिधित्व करते हैं। यह बिल्कुल वैसा है
PLINK द्वारा रिपोर्ट किए गए LD माप के अनुसार। हैप्लोटाइप संस्करण के साथ एक फाइल को आउटपुट करता है
प्रत्यय '.hap.ld', जबकि जीनोटाइप संस्करण प्रत्यय के साथ एक फ़ाइल को आउटपुट करता है
'.geno.ld'। हैप्लोटाइप संस्करण का तात्पर्य विकल्प --phased से है।

--ld-window विकल्प की गणना के लिए अधिकतम SNP पृथक्करण को परिभाषित करता है
एल.डी. इसी तरह, अधिकतम भौतिक को परिभाषित करने के लिए --ld-window-bp विकल्प का उपयोग किया जा सकता है
एलडी गणना में शामिल एसएनपी का पृथक्करण। अंत में, --min-r2 सेट करता है a
r2 के लिए न्यूनतम मान जिसके नीचे LD आँकड़ा रिपोर्ट नहीं किया गया है।

--एसएनपीडीएनसिटी
इस विकल्प द्वारा परिभाषित आकार के डिब्बे में एसएनपी की संख्या और घनत्व की गणना करता है।
परिणामी आउटपुट फ़ाइल में प्रत्यय '.snpden' है।

--टीएसटीवी
इसके द्वारा परिभाषित आकार के डिब्बे में संक्रमण / अनुप्रस्थ अनुपात की गणना करता है
विकल्प। परिणामी आउटपुट फ़ाइल में प्रत्यय '.TsTv' है। एक सारांश यह भी है
प्रत्यय '.TsTv.summary' वाली फ़ाइल में दिया गया है।

--फ़िल्टर-सारांश
प्रत्येक फ़िल्टर श्रेणी के लिए SNPs और Ts/Tv अनुपात की संख्या का सारांश उत्पन्न करता है।
आउटपुट फ़ाइल में प्रत्यय '.FILTER.summary' है।

--फ़िल्टर की गई साइटें
दो फाइलों को सूचीबद्ध करने वाली साइटें बनाता है जिन्हें फ़िल्टर करने के बाद रखा या हटा दिया गया है। NS
प्रत्यय '.kept.sites' के साथ पहली फ़ाइल, फ़िल्टर के बाद vcftools द्वारा रखी गई साइटों को सूचीबद्ध करती है
लागू किया गया है। दूसरी फ़ाइल, प्रत्यय '.removed.sites' के साथ, साइटों को सूचीबद्ध करें
लागू फिल्टर द्वारा हटाया गया।

--सिंगलटन
यह विकल्प सिंगलटन के स्थान का विवरण देने वाली एक फ़ाइल उत्पन्न करेगा, और
वे व्यक्तिगत रूप से होते हैं। फ़ाइल सच्चे सिंगलटन और निजी दोनों की रिपोर्ट करती है
डबलटन (यानी एसएनपी जहां मामूली एलील केवल एक ही व्यक्ति में होता है और
वह व्यक्ति उस एलील के लिए समयुग्मजी है)। आउटपुट फ़ाइल में प्रत्यय है
'.singletons'।

--साइट-पीआई

--विंडो-पीआई
इन विकल्पों का उपयोग न्यूक्लियोटाइड विविधता के स्तर का अनुमान लगाने के लिए किया जाता है। पहला विकल्प
यह प्रति-साइट के आधार पर करता है, और आउटपुट फ़ाइल में प्रत्यय '.sites.pi' है। NS
दूसरा विकल्प खिड़की के आकार के साथ खिड़कियों में न्यूक्लियोटाइड विविधता की गणना करता है
विकल्प तर्क में परिभाषित। इस विकल्प के आउटपुट में प्रत्यय है
'.windowed.pi'। विंडो वाले संस्करण के लिए चरणबद्ध डेटा की आवश्यकता होती है, और इसलिए इसका उपयोग किया जाता है
विकल्प का तात्पर्य --phased विकल्प से है।

उत्पादन in अन्य प्रारूप
--O12 यह विकल्प जीनोटाइप को एक बड़े मैट्रिक्स के रूप में आउटपुट करता है। तीन फाइलें तैयार की जाती हैं। NS
सबसे पहले, प्रत्यय '.012' के साथ, प्रत्येक व्यक्ति के जीनोटाइप को अलग-अलग पर समाहित करता है
रेखा। जीनोटाइप को 0, 1 और 2 के रूप में दर्शाया जाता है, जहां संख्या दर्शाती है कि
गैर-संदर्भ एलील्स की संख्या। गुम जीनोटाइप -1 द्वारा दर्शाए जाते हैं। NS
दूसरी फ़ाइल, प्रत्यय '.012.indv' के साथ मुख्य . में शामिल व्यक्तियों का विवरण
फ़ाइल। तीसरी फ़ाइल, प्रत्यय '.012.pos' के साथ, इसमें शामिल साइट स्थानों का विवरण है
मुख्य फ़ाइल।

--इम्प्यूट
यह विकल्प IMPUTE संदर्भ-पैनल प्रारूप में चरणबद्ध हैप्लोटाइप को आउटपुट करता है। आरोप के रूप में
चरणबद्ध डेटा की आवश्यकता होती है, इस विकल्प का उपयोग करने का अर्थ --phased भी है। चरणरहित
इसलिए व्यक्तियों और जीनोटाइप को बाहर रखा गया है। केवल द्वि-युग्मक साइटें हैं
आउटपुट में शामिल है। इस विकल्प का उपयोग करने से तीन फाइलें उत्पन्न होती हैं। आरोप
हैप्लोटाइप फ़ाइल में प्रत्यय '.impute.hap' है, और IMPUTE लेजेंड फ़ाइल में है
प्रत्यय '.impute.hap.legend'। तीसरी फ़ाइल, प्रत्यय '.impute.hap.indv' के साथ,
हैप्लोटाइप फ़ाइल में शामिल व्यक्तियों का विवरण, हालांकि यह फ़ाइल नहीं है
IMPUTE द्वारा आवश्यक।

--वह

--ldhat-जीनो
ये विकल्प एलडीएट प्रारूप में डेटा आउटपुट करते हैं। इन विकल्पों के उपयोग के लिए भी आवश्यक है
--chr विकल्प के द्वारा प्रयोग किया जाता है। --ldhat विकल्प केवल चरणबद्ध डेटा आउटपुट करता है, और इसलिए
इसका अर्थ है - चरणबद्ध, जिसके कारण चरणबद्ध व्यक्ति और जीनोटाइप हो रहे हैं
छोड़ा गया। वैकल्पिक रूप से, --ldhat-geno विकल्प सभी डेटा को इस प्रकार मानता है
चरणबद्ध नहीं है, और इसलिए LDhat फाइलों को जीनोटाइप/अनफेज्ड फॉर्मेट में आउटपुट करता है। में या तो
मामले में, प्रत्यय '.ldhat.sites' और '.ldhat.locs' के साथ दो फाइलें उत्पन्न होती हैं,
जो क्रमशः एलडीएट 'साइट्स' और 'लोक्स' इनपुट फाइलों के अनुरूप हैं।

--बीगल-ग्लो
यह विकल्प बीगल में इनपुट के लिए जीनोटाइप संभावना जानकारी को आउटपुट करता है
कार्यक्रम। इस विकल्प के लिए VCF फ़ाइल में FORMAT GL टैग होना आवश्यक है, जो कर सकता है
आम तौर पर GATK जैसे SNP कॉलर्स द्वारा आउटपुट किया जाता है। इस विकल्प के उपयोग की आवश्यकता है a
गुणसूत्र को --chr विकल्प के माध्यम से निर्दिष्ट किया जाना है। परिणामी आउटपुट फ़ाइल (के साथ
प्रत्यय '.BEAGLE.GL') में द्विवार्षिक साइटों के लिए जीनोटाइप संभावनाएँ शामिल हैं, और है
'like=' तर्क के माध्यम से BEAGLE में इनपुट के लिए उपयुक्त।

--प्लिंक
यह विकल्प जीनोटाइप डेटा को PLINK PED फॉर्मेट में आउटपुट करता है। दो फाइलें उत्पन्न होती हैं,
प्रत्यय '.ped' और '.map' के साथ। ध्यान दें कि केवल द्वि-युग्मक लोकी आउटपुट होगा।
इन फ़ाइलों का और विवरण PLINK दस्तावेज़ीकरण में पाया जा सकता है।

नोट: बड़े डेटासेट पर यह विकल्प बहुत धीमा हो सकता है। --chr विकल्प का उपयोग करके
डेटासेट को विभाजित करने की सलाह दी जाती है।

--प्लिंक-टीपीडी
ऊपर दिया गया --plink विकल्प बड़े डेटासेट पर बेहद धीमा हो सकता है। एक विकल्प
PLINK ट्रांसपोज़्ड प्रारूप में आउटपुट करना काफी तेज़ हो सकता है।
यह --plink-tped विकल्प का उपयोग करके प्राप्त किया जा सकता है, जो दो फाइलों का उत्पादन करता है
प्रत्यय '.tped' और '.tfam'।

--recode
--recode विकल्प का उपयोग इनपुट VCF फ़ाइल से VCF फ़ाइल उत्पन्न करने के लिए किया जाता है
उपयोगकर्ता द्वारा निर्दिष्ट विकल्पों को लागू किया। आउटपुट फ़ाइल में प्रत्यय है
'.recode.vcf'।

डिफ़ॉल्ट रूप से, INFO फ़ील्ड को आउटपुट फ़ाइल से INFO मान के रूप में हटा दिया जाता है
रीकोडिंग द्वारा अमान्य किया जा सकता है (उदाहरण के लिए कुल गहराई की आवश्यकता हो सकती है
यदि व्यक्तियों को हटा दिया जाता है तो पुनर्गणना की जाती है)। यह डिफ़ॉल्ट कार्यक्षमता हो सकती है
--keep-INFO . का उपयोग करके ओवरराइड किया गया विकल्प, जहां परिभाषित करता है
आउटपुट फ़ाइल में रखने के लिए INFO कुंजी। --keep-INFO ध्वज का उपयोग एकाधिक के लिए किया जा सकता है
बार। वैकल्पिक रूप से, --keep-INFO-all विकल्प का उपयोग सभी जानकारी को बनाए रखने के लिए किया जा सकता है
क्षेत्रों.

कई तरह का
--निकालें-प्रारूप-जानकारी
निर्दिष्ट से संबंधित वीसीएफ फ़ाइल में जीनोटाइप फ़ील्ड से जानकारी निकालें
प्रारूप पहचानकर्ता। उदाहरण के लिए, '--extract-FORMAT-info GT' विकल्प का उपयोग करने से
सभी जीटी (यानी जीनोटाइप) प्रविष्टियां निकालें। परिणामी आउटपुट फ़ाइल में है
प्रत्यय'। ।प्रारूप'।

--जानकारी मिलना
इस विकल्प का उपयोग VCF फ़ाइल में INFO फ़ील्ड से जानकारी निकालने के लिए किया जाता है। NS
तर्क निकाले जाने वाले INFO टैग को निर्दिष्ट करता है, और विकल्प हो सकता है
कई INFO प्रविष्टियों को निकालने के लिए कई बार उपयोग किया जाता है। परिणामी फ़ाइल,
प्रत्यय '.INFO' के साथ, एक टैब से अलग में आवश्यक जानकारी जानकारी शामिल है
टेबल। उदाहरण के लिए, एनएस और डीबी झंडे निकालने के लिए, कोई कमांड का उपयोग करेगा:

vcftools --vcf फ़ाइल1.vcf --get-INFO NS --get-INFO DB

वीसीएफ पट्टिका तुलना ऑप्शंस
फ़ाइल तुलना विकल्प वर्तमान में प्रवाह और संभावित छोटी गाड़ी की स्थिति में हैं। अगर तुम
एक बग खोजें, कृपया इसकी रिपोर्ट करें। ध्यान दें कि इनमें जीनोटाइप-स्तरीय फ़िल्टर समर्थित नहीं हैं
विकल्प.

--अंतर

--gzdiff
--vcf विकल्प द्वारा निर्दिष्ट फ़ाइल के साथ तुलना करने के लिए VCF फ़ाइल का चयन करें।
प्रत्येक के लिए सामान्य/अद्वितीय साइटों और व्यक्तियों का वर्णन करने वाली दो फाइलें आउटपुट करता है
फ़ाइल। इन फ़ाइलों में प्रत्यय '.diff.sites_in_files' हैं और
'.diff.indv_in_files' क्रमशः। --gzdiff संस्करण का उपयोग पढ़ने के लिए किया जा सकता है
संकुचित वीसीएफ फाइलें।

--diff-साइट-मतभेद
साइट पर विसंगति की गणना करने के लिए --diff विकल्प के संयोजन के साथ प्रयोग किया जाता है
साइट आधार। परिणामी आउटपुट फ़ाइल में प्रत्यय '.diff.sites' है।

--diff-indv-मतभेद
--diff विकल्प के साथ संयोजन के रूप में उपयोग किया जाता है ताकि प्रति-
व्यक्तिगत आधार। परिणामी आउटपुट फ़ाइल में प्रत्यय '.diff.indv' है।

--डिफ-डिस्कॉर्डेंस-मैट्रिक्स
डिसॉर्डेंस मैट्रिक्स की गणना के लिए --diff विकल्प के साथ संयोजन में उपयोग किया जाता है। इस
विकल्प केवल द्वि-युग्मक लोकी के साथ काम करता है जिसमें मिलान करने वाले एलील मौजूद होते हैं
दोनों फाइलें। परिणामी आउटपुट फ़ाइल में प्रत्यय '.diff.discordance.matrix' है।

--diff-स्विच-त्रुटि
चरणबद्ध त्रुटियों की गणना करने के लिए --diff विकल्प के संयोजन में उपयोग किया जाता है
(विशेष रूप से 'स्विच त्रुटियां')। यह विकल्प वर्णन करने वाली दो आउटपुट फाइलें उत्पन्न करता है
साइटों के बीच पाई गई स्विच त्रुटियां और प्रति व्यक्ति औसत स्विच त्रुटि।
इन दो फाइलों में प्रत्यय '.diff.switch' और '.diff.indv.switch' हैं।
क्रमशः.

ऑप्शंस अभी भी in विकास
निम्नलिखित विकल्पों को अभी अंतिम रूप दिया जाना बाकी है, इनमें बग होने की संभावना है, और संभावना है
भविष्य में बदलने के लिए।

--फस्ट

--gzfst
वीसीएफ फाइलों की एक जोड़ी के लिए एफएसटी की गणना करें, दूसरी फाइल इसके द्वारा निर्दिष्ट की जा रही है
विकल्प। FST की गणना वर्तमान में में वर्णित सूत्र का उपयोग करके की जाती है
चरण I HapMap पेपर की पूरक सामग्री। वर्तमान में, केवल जोड़ीवार FST
गणनाओं का समर्थन किया जाता है, हालांकि भविष्य में इसमें बदलाव की संभावना है। NS
--gzfst विकल्प का उपयोग संपीड़ित VCF फ़ाइलों को पढ़ने के लिए किया जा सकता है।

--एलआरओएच Homozygosity के लंबे समय तक चलने की पहचान करें।

--संबंधितता
आउटपुट व्यक्तिगत संबंधितता सांख्यिकी।

onworks.net सेवाओं का उपयोग करके ऑनलाइन vcftools का उपयोग करें


फ्री सर्वर और वर्कस्टेशन

विंडोज और लाइनेक्स एप डाउनलोड करें

लिनक्स कमांड

Ad