यह कमांड bgzip है जिसे हमारे कई मुफ्त ऑनलाइन वर्कस्टेशन जैसे उबंटू ऑनलाइन, फेडोरा ऑनलाइन, विंडोज ऑनलाइन एमुलेटर या मैक ओएस ऑनलाइन एमुलेटर का उपयोग करके ऑनवर्क्स फ्री होस्टिंग प्रदाता में चलाया जा सकता है।
कार्यक्रम:
नाम
bgzip - ब्लॉक कंप्रेशन/डीकंप्रेसन यूटिलिटी
tabix - TAB-सीमांकित जीनोम स्थिति फ़ाइलों के लिए सामान्य अनुक्रमणिका
SYNOPSIS
bgzip [-सीडीएचबी] [-b आभासी ऑफसेट] [-s आकार] [पट्टिका]
टैबिक्स [-0एलएफ] [-p जीएफएफ|बिस्तर|सैम|वीसीएफ] [-s seqCol] [-b भीख माँगना] [-e अंत कोलो] [-S लाइन छोड़ें] [-c
मेटाचार] in.tab.bgz [region1 [region2 [...]]]
वर्णन
Tabix एक TAB-सीमांकित जीनोम स्थिति फ़ाइल को अनुक्रमित करता है in.tab.bgz और एक अनुक्रमणिका फ़ाइल बनाता है (
in.tab.bgz.tbi or in.tab.bgz.csi ) कब क्षेत्र कमांड लाइन से अनुपस्थित है। इनपुट
डेटा फ़ाइल को स्थिति द्वारा क्रमबद्ध और संपीड़ित किया जाना चाहिए bgzip जिसके पास ए है gzip(1 पसंद किया गया है
इंटरफेस। अनुक्रमण के बाद, tabix अतिव्यापी डेटा लाइनों को जल्दी से पुनर्प्राप्त करने में सक्षम है
क्षेत्रों प्रारूप "chr:beginPos-endPos" में निर्दिष्ट है। तेज़ डेटा पुनर्प्राप्ति भी काम करती है
नेटवर्क अगर यूआरआई को फ़ाइल नाम के रूप में दिया जाता है और इस मामले में इंडेक्स फ़ाइल डाउनलोड हो जाएगी
अगर यह स्थानीय रूप से मौजूद नहीं है।
अनुक्रमण विकल्प
- 0, --शून्य आधारित
निर्दिष्ट करें कि डेटा फ़ाइल में स्थिति 0-आधारित है (उदा. UCSC फ़ाइलें) बल्कि
1-आधारित से।
-बी, --शुरू INT
प्रारंभ गुणसूत्र स्थिति का स्तंभ। [4]
-सी, --टिप्पणी CHAR
वर्ण CHAR से शुरू हुई स्किप लाइन्स। [#]
-सी, --सीएसआई वर्ण CHAR से शुरू हुई स्किप लाइन्स। [#]
-e, --समाप्त INT
अंत गुणसूत्र स्थिति का स्तंभ। अंत स्तंभ प्रारंभ के समान हो सकता है
स्तंभ। [5]
-एफ, --बल
अनुक्रमणिका फ़ाइल मौजूद होने पर उसे अधिलेखित करने के लिए बाध्य करें।
-एम, --मिनट-शिफ्टINT
CSI सूचकांकों के लिए न्यूनतम अंतराल आकार को 2^INT [14] पर सेट करें
-पी, --प्रीसेट एसटीआर
अनुक्रमण के लिए इनपुट प्रारूप। मान्य मान हैं: gff, बेड, सैम, vcf. इस विकल्प
में से किसी के साथ एक साथ लागू नहीं किया जाना चाहिए -s, -b, -e, -c और -0; इसका उपयोग नहीं किया जाता है
डेटा पुनर्प्राप्ति के लिए क्योंकि यह सेटिंग अनुक्रमणिका फ़ाइल में संग्रहीत है। [जीएफएफ]
-एस, --अनुक्रम INT
अनुक्रम नाम का स्तंभ। विकल्प -s, -b, -e, -S, -c और -0 सभी में संग्रहीत हैं
अनुक्रमणिका फ़ाइल और इस प्रकार डेटा पुनर्प्राप्ति में उपयोग नहीं किया जाता है। [1]
-एस, --स्किप-लाइन्स INT
डेटा फ़ाइल में पहली INT लाइन छोड़ें। [0]
क्वेरी और अन्य विकल्प
-एच, --प्रिंट-हेडर
हेडर/मेटा लाइन भी प्रिंट करें।
-एच, --केवल-शीर्षक
केवल हेडर/मेटा लाइन प्रिंट करें।
-मैं, --फाइल के बारे में
फ़ाइल प्रारूप जानकारी प्रिंट करें।
-एल, --सूची-क्रोम
अनुक्रमणिका फ़ाइल में संग्रहीत अनुक्रम नामों की सूची बनाएं।
-आर, --रीहेडर फ़ाइल
हेडर को FILE की सामग्री से बदलें
-आर, --क्षेत्र फ़ाइल
FILE में सूचीबद्ध क्षेत्रों तक सीमित। फ़ाइल BED फ़ाइल हो सकती है (इसके लिए .bed,
.bed.gz, .bed.bgz फ़ाइल नाम एक्सटेंशन) या CHROM, POS वाली TAB-सीमांकित फ़ाइल
और, वैकल्पिक रूप से, POS_TO कॉलम, जहां स्थितियां 1-आधारित और समावेशी हैं। कब
यह विकल्प उपयोग में है, इनपुट फ़ाइल को सॉर्ट नहीं किया जा सकता है। क्षेत्र।
-टी, --लक्ष्य फ़ाइल
के समान -R लेकिन संपूर्ण इनपुट क्रमिक रूप से पढ़ा जाएगा और क्षेत्र सूचीबद्ध नहीं होंगे
FILE में छोड़ दिया जाएगा।
उदाहरण
(grep ^"#" in.gff; grep -v ^"#" in.gff | सॉर्ट -k1,1 -k4,4n) | bgzip > Sorted.gff.gz;
tabix -p gff Sorted.gff.gz;
tabix Sorted.gff.gz chr1:10,000,000-20,000,000;
टिप्पणियाँ
मानक बी-ट्री इंडेक्स (या . के साथ) का उपयोग करके ओवरलैप प्रश्नों को प्राप्त करना सीधा है
बिनिंग के) सभी SQL डेटाबेस में लागू किया गया है, या PostgreSQL में R-tree अनुक्रमणिका और
आकाशवाणी। लेकिन टैबिक्स का उपयोग करने के कई कारण हैं। सबसे पहले, टैबिक्स सीधे काम करता है
GFF/GTF और BED जैसे व्यापक रूप से उपयोग किए जाने वाले TAB-सीमांकित स्वरूपों का एक बहुत। हमें करने की आवश्यकता नहीं है
डिज़ाइन डेटाबेस स्कीमा या विशेष बाइनरी प्रारूप। डेटा को डुप्लिकेट करने की आवश्यकता नहीं है
विभिन्न प्रारूप, या तो। दूसरे, टैबिक्स संपीड़ित डेटा फ़ाइलों पर काम करता है जबकि अधिकांश SQL
डेटाबेस नहीं करते हैं। GenCode एनोटेशन GTF को 4% तक कम्प्रेस किया जा सकता है। तीसरा, टैबिक्स
तेज़ है। समान अनुक्रमण एल्गोरिथम a . के साथ संरेखण के लिए कुशलतापूर्वक कार्य करने के लिए जाना जाता है
कुछ अरब लघु पढ़ता है। SQL डेटाबेस शायद इस पैमाने पर डेटा को आसानी से संभाल नहीं सकते हैं।
अंतिम लेकिन कम से कम नहीं, tabix दूरस्थ डेटा पुनर्प्राप्ति का समर्थन करता है। कोई डेटा फ़ाइल डाल सकता है
और एक FTP या HTTP सर्वर पर अनुक्रमणिका, और अन्य उपयोगकर्ता या यहां तक कि वेब सेवाएं भी सक्षम होंगी
पूरी फाइल को डाउनलोड किए बिना एक टुकड़ा पाने के लिए।
onworks.net सेवाओं का उपयोग करके ऑनलाइन bgzip का उपयोग करें