هذا هو الأمر bgzip الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة عبر الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
bgzip - أداة ضغط / فك الضغط
tabix - مفهرس عام لملفات موضع الجينوم المحددة بعلامات تبويب
موجز
com.bgzip [-شهادة] [-b فيرتال أوفست] [-s المقاسات] [ملف]
تابيكس [-0 لتر] [-p gff | سرير | sam | vcf] [-s seqCol] [-b التسول] [-e نهاية] [-S خط تخطي] [-c
ميتاشار] in.tab.bgz [المنطقة 1 [المنطقة 2 [ ]]]
الوصف
يقوم Tabix بفهرسة ملف موضع الجينوم المحدد بعلامات تبويب in.tab.bgz وينشئ ملف فهرس (
in.tab.bgz.tbi or in.tab.bgz.csi ) متى منطقة غائب من سطر الأوامر. المدخل
يجب ترتيب ملف البيانات وضغطه حسب com.bgzip التي لديها GZIP(1) مثل
واجهه المستخدم. بعد الفهرسة ، يمكن لـ tabix استرداد خطوط البيانات المتداخلة بسرعة
المناطق المحدد بالتنسيق "chr: beginPos-endPos". استرجاع البيانات السريع يعمل أيضًا
الشبكة إذا تم إعطاء URI كاسم ملف وفي هذه الحالة سيتم تنزيل ملف الفهرس
إذا لم يكن موجودًا محليًا.
الفهرسة OPTIONS
-0، - على أساس صفر
حدد أن الموضع في ملف البيانات يستند إلى 0 (مثل ملفات UCSC) بدلاً من ذلك
من 1 على أساس.
-ب، --يبدأ INT
عمود موضع البدء الكروموسومي. [4]
-c ، --تعليق CHAR
بدأت أسطر التخطي بحرف CHAR. [#]
-C ، --CSI بدأت أسطر التخطي بحرف CHAR. [#]
-e، --نهاية INT
عمود موضع نهاية الكروموسومات. يمكن أن يكون عمود النهاية هو نفسه عمود البداية
عمود. [5]
-F، --فرض
القوة للكتابة فوق ملف الفهرس إذا كان موجودًا.
م ، - دقيقة التحولINT
تعيين الحد الأدنى لحجم الفاصل الزمني لمؤشرات CSI على 2 ^ INT [14]
-p ، --المعد مسبقا STR
تنسيق الإدخال للفهرسة. القيم الصالحة هي: gff، bed، sam، vcf. هذا الخيار
لا ينبغي أن تطبق مع أي من -s, -b, -e, -c و -0؛ لا يتم استخدامه
لاسترداد البيانات لأن هذا الإعداد مخزن في ملف الفهرس. [gff]
-س، --تسلسل INT
عمود اسم التسلسل. خيار -s, -b, -e, -S, -c و -0 يتم تخزينها جميعًا في ملف
ملف الفهرس وبالتالي لا يستخدم في استرجاع البيانات. [1]
-س، - تخطي الخطوط INT
تخطي خطوط INT الأولى في ملف البيانات. [0]
الاستعلام لأي لبس أخرى OPTIONS
-ح ، - رأس الطباعة
طباعة أيضا رأس / خطوط التعريف.
-H ، - رأس فقط
طباعة فقط الرأس / خطوط التعريف.
-أنا، --معلومات الملف
معلومات تنسيق ملف الطباعة.
-ل ، - قائمة chroms
سرد أسماء التسلسل المخزنة في ملف الفهرس.
-r ، - القارئ FILE
استبدل الرأس بمحتوى FILE
-R ، - المناطق FILE
قصر على المناطق المدرجة في FILE. يمكن أن يكون FILE ملف BED (يتطلب .bed ،
.bed.gz أو .bed.bgz امتداد اسم الملف) أو ملف محدد بعلامات جدولة مع CHROM أو POS أو
واختياريا ، أعمدة POS_TO ، حيث تكون المواضع على أساس 1 وشاملة. متى
هذا الخيار قيد الاستخدام ، قد لا يتم فرز ملف الإدخال. المناطق.
-T ، - الأهداف FILE
على غرار -R ولكن ستتم قراءة المدخلات بالكامل بالتسلسل ولن يتم سرد المناطق
في FILE سيتم تخطي.
مثال
(grep ^ "#" in.gff؛ grep -v ^ "#" in.gff | فرز -k1,1،4,4 -kXNUMX،XNUMXn) | bgzip> Sorted.gff.gz ؛
tabix -p gff Sorted.gff.gz ؛
tabix sorted.gff.gz chr1: 10,000,000،20,000,000،XNUMX-XNUMX،XNUMX،XNUMX ؛
الملاحظات
من السهل تحقيق استعلامات متداخلة باستخدام فهرس B-tree القياسي (مع أو
بدون binning) في جميع قواعد بيانات SQL ، أو فهرس شجرة R في PostgreSQL و
وحي. ولكن لا تزال هناك العديد من الأسباب لاستخدام Tabix. أولا ، تابيكس يعمل مباشرة مع
الكثير من التنسيقات المحددة بعلامات تبويب شائعة الاستخدام مثل GFF / GTF و BED. نحن لسنا بحاجة لذلك
مخطط قاعدة بيانات التصميم أو التنسيقات الثنائية المتخصصة. لا يلزم تكرار البيانات بتنسيق
تنسيقات مختلفة أيضًا. ثانيًا ، يعمل tabix على ملفات البيانات المضغوطة بينما يعمل معظم SQL
قواعد البيانات لا تفعل ذلك. يمكن ضغط التعليق التوضيحي لـ GenCode GTF إلى 4٪. ثالثا ، تابيكس
سريع. من المعروف أن خوارزمية الفهرسة نفسها تعمل بكفاءة من أجل المحاذاة مع أ
بضعة مليارات من القراءات القصيرة. ربما لا تستطيع قواعد بيانات SQL التعامل بسهولة مع البيانات على هذا النطاق.
أخيرًا وليس آخرًا ، يدعم Tabix استرجاع البيانات عن بُعد. يمكن للمرء أن يضع ملف البيانات
والفهرس في خادم FTP أو HTTP ، وسيتمكن المستخدمون الآخرون أو حتى خدمات الويب من ذلك
للحصول على شريحة بدون تنزيل الملف بأكمله.
استخدم bgzip عبر الإنترنت باستخدام خدمات onworks.net