bgzip - מקוון בענן

זוהי הפקודה bgzip שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


bgzip - כלי דחיסה/פירוק חסימה

tabix - אינדקס גנרי לקבצי מיקום גנום מופרדים ב-TAB

תַקצִיר


bgzip [-cdhB] [-b virtualOffset] [-s גודל] [פילה]

טאביקס [-0lf] [-p gff|bed|sam|vcf] [-s seqCol] [-b begCol] [-e endCol] [-S lineSkip] [-c
metaChar] in.tab.bgz [אזור 1 [אזור 2 [...]]]

תיאור


Tabix מצרפת קובץ מיקום גנום מופרד ב-TAB in.tab.bgz ויוצר קובץ אינדקס (
in.tab.bgz.tbi or in.tab.bgz.csi ) מתי באזור נעדר משורת הפקודה. הקלט
קובץ הנתונים חייב להיות ממוין במיקום ודחוס לפי bgzip שיש בו א מופעלת דחיסת(1) אוהב
מִמְשָׁק. לאחר הוספה לאינדקס, Tabix מסוגלת לאחזר במהירות קווי נתונים חופפים
אזורים שצוין בפורמט "chr:beginPos-endPos". גם אחזור נתונים מהיר עובד
רשת אם URI ניתן כשם קובץ ובמקרה זה קובץ האינדקס יוורד
אם הוא לא קיים במקום.

אינדקס אפשרויות


-0, - מבוסס אפס
ציין שהמיקום בקובץ הנתונים מבוסס על 0 (למשל קובצי UCSC).
מאשר מבוסס 1.

-ב, - התחל INT
עמודה של מיקום כרומוזומלי התחלה. [4]

-ג, --תגובה לְהַשְׁחִיר
דילוג על שורות התחיל בדמות CHAR. [#]

-ג, --csi דילוג על שורות התחיל בדמות CHAR. [#]

, --סוֹף INT
עמודה של מיקום כרומוזומלי קצה. עמודת הסיום יכולה להיות זהה להתחלה
טור. [5]

-ו, --כּוֹחַ
יש לאלץ להחליף את קובץ האינדקס אם הוא קיים.

-M, --משמרת דקהINT
הגדר גודל מרווח מינימלי עבור מדדי CSI ל-2^INT [14]

-פ, -- מוגדר מראש STR
פורמט קלט לאינדקס. ערכים חוקיים הם: gff, bed, sam, vcf. אפשרות זו
אין ליישם יחד עם אף אחת מהן -s, -b, -e, -c ו -0; זה לא בשימוש
לאחזור נתונים מכיוון שהגדרה זו מאוחסנת בקובץ האינדקס. [גff]

-ס, --סדר פעולות INT
עמודה של שם הרצף. אוֹפְּצִיָה -s, -b, -e, -S, -c ו -0 כולם מאוחסנים ב
קובץ אינדקס ולכן לא נעשה בו שימוש באחזור נתונים. [1]

-S, --דילוג על שורות INT
דלג על שורות INT ראשונות בקובץ הנתונים. [0]

שאילתה ו אחר אפשרויות


-ח, --הדפס-כותרת
הדפס גם את קווי הכותרת/מטא.

-ח, --רק-כותרת
הדפס רק את קווי הכותרת/המטה.

-אני, --קובץ מידע
הדפס מידע על פורמט קובץ.

-ל, --list-chroms
רשום את שמות הרצפים המאוחסנים בקובץ האינדקס.

-ר, -- כותרת מחדש קובץ
החלף את הכותרת בתוכן של FILE

-ר, --אזורים קובץ
הגבל לאזורים הרשומים ב-FILE. ה-FILE יכול להיות קובץ BED (דורש .bed,
‎.bed.gz, ‎.bed.bgz סיומת שם הקובץ) או קובץ מופרד ב-TAB עם CHROM, POS,
ובאופן אופציונלי, עמודות POS_TO, שבהן המיקומים מבוססים על 1 וכוללים. מתי
אפשרות זו נמצאת בשימוש, ייתכן שקובץ הקלט לא יהיה ממוין. אזורים.

-T, --מטרות קובץ
דומה -R אבל כל הקלט ייקרא ברצף והאזורים לא רשומים
ב-FILE ידלג.

דוגמא


(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > sorted.gff.gz;

tabix -p gff sorted.gff.gz;

tabix sorted.gff.gz chr1:10,000,000-20,000,000;

אורים


קל להשיג שאילתות חפיפה באמצעות אינדקס B-tree הסטנדרטי (עם או
ללא binning) מיושם בכל מסדי הנתונים של SQL, או באינדקס R-tree ב-PostgreSQL ו
נבואה. אבל עדיין יש הרבה סיבות להשתמש ב- tabix. ראשית, tabix עובד ישירות עם
הרבה פורמטים מופרדים באמצעות TAB כמו GFF/GTF ו- BED. אנחנו לא צריכים
עיצוב סכמת מסד נתונים או פורמטים בינאריים מיוחדים. אין צורך לשכפל נתונים
גם פורמטים שונים. שנית, Tabix עובד על קבצי נתונים דחוסים בעוד רוב ה-SQL
מסדי נתונים לא. ניתן לדחוס את הערת GenCode GTF עד 4%. שלישית, טאביקס
מהיר. ידוע כי אותו אלגוריתם אינדקס פועל ביעילות עבור יישור עם a
כמה מיליארדי קריאות קצרות. מסדי נתונים של SQL כנראה לא יכולים להתמודד בקלות עם נתונים בקנה מידה זה.
אחרון חביב, tabix תומך באחזור נתונים מרחוק. אפשר לשים את קובץ הנתונים
והאינדקס בשרת FTP או HTTP, ומשתמשים אחרים או אפילו שירותי אינטרנט יוכלו
כדי לקבל פרוסה מבלי להוריד את כל הקובץ.

השתמש ב-bgzip באינטרנט באמצעות שירותי onworks.net



התוכניות המקוונות האחרונות של לינוקס ו-Windows