bgzip - онлайн у хмарі

Це команда bgzip, яку можна запустити в постачальнику безкоштовного хостингу OnWorks, використовуючи одну з наших численних безкоштовних робочих станцій, таких як Ubuntu Online, Fedora Online, онлайн емулятор Windows або онлайн емулятор MAC OS

ПРОГРАМА:

ІМ'Я


bgzip - утиліта стиснення/декомпресії блоків

tabix - загальний індексатор для файлів позицій геному з роздільниками TAB

СИНТАКСИС


bgzip [-cdhB] [-b virtualOffset] [-s розмір] [файл]

табікс [-0lf] [-p gff|ліжко|sam|vcf] [-s seqCol] [-b благатикол] [-e endCol] [-S lineSkip] [-c
metaChar] in.tab.bgz [область1 [область2 [...]]]

ОПИС


Tabix індексує файл позиції геному з роздільниками TAB in.tab.bgz і створює файл індексу (
in.tab.bgz.tbi or in.tab.bgz.csi ) коли регіон відсутня в командному рядку. Вхідні дані
файл даних має бути відсортований і стиснутий за позицією bgzip який має а gzip(1) подобається
інтерфейс. Після індексації tabix може швидко отримати рядки даних, які перекриваються
райони вказано у форматі "chr:beginPos-endPos". Швидке отримання даних також працює
мережі, якщо в якості імені файлу вказано URI, і в цьому випадку буде завантажений файл індексу
якщо його немає локально.

ІНДЕКСУВАННЯ ВАРІАНТИ


-0, --на основі нуля
Вкажіть, що позиція у файлі даних базується на 0 (наприклад, файли UCSC).
ніж на основі 1.

-б, --почати INT
Колонка початкового положення хромосоми. [4]

-c, -- коментар CHAR
Пропуск рядків починається символом CHAR. [#]

-C, --csi Пропуск рядків починається символом CHAR. [#]

-е, --кінець INT
Колонка кінцевої хромосомної позиції. Кінцевий стовпець може бути таким же, як і початковий
колонка. [5]

-f, --сила
Примусово перезаписати файл індексу, якщо він присутній.

-м, --хвилинна змінаINT
встановити мінімальний розмір інтервалу для індексів CSI на 2^INT [14]

-p, -- попередньо встановлені STR
Формат введення для індексування. Допустимі значення: gff, bed, sam, vcf. Цей варіант
не слід застосовувати разом з будь-яким із -s, -b, -e, -c та -0; воно не використовується
для отримання даних, оскільки цей параметр зберігається в індексному файлі. [gff]

-так, --послідовність INT
Стовпець назви послідовності. Варіант -s, -b, -e, -S, -c та -0 всі зберігаються в
індексний файл і, таким чином, не використовується для пошуку даних. [1]

-S, --пропуск рядків INT
Пропустити перші рядки INT у файлі даних. [0]

ЗАПИТ І ІНШІ ВАРІАНТИ


-h, --print-header
Надрукуйте також заголовок/метарядки.

-Н, --only-header
Друкуйте лише заголовок/метарядки.

-я, --інформація про файл
Роздрукувати інформацію про формат файлу.

-л, --list-chroms
Перерахуйте імена послідовностей, що зберігаються в файлі індексу.

-р, --перезаголовок Фото
Замініть заголовок вмістом FILE

-Р, --регіонів Фото
Обмежитися регіонами, переліченими у FILE. FILE може бути файлом BED (потрібен .bed,
.bed.gz, .bed.bgz розширення імені файлу) або файл із роздільниками TAB із CHROM, POS,
і, за бажанням, стовпці POS_TO, де позиції засновані на 1 та включені. Коли
ця опція використовується, вхідний файл може не бути відсортований. регіони.

-Т, --цілі Фото
Як і в -R але весь введений текст буде зчитуватися послідовно, а регіони не вказано
у FILE буде пропущено.

приклад


(grep ^"#" in.gff; grep -v ^"#" in.gff | сортування -k1,1 -k4,4n) | bgzip > sorted.gff.gz;

tabix -p gff sorted.gff.gz;

tabix sorted.gff.gz chr1:10,000,000 20,000,000 XNUMX-XNUMX XNUMX XNUMX;

ПРИМІТКИ


Досягти перекриття запитів за допомогою стандартного індексу B-дерева (з або
без бінінгу), реалізований у всіх базах даних SQL, або індекс R-дерева в PostgreSQL і
Оракул. Але є ще багато причин використовувати tabix. По-перше, tabix безпосередньо працює з
багато широко використовуваних форматів з роздільниками TAB, таких як GFF/GTF і BED. Нам не треба
розробити схему бази даних або спеціалізовані двійкові формати. Дані не потрібно дублювати
також різні формати. По-друге, tabix працює зі стиснутими файлами даних, тоді як більшість SQL
бази даних ні. GTF анотації GenCode можна стиснути до 4%. По-третє, tabix
швидко. Відомо, що той самий алгоритм індексації ефективно працює для вирівнювання з a
кілька мільярдів коротких прочитань. Бази даних SQL, ймовірно, не можуть легко обробляти дані такого масштабу.
Останнє, але не менш важливе, tabix підтримує віддалений пошук даних. Можна помістити файл даних
і індекс на сервері FTP або HTTP, і інші користувачі або навіть веб-служби зможуть
щоб отримати фрагмент, не завантажуючи весь файл.

Використовуйте bgzip онлайн за допомогою служб onworks.net



Найновіші онлайн-програми для Linux і Windows