To jest polecenie bgzip, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z naszych wielu bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online Windows lub emulator online MAC OS
PROGRAM:
IMIĘ
bgzip - Blokuj narzędzie do kompresji/dekompresji
tabix - Ogólny indeksator dla plików pozycji genomu rozdzielanych tabulatorami
STRESZCZENIE
bgzip [-cdhB] [-b wirtualne przesunięcie] [-s rozmiar] [filet]
tabix [-0lf] [-p gff|łóżko|sam|vcf] [-s nast.kol] [-b błagam, kol] [-e koniec płk] [-S liniaPomiń] [-c
metaChar] w.tab.bgz [region1 [region2 [...]]]
OPIS
Tabix indeksuje rozdzielany TAB plik pozycji genomu w.tab.bgz i tworzy plik indeksu (
w.tab.bgz.tbi or w.tab.bgz.csi ) kiedy region nie ma w wierszu poleceń. Wejście
plik danych musi być posortowany i skompresowany według bgzip który ma gzip(1 like
berło. Po zindeksowaniu tabix jest w stanie szybko pobrać nakładające się linie danych
regiony określone w formacie "chr:początek-poz-koniec". Szybkie pobieranie danych również działa
sieci, jeśli jako nazwę pliku podano URI i w tym przypadku plik indeksu zostanie pobrany
jeśli nie występuje lokalnie.
INDEKSOWANIE OPCJE
-0, --od zera
Określ, że pozycja w pliku danych jest oparta na 0 (np. pliki UCSC), a raczej
niż 1 na podstawie.
-B, --rozpocząć INT
Kolumna początkowej pozycji chromosomu. [4]
-C, --komentarz ZWĘGLAĆ
Pomiń linie zaczynające się od znaku CHAR. [#]
-DO, --csi Pomiń linie zaczynające się od znaku CHAR. [#]
-mi, --kończyć się INT
Kolumna końcowej pozycji chromosomu. Kolumna końcowa może być taka sama jak początkowa
kolumna. [5]
-F, --siła
Wymuś nadpisanie pliku indeksu, jeśli jest obecny.
-M, --min-przesunięcieINT
ustaw minimalny rozmiar przedziału dla indeksów CSI na 2^INT [14]
-P, --ustawienie STR
Format wejściowy do indeksowania. Prawidłowe wartości to: gff, bed, sam, vcf. Ta opcja
nie należy stosować razem z żadnym z -s, -b, -e, -c i -0; nie jest używany
do pobierania danych, ponieważ to ustawienie jest przechowywane w pliku indeksu. [fff]
-tak, --sekwencja INT
Kolumna nazwy sekwencji. Opcja -s, -b, -e, -S, -c i -0 wszystkie są przechowywane w
plik indeksu, a zatem nie jest używany podczas wyszukiwania danych. [1]
-S, --pomiń wiersze INT
Pomiń pierwsze wiersze INT w pliku danych. [0]
ZAPYTANIE ROLNICZE INNE OPCJE
-H, --drukuj-nagłówek
Wydrukuj również nagłówek/meta wierszy.
-H, --tylko-nagłówek
Drukuj tylko nagłówki/meta wierszy.
-ja, --Informacja o pliku
Wydrukuj informacje o formacie pliku.
-ja, --list-chroms
Wypisz nazwy sekwencji przechowywane w pliku indeksu.
-R, --reheader FILE
Zastąp nagłówek zawartością pliku FILE
-R, --regiony FILE
Ogranicz do regionów wymienionych w PLIKU. PLIK może być plikiem BED (wymaga .bed,
.bed.gz, rozszerzenie nazwy pliku .bed.bgz) lub plik rozdzielany tabulatorami z CHROM, POS,
i opcjonalnie kolumny POS_TO, w których pozycje są oparte na liczbie 1 i zawierają. Kiedy
ta opcja jest używana, plik wejściowy może nie być posortowany. regiony.
-T, -- cele FILE
Podobny do -R ale całe dane wejściowe zostaną odczytane po kolei, a regiony nie zostaną wymienione
w PLIKu zostanie pominięty.
PRZYKŁAD
(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > posortowane.gff.gz;
tabix -p gff posortowane.gff.gz;
tabix sorted.gff.gz chr1:10,000,000 20,000,000 XNUMX-XNUMX XNUMX XNUMX;
UWAGI
Łatwo jest uzyskać nakładające się zapytania przy użyciu standardowego indeksu B-drzewa (z or
bez binningu) zaimplementowany we wszystkich bazach SQL lub indeks R-tree w PostgreSQL i
Wyrocznia. Ale nadal istnieje wiele powodów, dla których warto korzystać z tabix. Po pierwsze, tabix współpracuje bezpośrednio z
wiele powszechnie używanych formatów rozdzielanych tabulatorami, takich jak GFF/GTF i BED. Nie musimy
zaprojektuj schemat bazy danych lub wyspecjalizowane formaty binarne. Dane nie muszą być duplikowane w
różne formaty. Po drugie, tabix działa na skompresowanych plikach danych, podczas gdy większość SQL
bazy danych nie. Adnotację GTF GenCode można skompresować do 4%. Po trzecie, tabix
jest szybki. Wiadomo, że ten sam algorytm indeksowania działa wydajnie dla wyrównania z a
kilka miliardów krótkich odczytów. Bazy danych SQL prawdopodobnie nie mogą łatwo obsługiwać danych na taką skalę.
Wreszcie, tabix obsługuje zdalne pobieranie danych. Można umieścić plik danych
i indeks na serwerze FTP lub HTTP, a inni użytkownicy lub nawet usługi sieciowe będą mogli
uzyskać kawałek bez pobierania całego pliku.
Korzystaj z bgzip online za pomocą usług onworks.net