Este é o comando bgzip que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS
PROGRAMA:
NOME
bgzip - Utilitário de compressão / descompressão de bloco
tabix - indexador genérico para arquivos de posição do genoma delimitados por TAB
SINOPSE
bgzip [-cdhB] [-b virtual Offset] [-s tamanho] [lima]
tabix [-0lf] [-p gff | cama | sam | vcf] [-s seqCol] [-b BegCol] [-e fimCol] [-S linhaSaltar] [-c
metaChar] in.tab.bgz [region1 [region2 [...]]]
DESCRIÇÃO
Tabix indexa um arquivo de posição do genoma delimitado por TAB in.tab.bgz e cria um arquivo de índice (
in.tab.bgz.tbi or em.tab.bgz.csi ) quando região está ausente da linha de comando. A entrada
o arquivo de dados deve ser classificado em posição e compactado por bgzip que tem um gzip(1 curtida
interface. Após a indexação, o tabix é capaz de recuperar rapidamente as linhas de dados sobrepostas
regiões especificado no formato "chr: beginPos-endPos". A recuperação rápida de dados também funciona
rede se URI for fornecido como um nome de arquivo e, neste caso, o arquivo de índice será baixado
se não estiver presente localmente.
INDEXAÇÃO OPÇÕES
-0, - baseado em zero
Especifique que a posição no arquivo de dados é baseada em 0 (por exemplo, arquivos UCSC) em vez
do que baseado em 1.
-b, --começar INT
Coluna da posição cromossômica inicial. [4]
-c, --Comente CARACTERES
As linhas de pulo começaram com o caractere CHAR. [#]
-C, --csi As linhas de pulo começaram com o caractere CHAR. [#]
-e --fim INT
Coluna da posição cromossômica final. A coluna final pode ser igual à inicial
coluna. [5]
-f, --força
Força a sobrescrever o arquivo de índice se ele estiver presente.
-m, --min-shiftINT
definir o tamanho do intervalo mínimo para índices CSI para 2 ^ INT [14]
-p, --predefinição STR
Formato de entrada para indexação. Os valores válidos são: gff, bed, sam, vcf. Esta opção
não deve ser aplicado junto com qualquer um dos -s, -b, -e, -c e -0; não é usado
para recuperação de dados porque essa configuração é armazenada no arquivo de índice. [gff]
-sim, --seqüência INT
Coluna do nome da sequência. Opção -s, -b, -e, -S, -c e -0 estão todos armazenados no
arquivo de índice e, portanto, não é usado na recuperação de dados. [1]
-S, --pular linhas INT
Pule as primeiras linhas INT no arquivo de dados. [0]
CONSULTA E OUTROS OPÇÕES
-h, --print-cabeçalho
Imprime também as linhas de cabeçalho / meta.
-H, --apenas-cabeçalho
Imprime apenas as linhas de cabeçalho / meta.
-eu, --informações do arquivo
Imprima informações sobre o formato do arquivo.
-eu, --list-cromos
Liste os nomes de sequência armazenados no arquivo de índice.
-r, --reheader ARQUIVO
Substitua o cabeçalho pelo conteúdo de FILE
-R, --regiões ARQUIVO
Restringir às regiões listadas no FILE. O ARQUIVO pode ser um arquivo BED (requer .bed,
.bed.gz, extensão de nome de arquivo .bed.bgz) ou um arquivo delimitado por TAB com CHROM, POS,
e, opcionalmente, colunas POS_TO, onde as posições são baseadas em 1 e inclusivas. Quando
esta opção está em uso, o arquivo de entrada não pode ser classificado. regiões.
-T, --alvos ARQUIVO
Semelhante a -R mas toda a entrada será lida sequencialmente e as regiões não listadas
em FILE será ignorado.
EXEMPLO
(grep ^ "#" in.gff; grep -v ^ "#" in.gff | sort -k1,1 -k4,4n) | bgzip> ordenado.gff.gz;
tabix -p gff Sort.gff.gz;
tabix Sort.gff.gz chr1: 10,000,000-20,000,000;
NOTAS
É simples obter consultas de sobreposição usando o índice de árvore B padrão (com ou
sem binning) implementado em todos os bancos de dados SQL, ou o índice R-tree no PostgreSQL e
Oráculo. Mas ainda existem muitas razões para usar o tabix. Em primeiro lugar, tabix trabalha diretamente com
muitos formatos delimitados por TAB amplamente usados, como GFF / GTF e BED. Não precisamos
esquema de banco de dados de design ou formatos binários especializados. Os dados não precisam ser duplicados em
formatos diferentes também. Em segundo lugar, o tabix funciona em arquivos de dados compactados, enquanto a maioria dos SQL
bancos de dados não. O GTF da anotação GenCode pode ser compactado em 4%. Em terceiro lugar, tabix
é rápido. O mesmo algoritmo de indexação é conhecido por funcionar de forma eficiente para um alinhamento com um
alguns bilhões de leituras curtas. Provavelmente, os bancos de dados SQL não conseguem lidar com dados nessa escala com facilidade.
Por último, mas não menos importante, tabix oferece suporte à recuperação remota de dados. Pode-se colocar o arquivo de dados
e o índice em um servidor FTP ou HTTP, e outros usuários ou até mesmo serviços da web serão capazes
para obter uma fatia sem baixar o arquivo inteiro.
Use bgzip online usando serviços onworks.net