InglêsFrancêsEspanhol

Ad


favicon do OnWorks

bcftools - Online na nuvem

Execute bcftools no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando bcftools que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


samtools - Utilitários para o formato Sequence Alignment / Map (SAM)

bcftools - Utilitários para o formato de chamada binária (BCF) e VCF

SINOPSE


visualização samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools classificar aln.bam aln.sorted

índice de samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools ver aln.sorted.bam chr2: 20,100,000-20,200,000

samtools fundem out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

empilhamento de samtools -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3: 1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

índice bcftools in.bcf

bcftools ver in.bcf chr2: 100-200> out.vcf

bcftools view -Nvm0.99 in.bcf> out.vcf 2> out.afs

DESCRIÇÃO


Samtools é um conjunto de utilitários que manipula alinhamentos no formato BAM. Importa
de e exporta para o formato SAM (Sequence Alignment / Map), faz a classificação, mesclagem e
indexação e permite recuperar leituras em qualquer região rapidamente.

Samtools é projetado para funcionar em um fluxo. Ele considera um arquivo de entrada `- 'como o padrão
entrada (stdin) e um arquivo de saída `- 'como saída padrão (stdout). Vários comandos podem
assim, ser combinado com tubos Unix. Samtools sempre emitem avisos e mensagens de erro para o
saída de erro padrão (stderr).

Samtools também é capaz de abrir um arquivo BAM (não SAM) em um servidor FTP ou HTTP remoto se o
O nome do arquivo BAM começa com `ftp: // 'ou` http: //'. Samtools verifica o funcionamento atual
para o arquivo de índice e fará o download do índice em caso de ausência. Samtools não
recupere todo o arquivo de alinhamento, a menos que seja solicitado.

SAMTOOLS COMANDOS E OPÇÕES


view visualização de samtools [-bchuHS] [-t in.refList] [-o output] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l biblioteca] [-r readGroup] [-R rgFile] | [região1
[...]]

Extraia / imprima todos ou subalinhamentos no formato SAM ou BAM. Se nenhuma região é
especificado, todos os alinhamentos serão impressos; caso contrário, apenas alinhamentos
a sobreposição das regiões especificadas será gerada. Um alinhamento pode ser dado
várias vezes se estiver sobrepondo várias regiões. Uma região pode ser apresentada,
por exemplo, no seguinte formato: `chr2 '(todo o chr2),` chr2: 1000000'
(região começando em 1,000,000 bp) ou `chr2: 1,000,000-2,000,000 '(região entre
1,000,000 e 2,000,000 bp incluindo os pontos finais). A coordenada é baseada em 1.

OPÇÕES:

-b Saída no formato BAM.

-f INT Apenas alinhamentos de saída com todos os bits em INT presentes no campo FLAG.
INT pode estar em hexadecimal no formato de / ^ 0x [0-9A-F] + / [0]

-F INT Pule alinhamentos com bits presentes em INT [0]

-h Inclua o cabeçalho na saída.

-H Produza apenas o cabeçalho.

-l STR Somente a saída é lida na biblioteca STR [null]

-o ARQUIVO Arquivo de saída [stdout]

-q INT Pule alinhamentos com MAPQ menor que INT [0]

-r STR Somente leituras de saída no grupo de leitura STR [null]

-R ARQUIVO A saída lê em grupos de leitura listados em ARQUIVO [nulo]

-s FLOAT Fração de modelos / pares para subamostra; a parte inteira é tratada
como a semente para o gerador de número aleatório [-1]

-S A entrada está em SAM. Se as linhas de cabeçalho @SQ estiverem ausentes, o `-t ' opção
necessário.

-c Em vez de imprimir os alinhamentos, apenas conte-os e imprima o
número total. Todas as opções de filtro, como `-f ', `-F ' e `-q ' , É
tidos em consideração.

-t ARQUIVO Este arquivo é delimitado por TAB. Cada linha deve conter o nome de referência
e o comprimento da referência, uma linha para cada referência distinta;
campos adicionais são ignorados. Este arquivo também define a ordem do
sequências de referência na classificação. Se você executar `samtools faidx ',
o arquivo de índice resultante .fai pode ser usado como este
arquivo.

-u Saída de BAM descompactado. Esta opção economiza tempo gasto em
compressão / descompressão e, portanto, é preferível quando a saída é
canalizado para outro comando samtools.

televisão samtools tv [-p chr: pos] [-s STR] [-d exibição] [ref.fasta]

Visualizador de alinhamento de texto (baseado na biblioteca ncurses). No visualizador, pressione `? '
para obter ajuda e pressione `g 'para verificar o início do alinhamento a partir de uma região no formato
como `chr10: 10,000,000 'ou` = 10,000,000' ao visualizar a mesma referência
seqüência.

opções:

-d exibição Saída como (H) tml ou (C) urses ou (T) ext

-p chr: pos Vá diretamente para esta posição

-s STR Exibir apenas leituras desta amostra ou grupo de leitura

empilhar samtools mpileup [-EBugp] [-C capQcoef] [-r reg] [-f in.fa] [-l Lista] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [...]]

Gere BCF ou pileup para um ou vários arquivos BAM. Os registros de alinhamento são
agrupados por identificadores de amostra em linhas de cabeçalho @RG. Se os identificadores de amostra forem
ausente, cada arquivo de entrada é considerado uma amostra.

No formato de pileup (sem -uor-g), cada linha representa uma posição genômica,
consistindo em nome do cromossomo, coordenada, base de referência, bases de leitura, leitura
qualidades e qualidades de mapeamento de alinhamento. Informações sobre correspondência, incompatibilidade,
indel, vertente, qualidade de mapeamento e início e fim de uma leitura são todos codificados em
a coluna de base de leitura. Nesta coluna, um ponto representa uma correspondência com a referência
com base na vertente dianteira, uma vírgula para uma correspondência na vertente reversa, um '>' ou
'<' para um salto de referência, 'ACGTN' para uma incompatibilidade na vertente direta e
`acgtn 'para uma incompatibilidade na fita reversa. Um padrão `\ + [0-9] + [ACGTNacgtn] + '
indica que há uma inserção entre esta posição de referência e a próxima
posição de referência. O comprimento da inserção é dado pelo número inteiro no
padrão, seguido pela sequência inserida. Da mesma forma, um padrão
`- [0-9] + [ACGTNacgtn] + 'representa uma exclusão da referência. O excluído
as bases serão apresentadas como `* 'nas linhas a seguir. Também na base de leitura
coluna, um símbolo `^ 'marca o início de uma leitura. O ASCII do personagem
seguindo `^ 'menos 33 dá a qualidade do mapeamento. Um símbolo `$ 'marca o fim de
um segmento de leitura.

Entrada opções:

-6 Suponha que a qualidade esteja na codificação Illumina 1.3+. -A Não pule
pares de leitura anômalos na chamada de variantes.

-B Desativar realinhamento probabilístico para o cálculo da base
qualidade de alinhamento (BAQ). BAQ é a probabilidade em escala de Phred de uma leitura
base desalinhada. Aplicar esta opção ajuda muito a reduzir
SNPs falsos causados ​​por desalinhamentos.

-b ARQUIVO Lista de arquivos BAM de entrada, um arquivo por linha [null]

-C INT Coeficiente para diminuir a qualidade do mapeamento para leituras contendo
incompatibilidades excessivas. Dada uma leitura com probabilidade q na escala de phred
de ser gerado a partir da posição mapeada, a nova qualidade de mapeamento
é sobre sqrt ((INT-q) / INT) * INT. Um valor zero desativa isso
funcionalidade; se habilitado, o valor recomendado para BWA é 50. [0]

-d INT Em uma posição, leia ao máximo INT lê por BAM de entrada. [250]

-E Cálculo BAQ estendido. Esta opção ajuda a sensibilidade, especialmente para
MNPs, mas podem prejudicar um pouco a especificidade.

-f ARQUIVO A faidx-Arquivo de referência indexado no formato FASTA. O arquivo pode ser
opcionalmente compactado por arrasar. [nulo]

-l ARQUIVO BED ou arquivo de lista de posição contendo uma lista de regiões ou sites onde
Pileup ou BCF deve ser gerado [null]

-q INT Qualidade mínima de mapeamento para um alinhamento a ser usado [0]

-Q INT Qualidade de base mínima para uma base a ser considerada [13]

-r STR Apenas gerar pileup na região STR [todos os sites]

saída opções:

-D Profundidade de leitura de saída por amostra

-g Calcular as probabilidades do genótipo e gerá-las no formato de chamada binária
(BCF).

-S Valor P de polarização de fita escalonada de Phred de saída por amostra

-u Semelhante a -g exceto que a saída é BCF descompactado, que é
preferido para tubulação.

Opções para Genótipo Probabilidade Computação (Por -g or -você):

-e INT Probabilidade de erro de sequenciamento de extensão de intervalo em escala de Phred. Reduzindo INT
leva a indels mais longos. [20]

-h INT Coeficiente para modelagem de erros de homopolímero. Dado um l-longo
homopolímero executado, o erro de sequenciamento de um indel de tamanho s é modelado
as INT*s/l. [100]

-I Não execute chamadas INDEL

-L INT Ignore a chamada de INDEL se a profundidade média por amostra estiver acima INT.
[250]

-o INT Probabilidade de erro de sequenciamento aberto de intervalo em escala de Phred. Reduzindo INT leads
para mais chamadas indel. [40]

-p Aplicar limites -m e -F por amostra para aumentar a sensibilidade de
chamando. Por padrão, ambas as opções são aplicadas a leituras agrupadas de todos
amostras.

-P STR Lista de plataformas limitada por vírgulas (determinada por @ RG-PL) do qual
candidatos indel são obtidos. Recomenda-se coletar indel
candidatos de tecnologias de sequenciamento que têm baixa taxa de erro indel
como ILLUMINA. [tudo]

reheader reheader samtools

Substitua o cabeçalho em in.bam com o cabeçalho em in.header.sam. Este comando é
muito mais rápido do que substituir o cabeçalho por uma conversão BAM-> SAM-> BAM.

gato samtools cat [-h header.sam] [-o out.bam] [...]

Concatene BAMs. O dicionário de sequência de cada BAM de entrada deve ser idêntico,
embora este comando não verifique isso. Este comando usa um truque semelhante para
reheader que permite a concatenação BAM rápida.

tipo samtools sort [-nof] [-m maxMem]

Classifique os alinhamentos pelas coordenadas mais à esquerda. Arquivo .bam Será criado.
Este comando também pode criar arquivos temporários .% d.bam quando o todo
o alinhamento não pode ser ajustado na memória (controlado pela opção -m).

OPÇÕES:

-o Envie o alinhamento final para a saída padrão.

-n Classifique por nomes lidos em vez de por coordenadas cromossômicas

-f Use como o caminho de saída completo e não acrescente .bam sufixo.

-m INT Aproximadamente a memória máxima necessária. [500000000]

fundir mesclagem de samtools [-nur1f] [-h inh.sam] [-R reg]
[...]

Mesclar vários alinhamentos classificados. As listas de referência do cabeçalho de todas as entradas
Arquivos BAM e os cabeçalhos @SQ de inh.sam, se houver, todos devem referir-se ao mesmo
conjunto de sequências de referência. A lista de referência do cabeçalho e (a menos que seja substituída por
-h) `@ 'cabeçalhos de in1.bam será copiado para fora.bam, e os cabeçalhos de outros
os arquivos serão ignorados.

OPÇÕES:

-1 Use o nível 1 de compactação zlib para compactar a saída

-f Força a sobrescrever o arquivo de saída, se houver.

-h ARQUIVO Use as linhas de ARQUIVO como cabeçalhos `@ 'a serem copiados para fora.bam, substituindo
quaisquer linhas de cabeçalho que seriam copiadas de in1.bam. (ARQUIVO is
na verdade, no formato SAM, embora quaisquer registros de alinhamento que ele possa conter sejam
ignorado.)

-n Os alinhamentos de entrada são classificados por nomes lidos em vez de cromossômicos
coordenadas

-R STR Mesclar arquivos na região especificada indicada por STR [nulo]

-r Anexe uma etiqueta RG a cada alinhamento. O valor da tag é inferido do arquivo
nomes.

-u Saída BAM não compactada

índice índice de samtools

Índice de alinhamento classificado para acesso aleatório rápido. Arquivo de índice .bai será
criado.

idxstats samtools idxstats

Recupere e imprima estatísticas no arquivo de índice. A saída é delimitada por TAB com
cada linha consiste no nome da sequência de referência, comprimento da sequência, # leituras mapeadas
e # leituras não mapeadas.

faidx samtools faidx [região1 [...]]

Indexar a sequência de referência no formato FASTA ou extrair a subsequência do indexado
seqüência de referência. Se nenhuma região for especificada, faidx irá indexar o arquivo e
crio .fai no disco. Se as regiões são especificadas, as subsequências
será recuperado e impresso em stdout no formato FASTA. O arquivo de entrada pode
ser comprimido no RAZF formato.

consertar samtools fixmate

Preencha as coordenadas do mate, ISIZE e sinalizadores relacionados ao mate a partir de um nome ordenado
alinhamento.

rmdup samtools rmdup [-sS]

Remova as duplicatas de PCR potenciais: se vários pares de leitura tiverem um externo idêntico
coordenadas, apenas retém o par com a mais alta qualidade de mapeamento. No par-
modo final, este comando SOMENTE funciona com orientação FR e requer ISIZE é
definido corretamente. Não funciona para leituras desemparelhadas (por exemplo, duas extremidades mapeadas para
diferentes cromossomos ou leituras órfãs).

OPÇÕES:

-s Remova duplicatas para leituras de extremidade única. Por padrão, o comando funciona para
apenas leituras emparelhadas.

-S Trate leituras emparelhadas e leituras em uma única extremidade.

calmo samtools calmd [-EeubSr] [-C capQcoef]

Gere a etiqueta MD. Se a etiqueta MD já estiver presente, este comando dará um
avisando se a tag MD gerada é diferente da tag existente. Saída SAM
por padrão.

OPÇÕES:

-A Quando usado em conjunto com -r esta opção sobrescreve a base original
qualidade.

-e Converta a base de leitura para = se for idêntica à referência alinhada
base. O chamador Indel não suporta as bases = no momento.

-u Saída de BAM descompactado

-b BAM compactado de saída

-S A entrada é SAM com linhas de cabeçalho

-C INT Coeficiente para limitar a qualidade do mapeamento de leituras mal mapeadas. Veja o
empilhar comando para obter detalhes. [0]

-r Calcule a etiqueta BQ (sem -A) ou a qualidade básica da tampa por BAQ (com -A).

-E Cálculo BAQ estendido. Esta opção negocia especificidade para
sensibilidade, embora o efeito seja mínimo.

corte de alvo samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
ref]

Este comando identifica as regiões alvo examinando a continuidade da leitura
profundidade, calcula sequências de consenso haplóide de alvos e produz um SAM com
cada sequência correspondendo a um alvo. Quando opção -f está em uso, BAQ será
aplicado. Este comando é projetado para cortar clones de fosmid de fosmid
sequenciamento de pool [Ref. Kitzman et al. (2010)].

fase fase samtools [-AF] [-k len] [-b prefixo] [-q minLOD] [-Q minBaseQ]

SNPs de chamada e fase heterozigótica. OPÇÕES:

-A Abandone as leituras com fase ambígua.

-b STR Prefixo da saída BAM. Quando esta opção está em uso, as leituras de fase 0 serão
salvo em arquivo STR.0.bam e leituras de fase 1 STR.1.bam. Fase desconhecida
as leituras serão alocadas aleatoriamente para um dos dois arquivos. Leituras quiméricas
com erros de switch serão salvos em STR.chimeric.bam. [nulo]

-F Não tente corrigir leituras quiméricas.

-k INT Comprimento máximo para faseamento local. [13]

-q INT LOD mínimo com escala de Phred para chamar um heterozigoto. [40]

-Q INT Qualidade de base mínima a ser usada na chamada de het. [13]

BCFTOOLS COMANDOS E OPÇÕES


view ferramentas bcf view [-AbFGNQSucgv] [-D seqDict] [-l listaLoci] [-s listaAmostra] [-i
gapSNPRácio] [-t taxa de mutação] [-p varThres] [-m varThres] [-P prévio] [-1 nGrupo1]
[-d minFrac] [-U nPerm] [-X permThres] [-T trioType] em.bcf [região]

Converta entre BCF e VCF, chame candidatos de variantes e estime alelo
frequências.

Input / Output opções:

-A Reter todos os alelos alternativos possíveis em locais variantes. Por padrão,
o comando view descarta alelos improváveis.

-b Saída no formato BCF. O padrão é VCF.

-D ARQUIVO Dicionário de sequência (lista de nomes de cromossomos) para conversão VCF-> BCF
[nulo]

-F Indica que o PL é gerado por r921 ou antes (o pedido é diferente).

-G Suprimir todas as informações de genótipos individuais.

-l ARQUIVO Lista de sites nos quais as informações são enviadas [todos os sites]

-N Pule os sites onde o campo REF não é A / C / G / T

-Q Envie o formato de verossimilhança QCALL

-s ARQUIVO Lista de amostras a serem usadas. A primeira coluna na entrada dá a amostra
nomes e o segundo dá a ploidia, que só pode ser 1 ou 2. Quando
a 2ª coluna está ausente, a ploidia da amostra é considerada como 2. No
saída, o pedido das amostras será idêntico ao de ARQUIVO.
[nulo]

-S A entrada é VCF em vez de BCF.

-u Saída BCF não compactada (forçar -b).

Consenso / Variante chamada opções:

-c Variantes de chamadas usando inferência bayesiana. Esta opção automaticamente
invoca opção -e.

-d FLOAT Quando -v está em uso, pule os locais onde a fração das amostras cobertas por
lê está abaixo de FLOAT. [0]

-e Execute apenas inferência de probabilidade máxima, incluindo estimativa do site
frequência do alelo, testando o equilíbrio de Hardy-Weinberg e testando
associações com LRT.

-g Chamar genótipos por amostra em sites variantes (forçar -c)

-i FLOAT Razão da taxa de mutação INDEL-para-SNP [0.15]

-m FLOAT Novo modelo para chamadas multialélicas e variantes raras aprimoradas. Outro
O alelo ALT é aceito se P (chi ^ 2) de LRT exceder o limite FLOAT.
O parâmetro parece robusto e o valor real geralmente não
afetam muito os resultados; um bom valor a ser usado é 0.99. Isto é o
método de chamada recomendado. [0]

-p FLOAT Um site é considerado uma variante se P (ref | D)

-P STR Espectro de frequência de alelo anterior ou inicial. Se STR pode ser cheio, cond2,
plano ou o arquivo que consiste na saída de erro de uma variante anterior
chamando correr.

-t FLOAT Taxa de mutação em escala para chamada de variantes [0.001]

-T STR Habilite a chamada em par / trio. Para chamadas em trio, opção -s é geralmente
precisava ser aplicado para configurar os membros do trio e sua ordem.
No arquivo fornecido para a opção -s, a primeira amostra deve ser a
filho, o segundo o pai e o terceiro a mãe. O válido
valores de STR são `pair ',` trioauto', `trioxd 'e` trioxs', onde
`pair 'chama diferenças entre duas amostras de entrada, e` trioxd'
(`trioxs ') especifica que a entrada é do cromossomo X não-PAR
regiões e a criança é uma mulher (homem). [nulo]

-v Somente sites variantes de saída (forçar -c)

Contraste chamada e Associação Test opções:

-1 INT Número de amostras do grupo 1. Esta opção é usada para dividir o
amostras em dois grupos para teste de associação ou chamada SNP de contraste.
Quando esta opção está em uso, o seguinte VCF INFO será enviado:
PC2, PCHI2 e QCHI2. [0]

-U INT Número de permutações para teste de associação (eficaz apenas com -1)
[0]

-X FLOAT Execute apenas permutações para P (chi ^ 2) -U)
[0.01]

índice ferramentas bcf índice em.bcf

Índice classificado BCF para acesso aleatório.

gato ferramentas bcf gato in1.bcf [in2.bcf [...]]]

Concatene arquivos BCF. Os arquivos de entrada devem ser classificados e ter
amostras idênticas aparecendo na mesma ordem.

SAM FORMATO


O formato Sequence Alignment / Map (SAM) é delimitado por TAB. Além das linhas de cabeçalho, que
são iniciados com o símbolo `@ ', cada linha de alinhamento consiste em:

┌─────┬───────┬─────────────────────────────────────── ────────────────────────┐
ColCampoDescrição
├─────┼───────┼─────────────────────────────────────── ────────────────────────┤
│ 1 │ QNOME │ Modelo de consulta / par NOME │
│ 2 │ FLAG │ bit a bit FLAG │
│ 3 │ RNAME │ Sequência de referência NOME │
│ 4 │ POS │ POSição mais à esquerda com base em 1 / coordenada da sequência recortada │
│ 5 │ MAPQ │ Qualidade de mapeamento (escala Phred) │
│ 6 │ CIAGR │ string CIGAR estendida │
│ 7 │ MRNM │ sequência de referência de mate NaMe (`= 'se o mesmo que RNAME) │
│ 8 │ MPOS │ Posição de posicionamento baseado em 1 │
│ 9 │ TLEN │ LENgth do modelo inferido (inserir tamanho) │
│10 │ SEQ │ consulta SEQuence na mesma fita que a referência │
│11 │ QUAL │ query QUALity (ASCII-33 fornece a qualidade de base Phred) │
│12 + │ OPT │ campos opcionais variáveis ​​no formato TAG: VTYPE: VALUE │
└─────┴───────┴─────────────────────────────────────── ────────────────────────┘

Cada bit no campo FLAG é definido como:

┌─────────┬─────┬────────────────────────────────────── ─────────────────┐
BandeiraChrDescrição
├─────────┼─────┼─────────────────────────────────────── ─────────────────┤
│0x0001 │ p │ a leitura é emparelhada no sequenciamento │
│0x0002 │ P │ a leitura é mapeada em um par adequado │
│0x0004 │ u │ a própria sequência de consulta não está mapeada │
│0x0008 │ U │ o mate não está mapeado │
│0x0010 │ r │ vertente da consulta (1 para reverso) │
│0x0020 │ R │ fita do mate │
│0x0040 │ 1 │ a leitura é a primeira leitura em um par │
│0x0080 │ 2 │ a leitura é a segunda leitura em um par │
│0x0100 │ s │ o alinhamento não é primário │
│0x0200 │ f │ a leitura falha na plataforma / verificações de qualidade do fornecedor │
│0x0400 │ d │ a leitura é um PCR ou uma duplicata óptica │
└─────────┴─────┴────────────────────────────────────── ─────────────────┘
onde a segunda coluna fornece a representação de string do campo FLAG.

VCF FORMATO


O Variant Call Format (VCF) é um formato delimitado por TAB em que cada linha de dados consiste em
os seguintes campos:

┌─────┬─────────┬────────────────────────────────────── ───────────────────────────────┐
ColCampoDescrição
├─────┼─────────┼────────────────────────────────────── ───────────────────────────────┤
│ 1 │ CHROM │ Nome do CHROMosome │
│ 2 │ POS │ a posição mais à esquerda da variante │
│ 3 │ ID │ IDentificador de variante exclusivo │
│ 4 │ REF │ o alelo REFerence │
│ 5 │ ALT │ o (s) alelo (s) ALTernate, separados por vírgula │
│ 6 │ QUAL │ variante / referência QUALidade │
│ 7 │ FILTRO │ Filtros aplicados │
│ 8 │ INFORMAÇÕES │ INFORMAÇÕES relacionadas à variante, separadas por ponto e vírgula │
│ 9 │ FORMATO │ FORMATO dos campos de genótipo, separados por dois pontos (opcional) │
│10 + │ AMOSTRA │ AMOSTRA genótipos e informações por amostra (opcional) │
└─────┴─────────┴────────────────────────────────────── ───────────────────────────────┘

A tabela a seguir fornece os INFORMACAO tags usadas por samtools e bcftools.

┌───────┬───────────┬───────────────────────────────────────────────────────────────────────────────────────────── ────────────────────────────────────────────────────────────────────────────────────────────────────────────── ──────────────────────┐
etiquetaFormatoDescrição
├────────┼───────────┼─────────────────────────────────────────────────────────────────────────────────────────────── ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── ──────────────────────┤
└───────┴───────────┴───────────────────────────────────────────────────────────────────────────────────────────── ────────────────────────────────────────────────────────────────────────────────────────────────────────────── ──────────────────────┘

EXEMPLOS


o Importar SAM para BAM quando @SQ linhas estão presentes no cabeçalho:

visualização samtools -bS aln.sam> aln.bam

If @SQ linhas estão ausentes:

samtools faidx ref.fa
visualização samtools -bt ref.fa.fai aln.sam> aln.bam

onde ref.fa.fai é gerado automaticamente pelo faidx comando.

o Anexe o RG tag ao mesclar alinhamentos classificados:

perl -e 'print
"@RG \ tID: ga \ tSM: hs \ tLB: ga \ tPL: Illumina \ n @ RG \ tID: 454 \ tSM: hs \ tLB: 454 \ tPL: 454 \ n" '> rg.txt
samtools mesclar -rh rg.txt mesclado.bam ga.bam 454.bam

O valor em um RG tag é determinada pelo nome do arquivo de onde a leitura está vindo. Nisso
exemplo, no mesclado.bam, lê de ga.bam será anexado RG: Z: ga, enquanto lê de
454.bam será anexado RG: Z: 454.

o Ligue para SNPs e INDELs curtos para um indivíduo diplóide:

samtools mpileup -ugf ref.fa aln.bam | bcftools view -bvcg -> var.raw.bcf
bcftools view var.raw.bcf | vcfutils.pl varFilter -D 100> var.flt.vcf

A -D opção de varFilter controla a profundidade máxima de leitura, que deve ser ajustada para
cerca de duas vezes a profundidade média de leitura. Pode-se considerar adicionar -C50 para empilhar se mapeamento
a qualidade é superestimada para leituras que contêm incompatibilidades excessivas. Aplicando esta opção
geralmente ajuda BWA-curto mas não pode outros mapeadores.

o Gerar a sequência de consenso para um indivíduo diplóide:

samtools mpileup -uf ref.fa aln.bam | bcftools view -cg - | vcfutils.pl vcf2fq>
cns.fq

o Chamar mutações somáticas de um par de amostras:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -> var.bcf

No campo INFO de saída, CLR dá a razão Phred-log entre a probabilidade por
tratar as duas amostras de forma independente e a probabilidade de exigir que o genótipo
ser idêntico. Esse CLR é efetivamente uma pontuação que mede a confiança do somático
chamadas. Quanto mais alto, melhor.

o Chamada de novo e mutações somáticas de um trio familiar:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt ->
var.bcf

Envie o amostras.txt deve consistir em três linhas especificando o membro e a ordem de
amostras (na ordem de filho-pai-mãe). De forma similar, CLR dá o Phred-log
razão de verossimilhança com e sem a restrição de trio. UGT mostra o mais provável
configuração do genótipo sem a restrição de trio, e CGT dá o mais provável
configuração do genótipo que satisfaça a restrição do trio.

o Fase um indivíduo:

samtools calmd -AEur aln.bam ref.fa | samtools phase -b prefix -> phase.out

A calmo comando é usado para reduzir falsos heterozigotos em torno de INDELs.

o Ligue para SNPs e indels curtos para vários indivíduos diplóides:

samtools mpileup -P ILLUMINA -ugf ref.fa * .bam | bcftools view -bcvg -> var.raw.bcf
bcftools view var.raw.bcf | vcfutils.pl varFilter -D 2000> var.flt.vcf

Os indivíduos são identificados a partir do SM tags no @RG linhas de cabeçalho. Indivíduos podem ser
agrupados em um arquivo de alinhamento; um indivíduo também pode ser separado em vários arquivos.
A -P opção especifica que os candidatos indel devem ser coletados apenas de grupos de leitura
com o @ RG-PL tag definida para ILUMINA. Coletando candidatos indel de leituras sequenciadas
por uma tecnologia indel-propensa pode afetar o desempenho da chamada indel.

Observe que há um novo modelo de chamada que pode ser invocado por

visualização bcftools -m0.99 ...

que corrige algumas limitações graves do método padrão.

Para a filtragem, os melhores resultados parecem ser alcançados aplicando primeiro o SnpGapName filtro e
em seguida, aplicando alguma abordagem de aprendizado de máquina

vcf-annotate -f SnpGap = n
filtro vcf ...

Ambos podem ser encontrados no ferramentas vcf e htslib pacote (links abaixo).

o Derive o espectro de frequência de alelo (AFS) em uma lista de sites de vários indivíduos:

samtools mpileup -Igf ref.fa * .bam> all.bcf
bcftools view -bl sites.list all.bcf> sites.bcf
bcftools view -cGP cond2 sites.bcf> / dev / null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf> / dev / null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf> / dev / null 2> sites.3.afs
......

onde sites.lista contém a lista de sites com cada linha consistindo na referência
nome da sequência e posição. A seguir ferramentas bcf comandos estimam AFS por EM.

o Dump BAQ aplicado ao alinhamento para outros chamadores SNP:

samtools calmd -bAr aln.bam> aln.baq.bam

Ele adiciona e corrige o NM e MD tags ao mesmo tempo. o calmo o comando também vem
com o -C opção, o mesmo que aquele em empilhar e empilhar. Inscreva-se se ajudar.

LIMITAÇÕES


o Palavras não alinhadas usadas em bam_import.c, bam_endian.h, bam.c e bam_aux.c.

o Samtools pareado-final rmdup não funciona para leituras desemparelhadas (por exemplo, leituras órfãs ou termina
mapeados para diferentes cromossomos). Se isso for uma preocupação, use o de Picard
MarkDuplicate que lida corretamente com esses casos, embora um pouco mais lento.

Use bcftools online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS oferece recursos ANSI SQL
    & roda em Linux, Windows &
    várias plataformas Unix. Características
    excelente simultaneidade e desempenho
    & potência...
    Baixar Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer é um editor HTML wysiwyg usando
    a base de código do Mozilla Composer. Como
    O desenvolvimento do Nvu foi interrompido
    em 2005, KompoZer corrige muitos bugs e
    adiciona um f...
    Baixar KompoZer
  • 3
    Downloader de mangá grátis
    Downloader de mangá grátis
    O Free Manga Downloader (FMD) é um
    aplicativo de código aberto escrito em
    Object-Pascal para gerenciamento e
    baixando mangá de vários sites.
    Isso é um espelho...
    Baixe o Manga Downloader Gratuito
  • 4
    UNetbootin
    UNetbootin
    O UNetbootin permite criar arquivos inicializáveis
    Unidades USB ao vivo para Ubuntu, Fedora e
    outras distribuições Linux sem
    gravando um CD. Funciona em Windows, Linux,
    e ...
    Baixar UNetbootin
  • 5
    ERP Dolibarr - CRM
    ERP Dolibarr - CRM
    Dolibarr ERP - CRM é uma ferramenta fácil de usar
    Pacote de software de código aberto ERP e CRM
    (executado com um servidor web php ou como
    software autônomo) para empresas,
    fundações...
    Baixar Dolibarr ERP - CRM
  • 6
    Cliente SQL SQuirreL
    Cliente SQL SQuirreL
    SQuirreL SQL Client é um SQL gráfico
    cliente escrito em Java que permitirá
    você para ver a estrutura de um JDBC
    banco de dados compatível, navegue pelos dados em
    mesas ...
    Baixar SQuirreL SQL Client
  • Mais "

Comandos Linux

Ad