InglêsFrancêsEspanhol

Ad


favicon do OnWorks

vcftools - Online na nuvem

Execute vcftools no provedor de hospedagem gratuita OnWorks no Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

Este é o comando vcftools que pode ser executado no provedor de hospedagem gratuita OnWorks usando uma de nossas várias estações de trabalho online gratuitas, como Ubuntu Online, Fedora Online, emulador online do Windows ou emulador online do MAC OS

PROGRAMA:

NOME


vcftools - analisa arquivos VCF

SINOPSE


ferramentas vcf [OPÇÕES]

DESCRIÇÃO


O programa vcftools é executado a partir da linha de comando. A interface é inspirada no PLINK e
portanto, deve ser amplamente familiar para os usuários desse pacote. Os comandos assumem a seguinte forma:

vcftools --vcf arquivo1.vcf --chr 20 --freq

O comando acima diz ao vcftools para ler o arquivo file1.vcf, extrair sites em
cromossomo 20 e calcule a frequência do alelo em cada local. O alelo resultante
as estimativas de frequência são armazenadas no arquivo de saída, out.freq. Como no exemplo acima,
a saída do vcftools é enviada principalmente para arquivos de saída, em vez de ser mostrada no
tela.

Observe que alguns comandos podem estar disponíveis apenas na versão mais recente do vcftools. Obter
a versão mais recente, você deve usar o SVN para verificar o código mais recente, conforme descrito no
home page.

Observe também que genótipos poliplóides não são suportados atualmente.

Basico Opções
--vcf
Esta opção define o arquivo VCF a ser processado. Os arquivos precisam ser descompactados
antes de usar com vcftools. vcftools espera arquivos no formato VCF v4.0, um
a especificação pode ser encontrada aqui.

--gzvcf
Esta opção pode ser usada no lugar da opção --vcf para ler compactado (gzip)
Arquivos VCF diretamente. Observe que esta opção pode ser bastante lenta quando usada com grandes
arquivos.

--Fora
Esta opção define o prefixo do nome do arquivo de saída para todos os arquivos gerados pelo vcftools.
Por exemplo, se é definido como output_filename, então todos os arquivos de saída serão
do formato output_filename. ***. Se esta opção for omitida, todos os arquivos de saída serão
tem o prefixo 'out.'.

Local filtros Opções
--chr
Processar apenas sites com um identificador de cromossomo correspondente

--de-pb

--para-bp
Essas opções definem a faixa física de sites que serão processados. Sites fora
deste intervalo serão excluídos. Essas opções só podem ser usadas em conjunto com
--chr.

--snp
Inclui SNP (s) com ID correspondente. Este comando pode ser usado várias vezes em ordem
para incluir mais de um SNP.

--snps
Inclui uma lista de SNPs fornecida em um arquivo. O arquivo deve conter uma lista de SNP IDs,
com um ID por linha.

--excluir
Exclua uma lista de SNPs fornecida em um arquivo. O arquivo deve conter uma lista de SNP IDs,
com um ID por linha.

- posições
Inclua um conjunto de sites com base em uma lista de posições. Cada linha da entrada
o arquivo deve conter um cromossomo e uma posição (separados por tabulação). O arquivo deve
tem uma linha de cabeçalho. Os sites não incluídos na lista são excluídos.

--cama

--excluir-cama
Incluir ou excluir um conjunto de sites com base em um arquivo BED. Apenas os três primeiros
colunas (chrom, chromStart e chromEnd) são obrigatórias. O arquivo BED deve ter um
linha de cabeçalho.

--remove-filter-all

--remove-filter

--manter filtrado
Essas opções são usadas para filtrar sites com base em seu sinalizador FILTER. o
a primeira opção remove todos os sites com um sinalizador FILTER. A segunda opção pode ser usada para
excluir sites com um sinalizador de filtro específico. A terceira opção pode ser usada para selecionar
sites com base em sinalizadores de filtro específicos. A segunda e terceira opções podem ser
usado várias vezes para especificar vários FILTERs. A opção --keep-filter é
aplicado antes da opção --remove-filter.

--minQ
Inclui apenas sites com qualidade acima deste limite.

--min-meanDP

--max-meanDP
Incluir sites com Profundidade média dentro dos limites definidos por essas opções.

--maf

--max-maf
Inclui apenas sites com frequência de alelo menor dentro do intervalo especificado.

--não-ref-af

--max-não-ref-af
Inclui apenas locais com frequência alélica não de referência dentro do intervalo especificado.

--matiz
Avalia locais para Equilíbrio de Hardy-Weinberg usando um teste exato, conforme definido por
Wigginton, Cutler e Abecasis (2005). Sites com um valor p abaixo do limite
definidos por esta opção são considerados fora do HWE e, portanto, excluídos.

--geno
Exclua sites com base na proporção de dados ausentes (definido para estar entre
0 e 1).

--min-alelos

--max-alelos
Inclui apenas sites com vários alelos dentro do intervalo especificado. Para
Por exemplo, para incluir apenas sites bialélicos, pode-se usar:

vcftools --vcf arquivo1.vcf --min-alleles 2 --max-alleles 2

--mascarar

--inverter-máscara

--máscara-min
Incluir sites com base em um arquivo do tipo FASTA. O arquivo fornecido contém um
sequência de dígitos inteiros (entre 0 e 9) para cada posição em um cromossomo que
especifique se um site nessa posição deve ser filtrado ou não. Um exemplo de arquivo de máscara
pareceria:

>1
0000011111222 ...

Neste exemplo, sites no arquivo VCF localizados nas primeiras 5 bases do
início do cromossomo 1 seria mantido, enquanto os locais na posição 6 em diante seriam
filtrado. O número inteiro limite que determina se os sites são filtrados ou não é
definido usando a opção --mask-min, cujo padrão é 0. Os cromossomos contidos em
o arquivo de máscara deve ser classificado na mesma ordem do arquivo VCF. A opção --mask
é usado para especificar o arquivo de máscara a ser usado, enquanto a opção --invert-mask pode
ser usado para especificar um arquivo de máscara que será invertido antes de ser aplicado.

Individual Filtros
--indv
Especifique um indivíduo a ser mantido na análise. Esta opção pode ser usada vários
vezes para especificar vários indivíduos.

--guarda
Forneça um arquivo contendo uma lista de indivíduos a serem incluídos na análise subsequente.
Cada ID individual (conforme definido no cabeçalho VCF) deve ser incluído em um
linha separada.

--remove-indv
Especifique um indivíduo a ser removido da análise. Esta opção pode ser usada
várias vezes para especificar vários indivíduos. Se a opção --indv também for
especificado, então a opção --indv é executada antes da opção --remove-indv.

--retirar
Forneça um arquivo contendo uma lista de indivíduos a serem excluídos em análises subsequentes.
Cada ID individual (conforme definido no cabeçalho VCF) deve ser incluído em um
linha separada. Se as opções --keep e --remove forem usadas, então o
A opção --keep é executada antes da opção --remove.

--mon-indv-meanDP

--max-indv-meanDP
Calcule a cobertura média por indivíduo. Apenas indivíduos com
a cobertura dentro da faixa especificada por essas opções estão incluídas nas
análises.

--mente
Especifique o limite mínimo da taxa de chamadas para cada indivíduo.

- faseada
Primeiro exclui todos os indivíduos com todos os genótipos sem fase e, posteriormente,
exclui todos os sites com genótipos não faseados. Os dados restantes, portanto, consistem
de dados em fases apenas.

Genótipo Filtros
--remove-filter-geno-all

--remove-Filter-geno
A primeira opção remove todos os genótipos com um sinalizador FILTER. A segunda opção pode ser
usado para excluir genótipos com um sinalizador de filtro específico.

--minGQ
Excluir todos os genótipos com qualidade abaixo do limite especificado por esta opção
(GQ).

--minDP
Exclua todos os genótipos com uma profundidade de sequenciamento abaixo do especificado por esta opção
(PD)

saída Estatísticas
--frequencia

--conta

--freq2

--contas2
Saída de informações de frequência por site. O --freq emite a frequência do alelo em um
arquivo com o sufixo '.frq'. A opção --counts gera um arquivo semelhante com o
sufixo '.frq.count', que contém as contagens brutas de alelos em cada local. O --freq2
e as opções --count2 são usadas para suprimir informações de alelos no arquivo de saída. No
neste caso, a ordem das freqs / contagens depende da numeração no arquivo VCF.

--profundidade
Gera um arquivo contendo a profundidade média por indivíduo. Este arquivo tem o sufixo
'.idepth'.

--profundidade do site

--site-mean-profundidade
Gera um arquivo contendo a profundidade por site. A opção --site-depth gera o
profundidade para cada site somada aos indivíduos. Este arquivo possui o sufixo '.ldepth'.
Da mesma forma, o --site-mean-depth produz a profundidade média para cada site, e o
o arquivo de saída tem o sufixo '.ldepth.mean'.

--geno-profundidade
Gera um arquivo (possivelmente muito grande) contendo a profundidade de cada genótipo em
o arquivo VCF. Entradas ausentes recebem o valor -1. O arquivo tem o sufixo
'.gdepth'.

--qualidade do site
Gera um arquivo contendo a qualidade SNP por site, conforme encontrado na coluna QUAL
do arquivo VCF. Este arquivo possui o sufixo '.lqual'.

--het Calcula uma medida de heterozigosidade por indivíduo. Especificamente, o
coeficiente de endogamia, F, é estimado para cada indivíduo usando um método de
momentos. O arquivo resultante tem o sufixo '.het'.

--resistente
Relata um valor p para cada local de um teste de equilíbrio de Hardy-Weinberg (conforme definido
por Wigginton, Cutler e Abecasis (2005)). O arquivo resultante (com sufixo '.hwe')
também contém os números observados de homozigotos e heterozigotos e o
Números esperados correspondentes em HWE.

--ausente
Gera dois arquivos relatando a falta por indivíduo e por site
base. Os dois arquivos têm sufixos '.imiss' e '.lmiss' respectivamente.

--hap-r2

--geno-r2

--ld-janela

--ld-janela-bp

--min-r2
Essas opções são usadas para relatar estatísticas de desequilíbrio de ligação (LD) como
resumido pela estatística r2. A opção --hap-r2 informa ao vcftools para gerar um
arquivo relatando a estatística r2 usando haplótipos em fases. Este é o tradicional
medida de LD frequentemente relatada na literatura de genética populacional. Se em fase
haplótipos não estão disponíveis, então a opção --geno-r2 pode ser usada, que calcula
o coeficiente de correlação quadrada entre genótipos codificados como 0, 1 e 2 para
representam o número de alelos não de referência em cada indivíduo. Esse é o mesmo
como a medida LD relatada pelo PLINK. A versão do haplótipo gera um arquivo com o
sufixo '.hap.ld', enquanto a versão do genótipo produz um arquivo com o sufixo
'.geno.ld'. A versão do haplótipo implica a opção --phased.

A opção --ld-window define a separação SNP máxima para o cálculo de
LD. Da mesma forma, a opção --ld-window-bp pode ser usada para definir o máximo físico
separação dos SNPs incluídos no cálculo do LD. Finalmente, o --min-r2 define um
valor mínimo para r2 abaixo do qual a estatística LD não é relatada.

--SNPdnsidade
Calcula o número e a densidade de SNPs em bins de tamanho definido por esta opção.
O arquivo de saída resultante tem o sufixo '.snpden'.

--TsTv
Calcula a relação Transição / Transversão em caixas de tamanho definido por este
opção. O arquivo de saída resultante tem o sufixo '.TsTv'. Um resumo também é
fornecido em um arquivo com o sufixo '.TsTv.summary'.

--FILTER-resumo
Gera um resumo do número de SNPs e da razão Ts / Tv para cada categoria de FILTRO.
O arquivo de saída tem o sufixo '.FILTER.summary.

--sites filtrados
Cria dois arquivos listando sites que foram mantidos ou removidos após a filtragem. o
primeiro arquivo, com o sufixo '.kept.sites', lista os sites mantidos por vcftools após os filtros
Foram aplicados. O segundo arquivo, com o sufixo '.removed.sites', lista os sites
removido pelos filtros aplicados.

--singletons
Esta opção irá gerar um arquivo detalhando a localização dos singletons, e o
indivíduo em que ocorrem. O arquivo relata tanto singletons verdadeiros, quanto particulares
dupletons (ou seja, SNPs onde o alelo menor ocorre apenas em um único indivíduo e
esse indivíduo é homozigótico para esse alelo). O arquivo de saída tem o sufixo
'.singletons'.

--site-pi

--window-pi
Essas opções são usadas para estimar os níveis de diversidade de nucleotídeos. A primeira opção
faz isso por site, e o arquivo de saída tem o sufixo '.sites.pi'. o
segunda opção calcula a diversidade de nucleotídeos em janelas, com o tamanho da janela
definido no argumento de opção. A saída para esta opção tem o sufixo
'.windowed.pi'. A versão em janela requer dados em fases e, portanto, o uso deste
opção implica a opção --phased.

saída in Outros Formatos
- O12 Esta opção produz os genótipos como uma grande matriz. Três arquivos são produzidos. o
primeiro, com o sufixo '.012', contém os genótipos de cada indivíduo em uma
linha. Os genótipos são representados como 0, 1 e 2, onde o número representa que
número de alelos não de referência. Os genótipos ausentes são representados por -1. o
segundo arquivo, com sufixo '.012.indv' detalha os indivíduos incluídos no principal
Arquivo. O terceiro arquivo, com o sufixo '.012.pos', detalha os locais incluídos no
o arquivo principal.

--IMPUTAR
Esta opção gera haplótipos em fases no formato de painel de referência IMPUTE. Como IMPUTE
requer dados em fases, o uso desta opção também implica em --phased. Sem fases
indivíduos e genótipos são, portanto, excluídos. Apenas sites bialélicos são
incluído na saída. Usar esta opção gera três arquivos. O IMPUTE
arquivo de haplótipo tem o sufixo '.impute.hap', e o arquivo de legenda IMPUTE tem o
sufixo '.impute.hap.legend'. O terceiro arquivo, com sufixo '.impute.hap.indv',
detalha os indivíduos incluídos no arquivo de haplótipo, embora este arquivo não seja
necessário para IMPUTE.

--ldhat

--ldhat-geno
Essas opções produzem dados no formato LDhat. O uso dessas opções também requer o
opção --chr para por usado. A opção --ldhat emite dados em fases apenas e, portanto,
também implica - em fase, levando a indivíduos sem fase e genótipos sendo
excluídos. Como alternativa, a opção --ldhat-geno trata todos os dados como
sem fase e, portanto, produz arquivos LDhat no formato genótipo / sem fase. Em ambos
caso, dois arquivos são gerados com os sufixos '.ldhat.sites' e '.ldhat.locs',
que correspondem aos arquivos de entrada Lhat 'sites' e 'locs', respectivamente.

--BEAGLE-GL
Esta opção produz informações de probabilidade de genótipo para entrada no BEAGLE
programa. Esta opção requer que o arquivo VCF contenha a tag FORMAT GL, que pode
geralmente é emitido por chamadores SNP, como o GATK. O uso desta opção requer um
cromossomo a ser especificado por meio da opção --chr. O arquivo de saída resultante (com
o sufixo '.BEAGLE.GL') contém probabilidades de genótipo para sítios bialélicos e é
adequado para entrada no BEAGLE por meio do argumento 'like ='.

--plink
Esta opção produz os dados do genótipo no formato PLINK PED. Dois arquivos são gerados,
com sufixos '.ped' e '.map'. Observe que apenas os locais bialélicos serão produzidos.
Mais detalhes sobre esses arquivos podem ser encontrados na documentação do PLINK.

Observação: esta opção pode ser muito lenta em grandes conjuntos de dados. Usando a opção --chr para
dividir o conjunto de dados é aconselhável.

--plink-tped
A opção --plink acima pode ser extremamente lenta em grandes conjuntos de dados. Uma alternativa
que pode ser consideravelmente mais rápido é a saída no formato PLINK transposto.
Isso pode ser feito usando a opção --plink-tped, que produz dois arquivos com
sufixos '.tped' e '.tfam'.

--recodificar
A opção --recode é usada para gerar um arquivo VCF a partir do arquivo VCF de entrada tendo
aplicou as opções especificadas pelo usuário. O arquivo de saída tem o sufixo
'.recode.vcf'.

Por padrão, os campos INFO são removidos do arquivo de saída, como os valores INFO
pode ser invalidado pela recodificação (por exemplo, a profundidade total pode precisar ser
recalculado se os indivíduos forem removidos). Esta funcionalidade padrão pode ser
sobrescrito usando --keep-INFO opção, onde define o
Tecla INFO para manter no arquivo de saída. O sinalizador --keep-INFO pode ser usado vários
vezes. Alternativamente, a opção --keep-INFO-all pode ser usada para reter todas as INFO
campos.

Gerais
--extract-FORMAT-info
Extraia informações dos campos de genótipo no arquivo VCF relacionadas a um determinado
Identificador de FORMAT. Por exemplo, usando a opção '--extract-FORMAT-info GT'
extraia todas as entradas GT (ou seja, Genótipo). O arquivo de saída resultante tem
o sufixo '. .FORMATO'.

--obter informação
Esta opção é usada para extrair informações do campo INFO no arquivo VCF. o
argumento especifica a tag INFO a ser extraída e a opção pode ser
usado várias vezes para extrair várias entradas de INFO. O arquivo resultante,
com o sufixo '.INFO', contém as informações INFO obrigatórias em um formato separado por tabulação
tabela. Por exemplo, para extrair os sinalizadores NS e DB, deve-se usar o comando:

vcftools --vcf arquivo1.vcf --get-INFO NS --get-INFO DB

VCF Envie o Comparação Opções
As opções de comparação de arquivos estão atualmente em um estado de fluxo e provavelmente com erros. Se você
encontrar um bug, por favor relate-o. Observe que os filtros em nível de genótipo não são suportados nestes
opções.

--dif

--gzdiff
Selecione um arquivo VCF para comparação com o arquivo especificado pela opção --vcf.
Produz dois arquivos que descrevem os sites e indivíduos comuns / únicos para cada
Arquivo. Esses arquivos têm os sufixos '.diff.sites_in_files' e
'.diff.indv_in_files' respectivamente. A versão --gzdiff pode ser usada para ler
arquivos VCF compactados.

--diff-site-discordância
Usado em conjunto com a opção --diff para calcular a discordância em um site por
base do site. O arquivo de saída resultante tem o sufixo '.diff.sites'.

--diff-indv-discordância
Usado em conjunto com a opção --diff para calcular a discordância em um por
base individual. O arquivo de saída resultante tem o sufixo '.diff.indv'.

--diff-matriz de discordância
Usado em conjunto com a opção --diff para calcular uma matriz de discordância. Esse
opção só funciona com locais bialélicos com alelos correspondentes que estão presentes em
ambos os arquivos. O arquivo de saída resultante tem o sufixo '.diff.discordance.matrix'.

--diff-switch-erro
Usado em conjunto com a opção --diff para calcular erros de fase
(especificamente 'erros de switch'). Esta opção gera dois arquivos de saída que descrevem
erros de troca encontrados entre sites e o erro de troca médio por indivíduo.
Esses dois arquivos têm os sufixos '.diff.switch' e '.diff.indv.switch'
respectivamente.

Opções ainda in desenvolvimento
As seguintes opções ainda não foram finalizadas, provavelmente contêm bugs e provavelmente
para mudar no futuro.

--fst

--gzfst
Calcule FST para um par de arquivos VCF, com o segundo arquivo sendo especificado por este
opção. O FST é atualmente calculado usando a fórmula descrita no
material suplementar do paper da Fase I HapMap. Atualmente, apenas em pares FST
cálculos são suportados, embora isso provavelmente mude no futuro. o
A opção --gzfst pode ser usada para ler arquivos VCF compactados.

- LROH Identifique longos períodos de homozigosidade.

- relação
Gerar estatísticas de parentesco individual.

Use vcftools online usando serviços onworks.net


Servidores e estações de trabalho gratuitos

Baixar aplicativos Windows e Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS oferece recursos ANSI SQL
    & roda em Linux, Windows &
    várias plataformas Unix. Características
    excelente simultaneidade e desempenho
    & potência...
    Baixar Firebird
  • 2
    KompoZer
    KompoZer
    KompoZer é um editor HTML wysiwyg usando
    a base de código do Mozilla Composer. Como
    O desenvolvimento do Nvu foi interrompido
    em 2005, KompoZer corrige muitos bugs e
    adiciona um f...
    Baixar KompoZer
  • 3
    Downloader de mangá grátis
    Downloader de mangá grátis
    O Free Manga Downloader (FMD) é um
    aplicativo de código aberto escrito em
    Object-Pascal para gerenciamento e
    baixando mangá de vários sites.
    Isso é um espelho...
    Baixe o Manga Downloader Gratuito
  • 4
    UNetbootin
    UNetbootin
    O UNetbootin permite criar arquivos inicializáveis
    Unidades USB ao vivo para Ubuntu, Fedora e
    outras distribuições Linux sem
    gravando um CD. Funciona em Windows, Linux,
    e ...
    Baixar UNetbootin
  • 5
    ERP Dolibarr - CRM
    ERP Dolibarr - CRM
    Dolibarr ERP - CRM é uma ferramenta fácil de usar
    Pacote de software de código aberto ERP e CRM
    (executado com um servidor web php ou como
    software autônomo) para empresas,
    fundações...
    Baixar Dolibarr ERP - CRM
  • 6
    Cliente SQL SQuirreL
    Cliente SQL SQuirreL
    SQuirreL SQL Client é um SQL gráfico
    cliente escrito em Java que permitirá
    você para ver a estrutura de um JDBC
    banco de dados compatível, navegue pelos dados em
    mesas ...
    Baixar SQuirreL SQL Client
  • Mais "

Comandos Linux

Ad