InglésFrancésEspañol

Ad


icono de página de OnWorks

vcftools: en línea en la nube

Ejecute vcftools en el proveedor de alojamiento gratuito de OnWorks sobre Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS

Este es el comando vcftools que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.

PROGRAMA:

NOMBRE


vcftools - analizar archivos VCF

SINOPSIS


herramientasvcf [CAMPUS]

DESCRIPCIÓN


El programa vcftools se ejecuta desde la línea de comandos. La interfaz está inspirada en PLINK y
por lo tanto, los usuarios de ese paquete deberían estar familiarizados con él. Los comandos tienen la siguiente forma:

vcftools --vcf archivo1.vcf --chr 20 --frecuencia

El comando anterior le dice a vcftools que lea en el archivo file1.vcf, extraiga sitios en
cromosoma 20 y calcule la frecuencia alélica en cada sitio. El alelo resultante
las estimaciones de frecuencia se almacenan en el archivo de salida, out.freq. Como en el ejemplo anterior,
la salida de vcftools se envía principalmente a archivos de salida, en lugar de mostrarse en el
de la pantalla

Tenga en cuenta que es posible que algunos comandos solo estén disponibles en la última versión de vcftools. Para obtener
la última versión, debe utilizar SVN para comprobar el código más reciente, como se describe en el


También tenga en cuenta que los genotipos poliploides no son compatibles actualmente.

Basic Opciones
--vcf
Esta opción define el archivo VCF que se procesará. Los archivos deben descomprimirse
antes de usar con vcftools. vcftools espera archivos en formato VCF v4.0, un
especificación de la cual se puede encontrar aquí.

--gzvcf
Esta opción se puede utilizar en lugar de la opción --vcf para leer comprimido (gzip)
Archivos VCF directamente. Tenga en cuenta que esta opción puede ser bastante lenta cuando se usa con grandes
archivos.

--fuera
Esta opción define el prefijo del nombre de archivo de salida para todos los archivos generados por vcftools.
Por ejemplo, si se establece en output_filename, entonces todos los archivos de salida serán
de la forma nombre_archivo_salida. ***. Si se omite esta opción, todos los archivos de salida
tener el prefijo 'out.'.

Planta Filtrar Opciones
--chr
Procesar solo sitios con una coincidencia de identificador de cromosomas

--de-bp

--a-bp
Estas opciones definen el rango físico de sitios que serán procesados. Sitios fuera de
de este rango serán excluidos. Estas opciones solo se pueden utilizar junto con
--chr.

--snp
Incluya SNP (s) con ID coincidente. Este comando se puede utilizar varias veces en orden
para incluir más de un SNP.

--snps
Incluya una lista de los SNP proporcionados en un archivo. El archivo debe contener una lista de ID de SNP,
con una identificación por línea.

--excluir
Excluya una lista de SNP proporcionada en un archivo. El archivo debe contener una lista de ID de SNP,
con una identificación por línea.

--posiciones
Incluya un conjunto de sitios sobre la base de una lista de puestos. Cada línea de la entrada
El archivo debe contener un cromosoma y una posición (separados por tabulaciones). El archivo debe
tener una línea de encabezado. Se excluyen los sitios no incluidos en la lista.

--cama

--excluir-cama
Incluya o excluya un conjunto de sitios sobre la base de un archivo BED. Solo los tres primeros
Se requieren columnas (chrom, chromStart y chromEnd). El archivo BED debe tener un
línea de cabecera.

- eliminar-filtrado-todo

- eliminar-filtrado

- mantener filtrado
Estas opciones se utilizan para filtrar sitios en función de su indicador de FILTRO. los
La primera opción elimina todos los sitios con un indicador de FILTRO. La segunda opción se puede utilizar para
excluir sitios con una marca de filtro específica. La tercera opción se puede utilizar para seleccionar
sitios sobre la base de indicadores de filtro específicos. La segunda y tercera opciones pueden ser
utilizado varias veces para especificar varios FILTROS. La opción --keep-filter es
aplicado antes de la opción --remove-filter.

--minQ
Incluya solo sitios con calidad por encima de este umbral.

--min-mediaDP

--max-mediaDP
Incluya sitios con profundidad media dentro de los umbrales definidos por estas opciones.

--maf

--max-maf
Incluya solo sitios con una frecuencia de alelos menores dentro del rango especificado.

--no-ref-af

--max-no-ref-af
Incluya solo sitios con una frecuencia de alelos no de referencia dentro del rango especificado.

--matiz
Evalúa los sitios para el equilibrio de Hardy-Weinberg utilizando una prueba exacta, según lo definido por
Wigginton, Cutler y Abecasis (2005). Sitios con un valor p por debajo del umbral
definidos por esta opción se toman como fuera de HWE y, por lo tanto, se excluyen.

--geno
Excluir sitios sobre la base de la proporción de datos faltantes (definida entre
0 y 1).

--min-alelos

--máx-alelos
Incluya solo sitios con varios alelos dentro del rango especificado. Para
ejemplo, para incluir solo sitios bialélicos, se podría usar:

vcftools --vcf archivo1.vcf --min-alelos 2 --max-alelos 2

--máscara

--invertir-máscara

--máscara-min
Incluya sitios sobre la base de un archivo similar a FASTA. El archivo proporcionado contiene un
secuencia de dígitos enteros (entre 0 y 9) para cada posición en un cromosoma que
especificar si un sitio en esa posición debe ser filtrado o no. Un archivo de máscara de ejemplo
se vería así:

>1
0000011111222 ...

En este ejemplo, los sitios del archivo VCF ubicados dentro de las primeras 5 bases del
el comienzo del cromosoma 1 se mantendría, mientras que los sitios en la posición 6 en adelante serían
filtrado. El número entero de umbral que determina si los sitios se filtran o no es
se establece mediante la opción --mask-min, que por defecto es 0. Los cromosomas contenidos en
el archivo de máscara debe ordenarse en el mismo orden que el archivo VCF. La opción --mask
se utiliza para especificar el archivo de máscara que se utilizará, mientras que la opción --invert-mask puede
se utilizará para especificar un archivo de máscara que se invertirá antes de ser aplicado.

Individual Filtros
--indv
Especifique una persona que se mantendrá en el análisis. Esta opción se puede utilizar varias
veces para especificar varios individuos.

--guardar
Proporcione un archivo que contenga una lista de personas para incluir en un análisis posterior.
Cada ID individual (como se define en el encabezado de VCF) debe incluirse en un
línea separada.

--remove-indv
Especifique una persona que se eliminará del análisis. Esta opción se puede utilizar
varias veces para especificar varias personas. Si la opción --indv también es
especificado, la opción --indv se ejecuta antes que la opción --remove-indv.

--retirar
Proporcione un archivo que contenga una lista de personas para excluir en un análisis posterior.
Cada ID individual (como se define en el encabezado de VCF) debe incluirse en un
línea separada. Si se utilizan las opciones --keep y --remove, entonces la
La opción --keep se ejecuta antes que la opción --remove.

--mon-indv-mediaDP

--max-indv-mediaDP
Calcule la cobertura media individualmente. Solo individuos con
La cobertura dentro del rango especificado por estas opciones se incluyen en los siguientes
analiza

--mente
Especifique el umbral mínimo de tasa de llamadas para cada individuo.

--fase
Primero excluye a todos los individuos que tienen todos los genotipos sin fase, y posteriormente
excluye todos los sitios con genotipos sin fase. Por lo tanto, los datos restantes consisten
de datos escalonados solamente.

Genotipo Filtros
--eliminar-filtrado-geno-todo

--eliminar-filtrado-geno
La primera opción elimina todos los genotipos con un indicador de FILTRO. La segunda opción puede ser
se utiliza para excluir genotipos con una bandera de filtro específica.

--minGQ
Excluir todos los genotipos con una calidad por debajo del umbral especificado por esta opción
(GQ).

--minDP
Excluir todos los genotipos con una profundidad de secuenciación por debajo de la especificada por esta opción
(DAKOTA DEL SUR)

Salida Estadística
--frecuencia

- recuentos

--frecuencia2

--contos2
Salida de información de frecuencia por sitio. --Freq genera la frecuencia alélica en un
archivo con el sufijo '.frq'. La opción --counts genera un archivo similar con la
sufijo '.frq.count', que contiene los conteos de alelos sin procesar en cada sitio. El --freq2
y las opciones --count2 se utilizan para suprimir la información de los alelos en el archivo de salida. En
En este caso, el orden de las frecuencias / conteos depende de la numeración en el archivo VCF.

--profundidad
Genera un archivo que contiene la profundidad media por individuo. Este archivo tiene el sufijo
'.idepth'.

- profundidad del sitio

--sitio-profundidad-media
Genera un archivo que contiene la profundidad por sitio. La opción --site-depth genera el
profundidad para cada sitio sumada a través de individuos. Este archivo tiene el sufijo '.ldepth'.
Asimismo, --site-mean-depth genera la profundidad media de cada sitio, y la
El archivo de salida tiene el sufijo '.ldepth.mean'.

--geno-profundidad
Genera un archivo (posiblemente muy grande) que contiene la profundidad de cada genotipo en
el archivo VCF. Las entradas que faltan reciben el valor -1. El archivo tiene el sufijo
'.gdepth'.

--calidad del sitio
Genera un archivo que contiene la calidad SNP por sitio, como se encuentra en la columna QUAL
del archivo VCF. Este archivo tiene el sufijo '.lqual'.

--het Calcula una medida de heterocigosidad individual. Específicamente, el
El coeficiente de consanguinidad, F, se estima para cada individuo utilizando un método de
momentos. El archivo resultante tiene el sufijo '.het'.

--resistente
Informa un valor p para cada sitio de una prueba de equilibrio de Hardy-Weinberg (como se define
por Wigginton, Cutler y Abecasis (2005)). El archivo resultante (con sufijo '.hwe')
también contiene los números observados de homocigotos y heterocigotos y el
correspondientes números esperados bajo HWE.

--desaparecido
Genera dos archivos que informan de la falta en uno por persona y por sitio
base. Los dos archivos tienen los sufijos '.imiss' y '.lmiss' respectivamente.

--hap-r2

--geno-r2

--ld-ventana

--ld-ventana-bp

--min-r2
Estas opciones se utilizan para informar las estadísticas de desequilibrio de enlace (LD) como
resumido por el estadístico r2. La opción --hap-r2 informa a vcftools que genere un
archivo que informa la estadística r2 utilizando haplotipos en fase. Este es el tradicional
medida de LD a menudo informada en la literatura genética de poblaciones. Si es por fases
los haplotipos no están disponibles, entonces se puede usar la opción --geno-r2, que calcula
el coeficiente de correlación al cuadrado entre genotipos codificados como 0, 1 y 2 para
representan el número de alelos que no son de referencia en cada individuo. Esto es lo mismo
como la medida LD informada por PLINK. La versión del haplotipo genera un archivo con la
sufijo '.hap.ld', mientras que la versión del genotipo genera un archivo con el sufijo
'.geno.ld'. La versión del haplotipo implica la opción --phased.

La opción --ld-window define la separación máxima de SNP para el cálculo de
LD. Asimismo, la opción --ld-window-bp se puede utilizar para definir el máximo
separación de SNP incluidos en el cálculo de LD. Finalmente, --min-r2 establece un
valor mínimo de r2 por debajo del cual no se informa la estadística LD.

--SNPdnsidad
Calcula el número y la densidad de SNP en contenedores de tamaño definido por esta opción.
El archivo de salida resultante tiene el sufijo '.snpden'.

--TsTV
Calcula la relación de transición / conversión en contenedores de tamaño definido por este
opción. El archivo de salida resultante tiene el sufijo '.TsTv'. También se incluye un resumen
suministrado en un archivo con el sufijo '.TsTv.summary'.

--FILTER-resumen
Genera un resumen del número de SNP y la relación Ts / Tv para cada categoría de FILTRO.
El archivo de salida tiene el sufijo '.FILTER.summary.

--sitios-filtrados
Crea dos archivos que enumeran los sitios que se han mantenido o eliminado después del filtrado. los
primer archivo, con el sufijo '.kept.sites', enumera los sitios mantenidos por vcftools después de los filtros
han sido aplicados. El segundo archivo, con el sufijo '.removed.sites', enumera los sitios
eliminado por los filtros aplicados.

--solteros
Esta opción generará un archivo que detalla la ubicación de singletons, y la
individuo en el que ocurren. El archivo informa tanto de singletons verdaderos como privados
doubletons (es decir, SNPs donde el alelo menor solo ocurre en un solo individuo y
ese individuo es homocigótico para ese alelo). El archivo de salida tiene el sufijo
'.singletons'.

--sitio-pi

--ventana-pi
Estas opciones se utilizan para estimar los niveles de diversidad de nucleótidos. La primera opcion
hace esto por sitio, y el archivo de salida tiene el sufijo '.sites.pi'. los
La segunda opción calcula la diversidad de nucleótidos en las ventanas, con el tamaño de la ventana.
definido en el argumento de la opción. La salida para esta opción tiene el sufijo
'.windowed.pi'. La versión con ventana requiere datos escalonados y, por lo tanto, el uso de este
La opción implica la opción --phased.

Salida in Otro Formatos
--O12 Esta opción genera los genotipos como una matriz grande. Se producen tres archivos. los
primero, con el sufijo '.012', contiene los genotipos de cada individuo en un
línea. Los genotipos se representan como 0, 1 y 2, donde el número representa que
número de alelos que no son de referencia. Los genotipos que faltan están representados por -1. los
segundo archivo, con el sufijo '.012.indv' detalla las personas incluidas en el
expediente. El tercer archivo, con el sufijo '.012.pos', detalla las ubicaciones del sitio incluidas en
el archivo principal.

--IMPUTAR
Esta opción genera haplotipos escalonados en formato de panel de referencia IMPUTE. Como IMPUTO
requiere datos en fases, el uso de esta opción también implica --phased. Sin fases
por tanto, se excluyen los individuos y los genotipos. Solo los sitios bialélicos son
incluido en la salida. El uso de esta opción genera tres archivos. El IMPUTO
archivo de haplotipo tiene el sufijo '.impute.hap', y el archivo de leyenda IMPUTE tiene el
sufijo '.impute.hap.legend'. El tercer archivo, con el sufijo '.impute.hap.indv',
detalla los individuos incluidos en el archivo de haplotipos, aunque este archivo no es
necesario por IMPUTE.

--ldhat

--ldhat-geno
Estas opciones generan datos en formato LDhat. El uso de estas opciones también requiere
--chr opción a por utilizado. La opción --ldhat solo genera datos por fases y, por lo tanto,
también implica - en fase, lo que lleva a que los individuos y genotipos sin fase sean
excluido. Alternativamente, la opción --ldhat-geno trata todos los datos como
sin fases y, por lo tanto, genera archivos LDhat en formato genotipo / sin fases. En cualquiera
caso, se generan dos archivos con los sufijos '.ldhat.sites' y '.ldhat.locs',
que corresponden a los archivos de entrada LDhat 'sites' y 'locs' respectivamente.

--BEAGLE-GL
Esta opción genera información de probabilidad de genotipo para ingresar en el BEAGLE
programa. Esta opción requiere que el archivo VCF contenga la etiqueta FORMAT GL, que puede
generalmente son emitidos por personas que llaman SNP como el GATK. El uso de esta opción requiere
cromosoma que se especificará mediante la opción --chr. El archivo de salida resultante (con
el sufijo '.BEAGLE.GL') contiene probabilidades de genotipo para sitios bialélicos, y es
adecuado para la entrada en BEAGLE a través del argumento 'like ='.

--plink
Esta opción genera los datos del genotipo en formato PLINK PED. Se generan dos archivos,
con los sufijos '.ped' y '.map'. Tenga en cuenta que solo se generarán loci bialélicos.
Se pueden encontrar más detalles de estos archivos en la documentación de PLINK.

Nota: esta opción puede ser muy lenta en conjuntos de datos grandes. Usando la opción --chr para
Se recomienda dividir el conjunto de datos.

--plink-tped
La opción --plink anterior puede ser extremadamente lenta en conjuntos de datos grandes. Una alternativa
que podría ser considerablemente más rápido es la salida en el formato de transposición PLINK.
Esto se puede lograr usando la opción --plink-tped, que produce dos archivos con
sufijos '.tped' y '.tfam'.

--recodificar
La opción --recode se usa para generar un archivo VCF a partir del archivo VCF de entrada que tiene
aplicó las opciones especificadas por el usuario. El archivo de salida tiene el sufijo
'.recode.vcf'.

De forma predeterminada, los campos INFO se eliminan del archivo de salida, ya que los valores INFO
puede ser invalidado por la recodificación (por ejemplo, la profundidad total puede necesitar ser
recalculado si se eliminan individuos). Esta funcionalidad predeterminada se puede
anulado mediante el uso de --keep-INFO opción, donde define el
Tecla INFO para mantener en el archivo de salida. El indicador --keep-INFO se puede utilizar en varias
veces. Alternativamente, la opción --keep-INFO-all se puede usar para retener toda la INFORMACIÓN
campos.

Observaciones
--extraer-FORMATO-info
Extraiga información de los campos de genotipo en el archivo VCF relacionada con un
Identificador de FORMATO. Por ejemplo, el uso de la opción '--extract-FORMAT-info GT'
extraer todas las entradas GT (es decir, genotipo). El archivo de salida resultante tiene
el sufijo '. .FORMATO'.

--obtener información
Esta opción se utiliza para extraer información del campo INFO en el archivo VCF. los
argumento especifica la etiqueta INFO que se extraerá, y la opción se puede
utilizado varias veces para extraer varias entradas INFO. El archivo resultante,
con el sufijo '.INFO', contiene la información INFO requerida en un formato separado por tabulaciones
mesa. Por ejemplo, para extraer las banderas NS y DB, se usaría el comando:

vcftools --vcf archivo1.vcf --get-INFO NS --get-INFO DB

VCF Archive Comparación Opciones
Las opciones de comparación de archivos se encuentran actualmente en un estado de cambio y es probable que tengan errores. Si tu
encuentra un error, infórmalo. Tenga en cuenta que los filtros a nivel de genotipo no son compatibles con estos
.

--diferencia

--gzdiff
Seleccione un archivo VCF para compararlo con el archivo especificado por la opción --vcf.
Genera dos archivos que describen los sitios y las personas comunes / exclusivas de cada uno.
expediente. Estos archivos tienen los sufijos '.diff.sites_in_files' y
'.diff.indv_in_files' respectivamente. La versión --gzdiff se puede utilizar para leer
archivos VCF comprimidos.

--diff-site-discordancia
Se usa junto con la opción --diff para calcular la discordancia en un sitio por
base del sitio. El archivo de salida resultante tiene el sufijo '.diff.sites'.

--diff-indv-discordancia
Se usa junto con la opción --diff para calcular la discordancia en un
de manera individual. El archivo de salida resultante tiene el sufijo '.diff.indv'.

--dif-discordancia-matriz
Se usa junto con la opción --diff para calcular una matriz de discordancia. Esta
La opción solo funciona con loci bialélicos con alelos coincidentes que están presentes en
ambos archivos. El archivo de salida resultante tiene el sufijo '.diff.discordance.matrix'.

--diff-switch-error
Se usa junto con la opción --diff para calcular errores de fase
(específicamente 'errores de cambio'). Esta opción genera dos archivos de salida que describen
los errores de cambio encontrados entre sitios y el error de cambio promedio por individuo.
Estos dos archivos tienen los sufijos '.diff.switch' y '.diff.indv.switch'
respectivamente.

Opciones aun in Desarrollo
Las siguientes opciones aún no se han finalizado, es probable que contengan errores y es probable
para cambiar en el futuro.

--primero

--gzfst
Calcule FST para un par de archivos VCF, con el segundo archivo especificado por este
opción. FST se calcula actualmente utilizando la fórmula descrita en el
material complementario del papel Phase I HapMap. Actualmente, solo FST por pares
Se admiten los cálculos, aunque es probable que esto cambie en el futuro. los
La opción --gzfst se puede utilizar para leer archivos VCF comprimidos.

--LROH Identificar largos períodos de homocigosidad.

- parentesco
Salida de estadísticas de parentesco individual.

Use vcftools en línea usando los servicios de onworks.net


Servidores y estaciones de trabajo gratuitos

Descargar aplicaciones de Windows y Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS ofrece funciones ANSI SQL
    y se ejecuta en Linux, Windows y
    varias plataformas Unix. Características
    excelente concurrencia y rendimiento
    & energía...
    Descargar pájaro de fuego
  • 2
    KompoZer
    KompoZer
    KompoZer es un editor HTML wysiwyg que utiliza
    el código base de Mozilla Composer. Como
    El desarrollo de Nvu se ha detenido.
    en 2005, KompoZer corrige muchos errores y
    agrega una f...
    Descargar KompoZer
  • 3
    Descargador gratuito de manga
    Descargador gratuito de manga
    Free Manga Downloader (FMD) es un
    aplicación de código abierto escrita en
    Object-Pascal para gestionar y
    descargar manga de varios sitios web.
    esto es un espejo...
    Descargar descargador de manga gratuito
  • 4
    UNetbootin
    UNetbootin
    UNetbootin le permite crear booteables
    Unidades USB en vivo para Ubuntu, Fedora y
    otras distribuciones de Linux sin
    quemando un CD. Se ejecuta en Windows, Linux,
    y ...
    Descargar UNetbootin
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM es un fácil de usar
    Paquete de software de código abierto ERP y CRM
    (ejecutar con un servidor web php o como
    software independiente) para empresas,
    cimientos...
    Descargar Dolibarr ERP - CRM
  • 6
    Cliente SQL SQuirreL
    Cliente SQL SQuirreL
    SQuirreL SQL Client es un SQL gráfico
    cliente escrito en Java que permitirá
    para ver la estructura de un JDBC
    base de datos compatible, busque los datos en
    mesas...
    Descargar cliente SQL SQuirreL
  • Más "

Comandos de Linux

Ad