vcftools - En ligne dans le Cloud

Exécutez vcftools dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande vcftools qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Exécuter sous Ubuntu Courir dans Fedora Exécuter dans Windows Sim Exécuter dans MACOS Sim

PROGRAMME:

Nom

vcftools - analyser les fichiers VCF

SYNOPSIS

outils vcf [OPTIONS]

DESCRIPTION

Le programme vcftools est exécuté à partir de la ligne de commande. L'interface est inspirée de PLINK, et
devrait donc être largement familier aux utilisateurs de ce package. Les commandes prennent la forme suivante :

vcftools --vcf fichier1.vcf --chr 20 --freq

La commande ci-dessus indique à vcftools de lire dans le fichier file1.vcf, extraire les sites sur
chromosome 20, et calculer la fréquence des allèles à chaque site. L'allèle résultant
les estimations de fréquence sont stockées dans le fichier de sortie, out.freq. Comme dans l'exemple ci-dessus,
la sortie de vcftools est principalement envoyée aux fichiers de sortie, au lieu d'être affichée sur le
avec l'écran du tableau des commandes prêtes.

Notez que certaines commandes peuvent uniquement être disponibles dans la dernière version de vcftools. Obtenir
la dernière version, vous devez utiliser SVN pour extraire le dernier code, comme décrit sur le
page d'accueil.

Notez également que les génotypes polyploïdes ne sont actuellement pas pris en charge.

Basic Options
--vcf
Cette option définit le fichier VCF à traiter. Les fichiers doivent être décompressés
avant de l'utiliser avec vcftools. vcftools attend des fichiers au format VCF v4.0, un
dont les spécifications peuvent être trouvées ici.

--gzvcf
Cette option peut être utilisée à la place de l'option --vcf pour lire compressé (gzippé)
fichiers VCF directement. Notez que cette option peut être assez lente lorsqu'elle est utilisée avec de grandes
fichiers.

--dehors
Cette option définit le préfixe du nom de fichier de sortie pour tous les fichiers générés par vcftools.
Par exemple, si est défini sur output_filename, alors tous les fichiers de sortie seront
de la forme nom_fichier_sortie.*** . Si cette option est omise, tous les fichiers de sortie seront
avoir le préfixe 'out.'.

site Filtre Options
--chr
Ne traiter que les sites avec une correspondance d'identifiant de chromosome

--de-pb

--to-pb
Ces options définissent la plage physique des sites qui seront traités. Sites à l'extérieur
de cette gamme seront exclus. Ces options ne peuvent être utilisées qu'avec
--chr.

--snp
Incluez les SNP avec l'ID correspondant. Cette commande peut être utilisée plusieurs fois dans l'ordre
inclure plus d'un SNP.

--snps
Inclure une liste de SNP donnée dans un fichier. Le fichier doit contenir une liste d'ID SNP,
avec un identifiant par ligne.

--exclure
Exclure une liste de SNP donnée dans un fichier. Le fichier doit contenir une liste d'ID SNP,
avec un identifiant par ligne.

--postes
Inclure un ensemble de sites sur la base d'une liste de postes. Chaque ligne de l'entrée
Le fichier doit contenir un chromosome et une position (séparés par des tabulations). Le fichier doit
avoir une ligne d'en-tête. Les sites non inclus dans la liste sont exclus.

--lit

--exclure-lit
Inclure ou exclure un ensemble de sites sur la base d'un fichier BED. Seuls les trois premiers
les colonnes (chrom, chromStart et chromEnd) sont requises. Le fichier BED doit avoir un
ligne d'en-tête.

--supprimer-tout-filtré

--remove-filtré

--garder-filtré
Ces options sont utilisées pour filtrer les sites sur la base de leur indicateur FILTER. Les
La première option supprime tous les sites avec un indicateur FILTER. La deuxième option peut être utilisée pour
exclure les sites avec un indicateur de filtre spécifique. La troisième option peut être utilisée pour sélectionner
sites sur la base d'indicateurs de filtrage spécifiques. Les deuxième et troisième options peuvent être
utilisé plusieurs fois pour spécifier plusieurs filtres. L'option --keep-filtered est
appliqué avant l'option --remove-filtered.

--minQ
N'incluez que les sites dont la qualité est supérieure à ce seuil.

--min-moyenneDP

--max-moyenneDP
Incluez les sites avec une profondeur moyenne dans les seuils définis par ces options.

--maf

--max-maf
Inclut uniquement les sites avec une fréquence allélique mineure dans la plage spécifiée.

--non-réf-af

--max-non-réf-af
Inclut uniquement les sites avec une fréquence d'allèle de non-référence dans la plage spécifiée.

--teinte
Évalue les sites pour l'équilibre de Hardy-Weinberg à l'aide d'un test exact, tel que défini par
Wigginton, Cutler et Abecasis (2005). Sites avec une valeur p inférieure au seuil
définis par cette option sont considérés comme hors HWE, et donc exclus.

--géno
Exclure les sites sur la base de la proportion de données manquantes (définie comme étant entre
0 et 1).

--min-allèles

--max-allèles
Inclut uniquement les sites avec un certain nombre d'allèles dans la plage spécifiée. Pour
exemple, pour n'inclure que les sites bi-alléliques, on pourrait utiliser :

vcftools --vcf file1.vcf --min-allèles 2 --max-allèles 2

--masque

--invert-masque

--masque-min
Inclure les sites sur la base d'un fichier de type FASTA. Le fichier fourni contient un
séquence de chiffres entiers (entre 0 et 9) pour chaque position sur un chromosome qui
spécifier si un site à cette position doit être filtré ou non. Un exemple de fichier de masque
ressemblerait à:

>1
0000011111222 ...

Dans cet exemple, les sites du fichier VCF situés dans les 5 premières bases du
le début du chromosome 1 serait conservé, tandis que les sites à partir de la position 6 seraient
filtré. L'entier de seuil qui détermine si les sites sont filtrés ou non est
défini à l'aide de l'option --mask-min, qui est par défaut à 0. Les chromosomes contenus dans
le fichier masque doit être trié dans le même ordre que le fichier VCF. L'option --mask
est utilisé pour spécifier le fichier de masque à utiliser, tandis que l'option --invert-mask peut
être utilisé pour spécifier un fichier de masque qui sera inversé avant d'être appliqué.

Individuelle Filtre(s)
--indv
Spécifiez une personne à conserver dans l'analyse. Cette option peut être utilisée plusieurs
fois pour spécifier plusieurs individus.

--garder
Fournissez un dossier contenant une liste de personnes à inclure dans une analyse ultérieure.
Chaque ID individuel (tel que défini dans la ligne d'en-tête du VCF) doit être inclus sur un
ligne séparée.

--remove-indv
Spécifiez une personne à retirer de l'analyse. Cette option peut être utilisée
plusieurs fois pour spécifier plusieurs personnes. Si l'option --indv est également
spécifié, l'option --indv est exécutée avant l'option --remove-indv.

--supprimer
Fournissez un fichier contenant une liste d'individus à exclure lors d'une analyse ultérieure.
Chaque ID individuel (tel que défini dans la ligne d'en-tête du VCF) doit être inclus sur un
ligne séparée. Si les deux options --keep et --remove sont utilisées, alors le
L'option --keep est exécutée avant l'option --remove.

--mon-indv-meanDP

--max-indv-moyenneDP
Calculez la couverture moyenne par personne. Seuls les individus avec
la couverture dans la plage spécifiée par ces options est incluse dans les
analyses.

--dérange
Spécifiez le seuil de taux d'appel minimum pour chaque individu.

--phasé
Exclut d'abord tous les individus ayant tous les génotypes non phasés, et par la suite
exclut tous les sites avec des génotypes non phasés. Les données restantes consistent donc
de données échelonnées uniquement.

Génotype Filtre(s)
--remove-filtered-geno-all

--remove-filtered-geno
La première option supprime tous les génotypes avec un indicateur FILTER. La deuxième option peut être
utilisé pour exclure les génotypes avec un indicateur de filtre spécifique.

--minGQ
Exclure tous les génotypes dont la qualité est inférieure au seuil spécifié par cette option
(GQ).

--minDP
Exclure tous les génotypes avec une profondeur de séquençage inférieure à celle spécifiée par cette option
(DAKOTA DU SUD)

Sortie Statistique
--fréq

--compte

--fréq2

--count2
Sortie des informations de fréquence par site. Le --freq sort la fréquence allélique dans un
fichier avec le suffixe '.frq'. L'option --counts génère un fichier similaire avec le
suffixe « .frq.count », qui contient le nombre brut d'allèles sur chaque site. Le --freq2
et les options --count2 sont utilisées pour supprimer les informations sur les allèles dans le fichier de sortie. Dans
dans ce cas, l'ordre des fréquences/comptes dépend de la numérotation dans le fichier VCF.

--profondeur
Génère un fichier contenant la profondeur moyenne par individu. Ce fichier a le suffixe
'.idepth'.

--site-profondeur

--site-mean-profondeur
Génère un fichier contenant la profondeur par site. L'option --site-depth renvoie le
profondeur pour chaque site additionnée pour les individus. Ce fichier a le suffixe '.ldepth'.
De même, le --site-mean-depth donne la profondeur moyenne pour chaque site, et le
le fichier de sortie a le suffixe '.ldepth.mean'.

--geno-profondeur
Génère un fichier (éventuellement très volumineux) contenant la profondeur pour chaque génotype dans
le fichier VCF. Les entrées manquantes reçoivent la valeur -1. Le fichier a le suffixe
'.gdepth'.

--qualité-site
Génère un fichier contenant la qualité SNP par site, telle que trouvée dans la colonne QUAL
du fichier VCF. Ce fichier a le suffixe '.lqual'.

--het Calcule une mesure d'hétérozygotie sur une base individuelle. Plus précisément, le
coefficient de consanguinité, F, est estimé pour chaque individu à l'aide d'une méthode de
des moments. Le fichier résultant a le suffixe '.het'.

--robuste
Rapporte une valeur p pour chaque site à partir d'un test d'équilibre de Hardy-Weinberg (tel que défini
par Wigginton, Cutler et Abecasis (2005)). Le fichier résultant (avec le suffixe '.hwe')
contient également les nombres observés d'homozygotes et d'hétérozygotes et le
nombres attendus correspondants sous HWE.

--disparu
Génère deux fichiers rapportant les manquants sur un par individu et par site
base. Les deux fichiers ont respectivement les suffixes '.imiss' et '.lmiss'.

--hap-r2

--geno-r2

--ld-fenêtre

--ld-window-bp

--min-r2
Ces options sont utilisées pour rapporter les statistiques de déséquilibre de liaison (LD) comme
résumé par la statistique r2. L'option --hap-r2 informe vcftools de sortir un
fichier rapportant la statistique r2 à l'aide d'haplotypes phasés. C'est le traditionnel
mesure de la DL souvent rapportée dans la littérature sur la génétique des populations. Si phasé
les haplotypes ne sont pas disponibles, l'option --geno-r2 peut être utilisée, qui calcule
le coefficient de corrélation au carré entre les génotypes codés comme 0, 1 et 2 à
représentent le nombre d'allèles de non-référence chez chaque individu. C'est le même
comme la mesure LD rapportée par PLINK. La version haplotype génère un fichier avec le
suffixe '.hap.ld', alors que la version génotype produit un fichier avec le suffixe
'.geno.ld'. La version haplotype implique l'option --phased.

L'option --ld-window définit la séparation SNP maximale pour le calcul de
LD. De même, l'option --ld-window-bp peut être utilisée pour définir le maximum physique
séparation des SNP inclus dans le calcul de la LD. Enfin, le --min-r2 définit un
valeur minimale pour r2 en dessous de laquelle la statistique LD n'est pas rapportée.

--SNPdnsité
Calcule le nombre et la densité de SNP dans des bacs de taille définie par cette option.
Le fichier de sortie résultant a le suffixe '.snpden'.

--TsTv
Calcule le ratio Transition / Transversion dans des cases de taille définie par ce
option. Le fichier de sortie résultant a le suffixe '.TsTv'. Un résumé est également
fourni dans un fichier avec le suffixe '.TsTv.summary'.

--FILTER-résumé
Génère un résumé du nombre de SNP et du rapport Ts/Tv pour chaque catégorie de FILTRE.
Le fichier de sortie a le suffixe '.FILTER.summary.

--sites-filtrés
Crée deux fichiers répertoriant les sites qui ont été conservés ou supprimés après filtrage. Les
le premier fichier, avec le suffixe '.kept.sites', répertorie les sites conservés par vcftools après les filtres
ont été appliqués. Le deuxième fichier, avec le suffixe '.removed.sites', répertorie les sites
supprimé par les filtres appliqués.

--célibataires
Cette option générera un fichier détaillant l'emplacement des singletons, et le
individu dans lequel ils se produisent. Le fichier rapporte à la fois de vrais singletons et des
doubletons (c'est-à-dire des SNP où l'allèle mineur n'apparaît que chez un seul individu et
cet individu est homozygote pour cet allèle). Le fichier de sortie a le suffixe
'.singletons'.

--site-pi

--window-pi
Ces options sont utilisées pour estimer les niveaux de diversité nucléotidique. La première option
le fait sur une base par site, et le fichier de sortie a le suffixe '.sites.pi'. Les
la deuxième option calcule la diversité des nucléotides dans les fenêtres, avec la taille de la fenêtre
défini dans l'argument option. La sortie de cette option a le suffixe
'.fenêtré.pi'. La version fenêtrée nécessite des données phasées, et donc l'utilisation de cette
L'option implique l'option --phased.

Sortie in Autre Formats
--O12 Cette option génère les génotypes sous la forme d'une grande matrice. Trois fichiers sont produits. Les
d'abord, avec le suffixe '.012', contient les génotypes de chaque individu sur un
ligne. Les génotypes sont représentés par 0, 1 et 2, où le nombre représente que
nombre d'allèles de non-référence. Les génotypes manquants sont représentés par -1. Les
deuxième fichier, avec le suffixe '.012.indv' détaille les individus inclus dans le fichier principal
déposer. Le troisième fichier, avec le suffixe '.012.pos' détaille les emplacements des sites inclus dans
le fichier principal.

--IMPUTER
Cette option génère des haplotypes phasés au format de panneau de référence IMPUTE. Comme IMPUTE
nécessite des données phasées, l'utilisation de cette option implique également --phased. Non phasé
les individus et les génotypes sont donc exclus. Seuls les sites bi-alléliques sont
inclus dans la sortie. L'utilisation de cette option génère trois fichiers. L'IMPUTE
haplotype a le suffixe '.impute.hap', et le fichier de légende IMPUTE a le
suffixe '.impute.hap.legend'. Le troisième fichier, avec le suffixe '.impute.hap.indv',
détaille les individus inclus dans le fichier haplotype, bien que ce fichier ne soit pas
requis par IMPUTE.

--ldhat

--ldhat-géno
Ces options génèrent des données au format LDhat. L'utilisation de ces options nécessite également la
--chr option à par utilisé. L'option --ldhat génère uniquement des données phasées, et donc
implique également --phasé, conduisant à des individus et des génotypes non phasés étant
exclu. Alternativement, l'option --ldhat-geno traite toutes les données comme
non phasé, et produit donc des fichiers LDhat au format génotype/non phasé. Dans les deux cas
cas, deux fichiers sont générés avec les suffixes '.ldhat.sites' et '.ldhat.locs',
qui correspondent respectivement aux fichiers d'entrée 'sites' et 'locs' de LDhat.

--BEAGLE-GL
Cette option génère des informations sur la probabilité de génotype à saisir dans le BEAGLE
programme. Cette option nécessite que le fichier VCF contienne la balise FORMAT GL, qui peut
généralement être émis par des appelants SNP tels que le GATK. L'utilisation de cette option nécessite un
chromosome à spécifier via l'option --chr. Le fichier de sortie résultant (avec
le suffixe '.BEAGLE.GL') contient des probabilités de génotype pour les sites bialléliques, et est
approprié pour l'entrée dans BEAGLE via l'argument 'like='.

--plink
Cette option génère les données de génotype au format PLINK PED. Deux fichiers sont générés,
avec les suffixes '.ped' et '.map'. Notez que seuls les loci bi-alléliques seront affichés.
De plus amples détails sur ces fichiers peuvent être trouvés dans la documentation PLINK.

Remarque : Cette option peut être très lente sur des ensembles de données volumineux. En utilisant l'option --chr pour
diviser l'ensemble de données est conseillé.

--plink-tped
L'option --plink ci-dessus peut être extrêmement lente sur les grands ensembles de données. Une alternative
qui pourrait être considérablement plus rapide est de produire au format transposé PLINK.
Ceci peut être réalisé en utilisant l'option --plink-tped, qui produit deux fichiers avec
suffixes '.tped' et '.tfam'.

--recoder
L'option --recode est utilisée pour générer un fichier VCF à partir du fichier VCF d'entrée ayant
appliqué les options spécifiées par l'utilisateur. Le fichier de sortie a le suffixe
'.recode.vcf'.

Par défaut, les champs INFO sont supprimés du fichier de sortie, car les valeurs INFO
peut être invalidé par le recodage (par exemple, la profondeur totale peut devoir être
recalculé si des individus sont supprimés). Cette fonctionnalité par défaut peut être
remplacé en utilisant --keep-INFO option, où définit le
Touche INFO à conserver dans le fichier de sortie. L'indicateur --keep-INFO peut être utilisé plusieurs
fois. Alternativement, l'option --keep-INFO-all peut être utilisée pour conserver toutes les INFO
champs.

Divers
--extract-FORMAT-info
Extraire les informations des champs de génotype du fichier VCF relatifs à un
Identifiant FORMAT. Par exemple, l'utilisation de l'option '--extract-FORMAT-info GT'
extraire toutes les entrées GT (c'est-à-dire le génotype). Le fichier de sortie résultant a
le suffixe '. .FORMAT'.

--get-INFO
Cette option permet d'extraire des informations du champ INFO du fichier VCF. Les
L'argument spécifie la balise INFO à extraire, et l'option peut être
utilisé plusieurs fois afin d'extraire plusieurs entrées INFO. Le fichier résultant,
avec le suffixe '.INFO', contient les informations INFO requises dans un espace séparé par des tabulations
table. Par exemple, pour extraire les flags NS et DB, on utiliserait la commande :

vcftools --vcf fichier1.vcf --get-INFO NS --get-INFO DB

VCF Déposez votre dernière attestation Comparaison Options
Les options de comparaison de fichiers sont actuellement dans un état de flux et probablement bogué. Si tu
trouvez un bogue, veuillez le signaler. Notez que les filtres au niveau du génotype ne sont pas pris en charge dans ces
options.

--diff

--gzdiff
Sélectionnez un fichier VCF à comparer avec le fichier spécifié par l'option --vcf.
Sortie de deux fichiers décrivant les sites et les individus communs/uniques à chacun
déposer. Ces fichiers ont les suffixes '.diff.sites_in_files' et
'.diff.indv_in_files' respectivement. La version --gzdiff peut être utilisée pour lire
fichiers VCF compressés.

--diff-site-discordance
Utilisé en conjonction avec l'option --diff pour calculer la discordance sur un site en
base du site. Le fichier de sortie résultant a le suffixe '.diff.sites'.

--diff-indv-discordance
Utilisé en conjonction avec l'option --diff pour calculer la discordance sur un
base individuelle. Le fichier de sortie résultant a le suffixe '.diff.indv'.

--diff-discordance-matrice
Utilisé conjointement avec l'option --diff pour calculer une matrice de discordance. Cette
l'option ne fonctionne qu'avec des loci bi-alléliques avec des allèles correspondants qui sont présents dans
les deux fichiers. Le fichier de sortie résultant a le suffixe '.diff.discordance.matrix'.

--diff-switch-erreur
Utilisé en conjonction avec l'option --diff pour calculer les erreurs de phasage
(en particulier les « erreurs de commutation »). Cette option génère deux fichiers de sortie décrivant
les erreurs de commutation trouvées entre les sites et l'erreur de commutation moyenne par individu.
Ces deux fichiers ont les suffixes '.diff.switch' et '.diff.indv.switch'
respectivement.

Options toujours in développant
Les options suivantes doivent encore être finalisées, sont susceptibles de contenir des bogues et sont susceptibles
changer à l'avenir.

--fst

--gzfst
Calculer FST pour une paire de fichiers VCF, le deuxième fichier étant spécifié par ce
option. La TVF est actuellement calculée à l'aide de la formule décrite dans le
matériel supplémentaire de l'article de Phase I HapMap. Actuellement, uniquement FST par paire
les calculs sont pris en charge, même si cela changera probablement à l'avenir. Les
L'option --gzfst peut être utilisée pour lire les fichiers VCF compressés.

--LROH Identifier les longues périodes d'homozygotie.

--relations
Statistiques de parenté individuelles de sortie.

Utiliser vcftools en ligne à l'aide des services onworks.net