IngleseFranceseSpagnolo

Ad


Favicon di OnWorks

vcftools - Online nel cloud

Esegui vcftools nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando vcftools che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


vcftools - analizza i file VCF

SINOSSI


vcftools [VERSIONI]

DESCRIZIONE


Il programma vcftools viene eseguito dalla riga di comando. L'interfaccia è ispirata a PLINK e
quindi dovrebbe essere ampiamente familiare agli utenti di quel pacchetto. I comandi hanno la forma seguente:

vcftools --vcf file1.vcf --chr 20 --freq

Il comando precedente dice a vcftools di leggere nel file file1.vcf, estrarre i siti su
cromosoma 20 e calcolare la frequenza allelica in ciascun sito. L'allele risultante
le stime di frequenza sono memorizzate nel file di output, out.freq. Come nell'esempio sopra,
l'output di vcftools viene inviato principalmente ai file di output, invece di essere mostrato sul
schermo.

Nota che alcuni comandi potrebbero essere disponibili solo nell'ultima versione di vcftools. Ottenere
l'ultima versione, dovresti usare SVN per controllare il codice più recente, come descritto sul
home page.

Si noti inoltre che i genotipi poliploidi non sono attualmente supportati.

Standard Opzioni
--vcf
Questa opzione definisce il file VCF da elaborare. I file devono essere decompressi
prima dell'uso con vcftools. vcftools prevede file in formato VCF v4.0, a
le cui specifiche sono disponibili qui.

--gzvcf
Questa opzione può essere utilizzata al posto dell'opzione --vcf per leggere i file compressi (gzip)
File VCF direttamente. Nota che questa opzione può essere piuttosto lenta se usata con large
File.

--fuori
Questa opzione definisce il prefisso del nome del file di output per tutti i file generati da vcftools.
Ad esempio, se è impostato su output_filename, quindi tutti i file di output saranno
della forma nomefile_output.*** . Se questa opzione viene omessa, tutti i file di output lo faranno
avere il prefisso 'fuori.'.

Website Filtro Opzioni
--car
Elabora solo i siti con un identificatore cromosomico corrispondente

--da-bp

--to-bp
Queste opzioni definiscono l'intervallo fisico di siti che verranno elaborati. Siti esterni
di questo intervallo saranno esclusi. Queste opzioni possono essere utilizzate solo in combinazione con
--car.

--snp
Includi SNP con ID corrispondente. Questo comando può essere utilizzato più volte in ordine
per includere più di un SNP.

--snps
Includere un elenco di SNP forniti in un file. Il file dovrebbe contenere un elenco di ID SNP,
con un ID per riga.

--escludere
Escludere un elenco di SNP fornito in un file. Il file dovrebbe contenere un elenco di ID SNP,
con un ID per riga.

--posizioni
Includere un insieme di siti sulla base di un elenco di posizioni. Ogni riga dell'input
Il file deve contenere un cromosoma (separato da tabulazioni) e una posizione. Il file dovrebbe
avere una riga di intestazione. Sono esclusi i siti non inclusi nell'elenco.

--letto

--exclude-letto
Includere o escludere un insieme di siti sulla base di un file BED. Solo i primi tre
sono necessarie le colonne (chrom, chromStart e chromEnd). Il file BED dovrebbe avere a
riga di intestazione.

--rimuovi-filtrato-tutto

--rimuovi-filtrato

--mantieni-filtrato
Queste opzioni vengono utilizzate per filtrare i siti in base al loro flag FILTER. Il
la prima opzione rimuove tutti i siti con un flag FILTER. La seconda opzione può essere utilizzata per
escludere i siti con un flag di filtro specifico. La terza opzione può essere utilizzata per selezionare
siti sulla base di specifici flag di filtro. La seconda e la terza opzione possono essere
utilizzato più volte per specificare più FILTRI. L'opzione --keep-filtered è
applicato prima dell'opzione --remove-filtered.

--minQ
Includi solo i siti con una qualità superiore a questa soglia.

--min-mediaDP

--max-mediaDP
Includere i siti con profondità media entro le soglie definite da queste opzioni.

--maf

--max-maf
Includere solo i siti con Minor Allele Frequency all'interno dell'intervallo specificato.

--non-rif-af

--max-non-ref-af
Includere solo i siti con frequenza allele non di riferimento all'interno dell'intervallo specificato.

--tinta
Valuta i siti per l'equilibrio di Hardy-Weinberg utilizzando un test esatto, come definito da
Wigginton, Cutler e Abecasis (2005). Siti con un p-value al di sotto della soglia
definiti da questa opzione sono considerati fuori HWE, e quindi esclusi.

--geno
Escludere i siti sulla base della proporzione di dati mancanti (definita tra
0 e 1).

--min-alleli

--max-alleli
Includere solo i siti con un numero di alleli compreso nell'intervallo specificato. Per
esempio, per includere solo i siti bi-allelici, si potrebbe usare:

vcftools --vcf file1.vcf --min-alleles 2 --max-alleles 2

--maschera

--maschera invertita

--maschera min
Includere siti sulla base di un file simile a FASTA. Il file fornito contiene a
sequenza di cifre intere (tra 0 e 9) per ogni posizione su un cromosoma che
specificare se un sito in quella posizione deve essere filtrato o meno. Un file maschera di esempio
sembrerebbe:

>1
0000011111222 ...

In questo esempio, i siti nel file VCF situati all'interno delle prime 5 basi del
l'inizio del cromosoma 1 verrebbe mantenuto, mentre i siti dalla posizione 6 in poi sarebbero
filtrato. L'intero di soglia che determina se i siti vengono filtrati o meno è
impostato utilizzando l'opzione --mask-min, che per impostazione predefinita è 0. I cromosomi contenuti in
il file maschera deve essere ordinato nello stesso ordine del file VCF. L'opzione --maschera
è usato per specificare il file della maschera da usare, mentre l'opzione --invert-mask può
essere utilizzato per specificare un file maschera che verrà invertito prima di essere applicato.

Individuale Filtri
--indv
Specificare un individuo da tenere nell'analisi. Questa opzione può essere utilizzata più volte
volte per specificare più individui.

--mantenere
Fornire un file contenente un elenco di individui da includere in una successiva analisi.
Ogni singolo ID (come definito nella riga di intestazione VCF) dovrebbe essere incluso in a
linea separata.

--remove-indv
Specificare un individuo da rimuovere dall'analisi. Questa opzione può essere utilizzata
più volte per specificare più individui. Se anche l'opzione --indv è
specificato, l'opzione --indv viene eseguita prima dell'opzione --remove-indv.

--rimuovere
Fornire un file contenente un elenco di individui da escludere in un'analisi successiva.
Ogni singolo ID (come definito nella riga di intestazione VCF) dovrebbe essere incluso in a
linea separata. Se vengono utilizzate entrambe le opzioni --keep e --remove, allora il
L'opzione --keep viene eseguita prima dell'opzione --remove.

--mon-indv-meanDP

--max-indv-meanDP
Calcola la copertura media su base individuale. Solo individui con
copertura all'interno dell'intervallo specificato da queste opzioni sono incluse nelle successive
analisi.

--mente
Specificare la soglia minima del tasso di chiamata per ogni individuo.

--fasato
Prima esclude tutti gli individui che hanno tutti i genotipi non in fase, e successivamente
esclude tutti i siti con genotipi non in fase. I restanti dati consistono quindi
dei soli dati per fasi.

Genotipo Filtri
--rimuovi-filtrato-geno-all

--rimuovi-geno-filtrato
La prima opzione rimuove tutti i genotipi con un flag FILTER. La seconda opzione può essere
utilizzato per escludere i genotipi con un flag di filtro specifico.

--minGQ
Escludi tutti i genotipi con una qualità inferiore alla soglia specificata da questa opzione
(GQ).

--minDP
Escludi tutti i genotipi con una profondità di sequenziamento inferiore a quella specificata da questa opzione
(SD)

Uscita Statistiche
--freq

--conta

--freq2

--conta2
Informazioni sulla frequenza di uscita per sito. Il --freq emette la frequenza allelica in a
file con il suffisso '.frq'. L'opzione --counts emette un file simile con il
suffisso '.frq.count', che contiene i conteggi degli alleli grezzi in ciascun sito. Il --freq2
e le opzioni --count2 vengono utilizzate per sopprimere le informazioni sugli alleli nel file di output. In
in questo caso, l'ordine delle frequenze/conteggi dipende dalla numerazione nel file VCF.

--profondità
Genera un file contenente la profondità media per individuo. Questo file ha il suffisso
'.profondità'.

--profondità del sito

--site-media-profondità
Genera un file contenente la profondità per sito. L'opzione --site-depth emette il
profondità per ogni sito sommato tra gli individui. Questo file ha il suffisso '.ldepth'.
Allo stesso modo, --site-mean-depth emette la profondità media per ogni sito e il
il file di output ha il suffisso '.ldepth.mean'.

--geno-profondità
Genera un file (possibilmente molto grande) contenente la profondità per ogni genotipo in
il file VCF. Alle voci mancanti viene assegnato il valore -1. Il file ha il suffisso
'.gprofondità'.

--qualità-sito
Genera un file contenente la qualità SNP per sito, come si trova nella colonna QUAL
del file VCF. Questo file ha il suffisso '.lqual'.

--het Calcola una misura dell'eterozigosi su base individuale. Nello specifico, il
coefficiente di consanguineità, F, è stimato per ogni individuo utilizzando un metodo di
momenti. Il file risultante ha il suffisso '.het'.

--resistente
Riporta un p-value per ogni sito da un test di Hardy-Weinberg Equilibrium (come definito
di Wigginton, Cutler e Abecasis (2005)). Il file risultante (con suffisso '.hwe')
contiene anche i numeri osservati di omozigoti ed eterozigoti e il
corrispondenti numeri previsti in HWE.

--mancante
Genera due file che riportano la mancanza su un per-individuo e per-sito
base. I due file hanno rispettivamente i suffissi '.imiss' e '.lmiss'.

--hap-r2

--geno-r2

--ld-finestra

--ld-finestra-bp

--min-r2
Queste opzioni vengono utilizzate per riportare le statistiche di Linkage Disequilibrium (LD) come
riassunto dalla statistica r2. L'opzione --hap-r2 informa vcftools di produrre a
file che riporta la statistica r2 utilizzando aplotipi a fasi. Questo è il tradizionale
misura della LD spesso riportata nella letteratura di genetica di popolazione. Se in fasi
gli aplotipi non sono disponibili, quindi può essere utilizzata l'opzione --geno-r2, che calcola
il quadrato del coefficiente di correlazione tra i genotipi codificati come 0, 1 e 2 a
rappresentano il numero di alleli non di riferimento in ogni individuo. Questo è lo stesso
come la misura LD riportata da PLINK. La versione dell'aplotipo emette un file con il
suffisso '.hap.ld', mentre la versione del genotipo restituisce un file con il suffisso
'.geno.ld'. La versione dell'aplotipo implica l'opzione --phased.

L'opzione --ld-window definisce la massima separazione SNP per il calcolo di
LD. Allo stesso modo, l'opzione --ld-window-bp può essere utilizzata per definire il massimo fisico
separazione degli SNP inclusi nel calcolo LD. Infine, --min-r2 imposta a
valore minimo per r2 al di sotto del quale non viene riportata la statistica LD.

--SNPdnsità
Calcola il numero e la densità di SNP in contenitori di dimensioni definite da questa opzione.
Il file di output risultante ha il suffisso '.snpden'.

--TsTV
Calcola il rapporto di transizione/trasversione in contenitori di dimensioni definite da questo
opzione. Il file di output risultante ha il suffisso '.TsTv'. Un riassunto è anche
fornito in un file con il suffisso '.TsTv.summary'.

--FILTER-sommario
Genera un riepilogo del numero di SNP e del rapporto Ts/Tv per ciascuna categoria di FILTRO.
Il file di output ha il suffisso '.FILTER.summary.

--siti-filtrati
Crea due file che elencano i siti che sono stati mantenuti o rimossi dopo il filtraggio. Il
il primo file, con suffisso '.kept.sites', elenca i siti tenuti da vcftools dopo i filtri
sono stati applicati. Il secondo file, con il suffisso '.removed.sites', elenca i siti
rimossi dai filtri applicati.

--singleton
Questa opzione genererà un file che dettaglia la posizione dei singleton e il
individuo in cui si verificano. Il file riporta sia veri singleton che privati
doubletons (cioè SNP dove l'allele minore si verifica solo in un singolo individuo e
quell'individuo è omozigote per quell'allele). Il file di output ha il suffisso
'.singleton'.

--site-pi

--finestra-pi
Queste opzioni vengono utilizzate per stimare i livelli di diversità dei nucleotidi. La prima opzione
lo fa in base al sito e il file di output ha il suffisso ".sites.pi". Il
la seconda opzione calcola la diversità dei nucleotidi nelle finestre, con la dimensione della finestra
definito nell'argomento opzione. L'output per questa opzione ha il suffisso
'.finestra.pi'. La versione in finestra richiede dati a fasi, e quindi l'uso di questo
opzione implica l'opzione --phased.

Uscita in Altro formati
--O12 Questa opzione restituisce i genotipi come una matrice grande. Vengono prodotti tre file. Il
prima, con il suffisso '.012', contiene i genotipi di ogni individuo su un separato
linea. I genotipi sono rappresentati come 0, 1 e 2, dove il numero rappresenta quello
numero di alleli non di riferimento. I genotipi mancanti sono rappresentati da -1. Il
secondo file, con suffisso '.012.indv' dettaglia gli individui inclusi nel main
file. Il terzo file, con il suffisso '.012.pos' dettaglia le posizioni del sito incluse in
il file principale.

--IMPUTARE
Questa opzione emette aplotipi a fasi nel formato pannello di riferimento IMPUTE. come IMPUTE
richiede dati in fasi, l'utilizzo di questa opzione implica anche --phased. non sfasato
individui e genotipi sono quindi esclusi. Solo i siti bi-allelici sono
incluso nell'output. L'utilizzo di questa opzione genera tre file. L'IMPUTO
aplotipo ha il suffisso '.impute.hap' e il file legenda IMPUTE ha il
suffisso '.impute.hap.legend'. Il terzo file, con suffisso '.impute.hap.indv',
dettaglia gli individui inclusi nel file dell'aplotipo, anche se questo file non lo è
necessario per IMPUTE.

--lhat

--ldhat-geno
Queste opzioni emettono dati in formato LDhat. L'uso di queste opzioni richiede anche il
--chr opzione da utilizzare. L'opzione --ldhat emette solo dati in fasi, e quindi
implica anche --phased, che porta a individui e genotipi non phased
escluso. In alternativa, l'opzione --ldhat-geno tratta tutti i dati come
unphased, e quindi genera file LDhat in formato genotype/unphased. In entrambe
caso, vengono generati due file con i suffissi '.ldhat.sites' e '.ldhat.locs',
che corrispondono rispettivamente ai file di input LDhat 'sites' e 'locs'.

--BEAGLE-GL
Questa opzione fornisce informazioni sulla probabilità del genotipo per l'input nel BEAGLE
programma. Questa opzione richiede che il file VCF contenga il tag FORMAT GL, che può
generalmente essere emesso da chiamanti SNP come il GATK. L'uso di questa opzione richiede un
cromosoma da specificare tramite l'opzione --chr. Il file di output risultante (con
il suffisso '.BEAGLE.GL') contiene le probabilità genotipiche per i siti biallelici ed è
adatto per l'input in BEAGLE tramite l'argomento 'like='.

--plink
Questa opzione emette i dati del genotipo in formato PLINK PED. Vengono generati due file,
con i suffissi '.ped' e '.map'. Notare che verranno emessi solo loci bi-allelici.
Ulteriori dettagli su questi file possono essere trovati nella documentazione di PLINK.

Nota: questa opzione può essere molto lenta su set di dati di grandi dimensioni. Usando l'opzione --chr per
si consiglia di suddividere il set di dati.

--plink-tped
L'opzione --plink sopra può essere estremamente lenta su grandi set di dati. Un'alternativa
che potrebbe essere notevolmente più veloce è l'output nel formato trasposto PLINK.
Ciò può essere ottenuto utilizzando l'opzione --plink-tped, che produce due file con
suffissi '.tped' e '.tfam'.

--ricodifica
L'opzione --recode viene utilizzata per generare un file VCF dal file VCF di input che ha
applicate le opzioni specificate dall'utente. Il file di output ha il suffisso
'.recode.vcf'.

Per impostazione predefinita, i campi INFO vengono rimossi dal file di output, come i valori INFO
potrebbe essere invalidato dalla ricodifica (ad es. potrebbe essere necessario che la profondità totale sia
ricalcolato se gli individui vengono rimossi). Questa funzionalità predefinita può essere
sovrascritto usando --keep-INFO opzione, dove definisce il
Tasto INFO da conservare nel file di output. Il flag --keep-INFO può essere usato più volte
volte. In alternativa, l'opzione --keep-INFO-all può essere utilizzata per conservare tutte le INFO
campi.

Miscellanea
--extract-FORMAT-info
Estrarre le informazioni dai campi del genotipo nel file VCF relative a uno specificato
Identificatore di FORMATO. Ad esempio, utilizzando l'opzione '--extract-FORMAT-info GT' sarebbe
estrarre tutte le voci GT (cioè Genotype). Il file di output risultante ha
il suffisso '. .FORMATO'.

--ottenere informazioni
Questa opzione viene utilizzata per estrarre informazioni dal campo INFO nel file VCF. Il
l'argomento specifica il tag INFO da estrarre e l'opzione può essere
utilizzato più volte per estrarre più voci INFO. Il file risultante,
con suffisso '.INFO', contiene le informazioni INFO richieste in una scheda separata
tavolo. Ad esempio, per estrarre i flag NS e DB, si utilizzerebbe il comando:

vcftools --vcf file1.vcf --get-INFO NS --get-INFO DB

VCF Compila il Confronto Opzioni
Le opzioni di confronto dei file sono attualmente in uno stato di flusso e probabilmente difettose. Se tu
trova un bug, segnalalo. Nota che i filtri a livello di genotipo non sono supportati in questi
opzioni.

--diff

--gzdiff
Selezionare un file VCF per il confronto con il file specificato dall'opzione --vcf.
Produce due file che descrivono i siti e gli individui comuni/unici a ciascuno
file. Questi file hanno i suffissi '.diff.sites_in_files' e
'.diff.indv_in_files' rispettivamente. La versione --gzdiff può essere usata per leggere
file VCF compressi.

--diff-site-discordanza
Usato insieme all'opzione --diff per calcolare la discordanza su un sito da
base del sito. Il file di output risultante ha il suffisso '.diff.sites'.

--diff-indv-discordanza
Usato insieme all'opzione --diff per calcolare la discordanza su un
base individuale. Il file di output risultante ha il suffisso '.diff.indv'.

--diff-discordanza-matrice
Usato insieme all'opzione --diff per calcolare una matrice di discordanza. Questo
l'opzione funziona solo con loci bi-allelici con alleli corrispondenti presenti in
entrambi i file. Il file di output risultante ha il suffisso '.diff.discordance.matrix'.

--errore-diff-switch
Usato insieme all'opzione --diff per calcolare gli errori di fase
(in particolare "errori di commutazione"). Questa opzione genera due file di output che descrivono
errori di cambio rilevati tra i siti e l'errore di cambio medio per individuo.
Questi due file hanno i suffissi '.diff.switch' e '.diff.indv.switch'
rispettivamente.

Opzioni ancora in sviluppo
Le seguenti opzioni devono ancora essere finalizzate, è probabile che contengano bug e probabilmente
cambiare in futuro.

--fst

--gzfst
Calcola FST per una coppia di file VCF, con il secondo file specificato da questo
opzione. FST è attualmente calcolato utilizzando la formula descritta nel
materiale supplementare del documento HapMap di Fase I. Attualmente, solo a coppie FST
i calcoli sono supportati, anche se questo probabilmente cambierà in futuro. Il
L'opzione --gzfst può essere utilizzata per leggere file VCF compressi.

--LROH Identificare lunghi periodi di omozigosi.

--relatività
Output statistiche sulla relazione individuale.

Utilizzare vcftools online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS offre funzionalità ANSI SQL
    e funziona su Linux, Windows e
    diverse piattaforme Unix. Caratteristiche
    concorrenza e prestazioni eccellenti
    & potenza...
    Scarica l'uccello di fuoco
  • 2
    KompoZer
    KompoZer
    KompoZer è un editor HTML wysiwyg che utilizza
    la base di codice di Mozilla Composer. Come
    Lo sviluppo di Nvu è stato interrotto
    nel 2005, KompoZer risolve molti bug e
    aggiunge una f...
    Scarica KompoZer
  • 3
    Downloader di manga gratuito
    Downloader di manga gratuito
    Il Free Manga Downloader (FMD) è un
    applicazione open source scritta
    Object-Pascal per la gestione e
    scaricare manga da vari siti web.
    Questo è uno specchio...
    Scarica il downloader manga gratuito
  • 4
    UNetbootin
    UNetbootin
    UNetbootin ti consente di creare bootable
    Unità USB live per Ubuntu, Fedora e
    altre distribuzioni Linux senza
    masterizzare un CD. Funziona su Windows, Linux,
    e ...
    Scarica UNetbootin
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM è un facile da usare
    Pacchetto software open source ERP e CRM
    (eseguito con un server Web php o come
    software standalone) per le aziende,
    fondamenta...
    Scarica Dolibarr ERP - CRM
  • 6
    Client SQL SQuirreL
    Client SQL SQuirreL
    SQuirreL SQL Client è un SQL grafico
    client scritto in Java che consentirà
    per visualizzare la struttura di un JDBC
    database conforme, sfoglia i dati in
    tavoli...
    Scarica SQuirreL SQL Client
  • Di Più "

Comandi Linux

Ad