IngleseFranceseSpagnolo

Ad


Favicon di OnWorks

bcftools - Online nel cloud

Esegui bcftools nel provider di hosting gratuito OnWorks su Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

Questo è il comando bcftools che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS

PROGRAMMA:

NOME


samtools - Utilità per il formato Sequence Alignment/Map (SAM)

bcftools - Utilità per il formato di chiamata binaria (BCF) e VCF

SINOSSI


vista samtools -bt ref_list.txt -o aln.bam aln.sam.gz

samtools ordina aln.bam aln.sorted

indice samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools visualizza aln.sorted.bam chr2:20,100,000-20,200,000

samtools fonde out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools pileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tvview aln.sorted.bam ref.fasta

indice bcftools in.bcf

bcftools visualizza in.bcf chr2:100-200 > out.vcf

bcftools view -Nvm0.99 in.bcf > out.vcf 2> out.afs

DESCRIZIONE


Samtools è un insieme di utilità che manipolano gli allineamenti nel formato BAM. importa
da ed esporta nel formato SAM (Sequence Alignment/Map), esegue l'ordinamento, l'unione e
indicizzazione e consente di recuperare rapidamente le letture in qualsiasi regione.

Samtools è progettato per funzionare su un flusso. Riguarda un file di input `-' come standard
input (stdin) e un file di output `-' come output standard (stdout). Diversi comandi possono
quindi essere combinato con tubi Unix. Samtools invia sempre messaggi di avviso e di errore al
output di errore standard (stderr).

Samtools è anche in grado di aprire un file BAM (non SAM) su un server FTP o HTTP remoto se il
Il nome del file BAM inizia con "ftp://" o "http://". Samtools controlla l'attuale funzionamento
directory per il file di indice e scaricherà l'indice in caso di assenza. Samtools no
recuperare l'intero file di allineamento a meno che non venga richiesto.

SAMTOOLS COMANDI E VERSIONI


vista vista samtools [-bchuHS] [-t in.refList] [-o output] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l libreria] [-r readGroup] [-R rgFile] | [regione1
[…]]

Estrai/stampa tutti o sub allineamenti in formato SAM o BAM. Se nessuna regione lo è
specificato, verranno stampati tutti gli allineamenti; altrimenti solo allineamenti
sovrapponendo le regioni specificate verrà emesso. Un allineamento può essere dato
più volte se si sovrappone a più regioni. Una regione può essere presentata,
ad esempio, nel seguente formato: `chr2' (l'intero chr2), `chr2:1000000'
(regione che inizia da 1,000,000 bp) o `chr2:1,000,000-2,000,000' (regione tra
1,000,000 e 2,000,000 bp inclusi gli end point). La coordinata è in base 1.

OPZIONI:

-b Uscita in formato BAM.

-f INT Solo allineamenti in uscita con tutti i bit in INT presenti nel campo FLAG.
INT può essere in esadecimale nel formato /^0x[0-9A-F]+/ [0]

-F INT Salta allineamenti con bit presenti in INT [0]

-h Includere l'intestazione nell'output.

-H Emetti solo l'intestazione.

-l STR L'output legge solo nella libreria STR [null]

-o RISORSE File di output [stdout]

-q INT Salta allineamenti con MAPQ minore di INT [0]

-r STR Solo letture di output nel gruppo di lettura STR [null]

-R RISORSE L'output legge nei gruppi di lettura elencati in RISORSE [nullo]

-s FLOAT Frazione di modelli/coppie da sottocampionare; viene trattata la parte intera
come seme per il generatore di numeri casuali [-1]

-S L'ingresso è in SAM. Se le righe di intestazione @SQ sono assenti, il `-t' opzione è
richiesto.

-c Invece di stampare gli allineamenti, contali solo e stampa il
numero totale. Tutte le opzioni di filtro, come `-f', `-F' ed `-q' , Sono
preso in considerazione.

-t RISORSE Questo file è delimitato da TAB. Ogni riga deve contenere il nome di riferimento
e la lunghezza del riferimento, una riga per ogni riferimento distinto;
i campi aggiuntivi vengono ignorati. Questo file definisce anche l'ordine del
sequenze di riferimento nell'ordinamento. Se esegui `samtools faidx ',
il file indice risultante .fai può essere usato come questo
file.

-u Uscita BAM non compresso. Questa opzione consente di risparmiare tempo speso su
compressione/decompressione ed è quindi preferibile quando l'uscita è
reindirizzato a un altro comando samtools.

televisione samtools tv [-p car:pos] [-s STR] [-d dalla visualizzazione] [rif.fasta]

Visualizzatore di allineamento del testo (basato sulla libreria ncurses). Nel visualizzatore, premi `?'
per chiedere aiuto e premere `g' per controllare l'allineamento inizia da una regione nel formato
come "chr10:10,000,000" o "=10,000,000" quando si visualizza lo stesso riferimento
sequenza.

Opzioni:

-d dalla visualizzazione Output come (H)tml o (C)urses o (T)ext

-p car:pos Vai direttamente a questa posizione

-s STR Visualizza solo le letture di questo campione o gruppo di lettura

compilazione accumulazione di samtools [-EBugp] [-C capQcoef] [-r reg] [-f in.fa] [-l stratagemma] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [...]]

Genera BCF o pileup per uno o più file BAM. I record di allineamento sono
raggruppati per identificatori di esempio nelle righe di intestazione @RG. Se gli identificatori del campione sono
assente, ogni file di input viene considerato come un campione.

Nel formato pile-up (senza -uor-g), ogni riga rappresenta una posizione genomica,
composto da nome del cromosoma, coordinata, base di riferimento, basi di lettura, lettura
qualità e qualità di mappatura dell'allineamento. Informazioni su corrispondenza, mancata corrispondenza,
indel, strand, mapping quality e inizio e fine di una lettura sono tutti codificati in
la colonna di base letta. In questa colonna, un punto rappresenta una corrispondenza con il riferimento
base sul filo in avanti, una virgola per una corrispondenza sul filo inverso, un '>' o
'<' per un salto di riferimento, 'ACGTN' per una mancata corrispondenza sul filo anteriore e
"acgtn" per una mancata corrispondenza sul filo inverso. Un modello `\+[0-9]+[ACGTNAcgtn]+'
indica che c'è un inserimento tra questa posizione di riferimento e la successiva
posizione di riferimento. La lunghezza dell'inserimento è data dal numero intero in
pattern, seguito dalla sequenza inserita. Allo stesso modo, un modello
`-[0-9]+[ACGTNAcgtn]+' rappresenta una cancellazione dal riferimento. Il cancellato
le basi saranno presentate come `*' nelle righe seguenti. Anche alla base di lettura
colonna, un simbolo `^' segna l'inizio di una lettura. L'ASCII del carattere
dopo `^' meno 33 fornisce la qualità della mappatura. Un simbolo `$' segna la fine di
un segmento letto.

Ingresso Opzioni:

-6 Supponiamo che la qualità sia nella codifica Illumina 1.3+. -A Non saltare
coppie di lettura anomale nella chiamata di variante.

-B Disabilita il riallineamento probabilistico per il calcolo della base
qualità dell'allineamento (BAQ). BAQ è la probabilità in scala Phred di una lettura
base disallineata. L'applicazione di questa opzione aiuta notevolmente a ridurre
falsi SNP causati da disallineamenti.

-b RISORSE Elenco dei file BAM di input, un file per riga [null]

-C INT Coefficiente per il downgrade della qualità della mappatura per le letture che contengono
disallineamenti eccessivi. Data una lettura con una probabilità scalata in phred q
di essere generato dalla posizione mappata, la nuova qualità di mappatura
riguarda sqrt((INT-q)/INT)*INT. Un valore zero lo disabilita
funzionalità; se abilitato, il valore consigliato per BWA è 50. [0]

-d INT In una posizione, leggi al massimo INT letture per ingresso BAM. [250]

-E Calcolo BAQ esteso. Questa opzione aiuta la sensibilità soprattutto per
MNP, ma possono danneggiare un po' la specificità.

-f RISORSE I faixfile di riferimento indicizzato in formato FASTA. Il file può essere
opzionalmente compresso da raschiare. [nullo]

-l RISORSE File di elenco BED o posizione contenente un elenco di regioni o siti in cui
pileup o BCF dovrebbero essere generati [null]

-q INT Qualità di mappatura minima per un allineamento da utilizzare [0]

-Q INT Qualità di base minima per una base da considerare [13]

-r STR Genera pile-up solo nella regione STR [tutti i siti]

Uscita Opzioni:

-D Profondità di lettura dell'output per campione

-g Calcola le probabilità del genotipo e generale nel formato di chiamata binaria
(FBC).

-S Valore P di polarizzazione del filo in scala Phred in uscita per campione

-u Simile a -g tranne per il fatto che l'output è BCF non compresso, che è
preferito per le tubazioni.

Opzioni per Genotipo Probabilità Calcolo (Per -g or -u):

-e INT Probabilità di errore di sequenziamento dell'estensione del gap in scala Phred. Riducendo INT
porta a indel più lunghi. [20]

-h INT Coefficiente per la modellazione degli errori degli omopolimeri. dato un l-lungo
corsa dell'omopolimero, l'errore di sequenziamento di un indel di dimensione s è modellato
as INT*s/l. [100]

-I Non effettuare chiamate INDEL

-L INT Salta la chiamata INDEL se la profondità media per campione è superiore INT.
,

-o INT Probabilità di errore di sequenziamento aperto con gap scalato in Phred. Riducendo INT leads
a più chiamate indel. [40]

-p Applicare le soglie -m e -F per campione per aumentare la sensibilità di
chiamando. Per impostazione predefinita, entrambe le opzioni vengono applicate alle letture raccolte da tutti
campioni.

-P STR Elenco di piattaforme delimitato da virgole (determinato da @RG-PL) da cui
si ottengono candidati indel. Si consiglia di raccogliere indel
candidati provenienti da tecnologie di sequenziamento che hanno un basso tasso di errore indel
come ILLUMINA. [Tutti]

intestazione samtools reheader

Sostituisci l'intestazione in in.bam con l'intestazione in in.intestazione.sam. Questo comando è
molto più veloce della sostituzione dell'intestazione con una conversione BAM->SAM->BAM.

gatto samtools cat [-h header.sam] [-o out.bam] [ ... ]

Concatena i BAM. Il dizionario di sequenza di ogni BAM di input deve essere identico,
sebbene questo comando non lo controlli. Questo comando usa un trucco simile per
intestazione che consente la concatenazione BAM veloce.

sorta samtools sort [-nof] [-m maxMem]

Ordina gli allineamenti in base alle coordinate più a sinistra. File .bam sarà creato.
Questo comando può anche creare file temporanei .%d.bam quando il tutto
l'allineamento non può essere inserito in memoria (controllato dall'opzione -m).

OPZIONI:

-o Invia l'allineamento finale all'output standard.

-n Ordina per nome letto piuttosto che per coordinate cromosomiche

-f Usa il come percorso di output completo e non aggiungere .bam suffisso.

-m INT Circa la memoria massima richiesta. [500000000]

unire samtools merge [-nur1f] [-h inh.sam] [-R reg]
[...]

Unisci più allineamenti ordinati. Gli elenchi di riferimento dell'intestazione di tutti gli input
BAM e le intestazioni @SQ di inh.sam, se del caso, devono fare tutti riferimento allo stesso
insieme di sequenze di riferimento. L'elenco di riferimento dell'intestazione e (a meno che non venga sovrascritto da
-h) `@' intestazioni di in1.bam verrà copiato in fuori.bam, e le intestazioni di altri
i file verranno ignorati.

OPZIONI:

-1 Usa il livello di compressione zlib 1 per comprimere l'output

-f Forza la sovrascrittura del file di output, se presente.

-h RISORSE Usa le linee di RISORSE come intestazioni `@' da copiare in fuori.bam, sostituendo
qualsiasi riga di intestazione che altrimenti verrebbe copiata da in1.bam. (RISORSE is
effettivamente in formato SAM, anche se tutti i record di allineamento che può contenere sono
ignorato.)

-n Gli allineamenti di input sono ordinati per nomi letti piuttosto che per cromosomi
coordinate

-R STR Unisci i file nella regione specificata indicata da STR [nullo]

-r Attacca un tag RG a ciascun allineamento. Il valore del tag è dedotto dal file
nomi.

-u Uscita BAM non compressa

Index indice samtools

Allineamento ordinato per indice per un rapido accesso casuale. File indice .bai sarà
creato.

idxstats samtools idxstats

Recupera e stampa le statistiche nel file indice. L'uscita è delimitata da TAB con
ogni riga composta da nome della sequenza di riferimento, lunghezza della sequenza, # letture mappate
e # letture non mappate.

faix samtools faidx [regione1 [...]]

Indicizza la sequenza di riferimento nel formato FASTA o estrai la sottosequenza da indicizzata
sequenza di riferimento. Se non viene specificata alcuna regione, faix indicizzerà il file e
creare .fai sul disco. Se le regioni sono specificate, le sottosequenze
verranno recuperati e stampati su stdout nel formato FASTA. Il file di input può
essere compresso nel RAZF formato.

compagno fisso samtools fixmate

Inserisci le coordinate dell'accoppiamento, ISIZE e i flag relativi all'accoppiamento da un nome ordinato
allineamento.

rmdup samtools rmdup [-sS]

Rimuovere potenziali duplicati della PCR: se più coppie di lettura hanno esterni identici
coordinate, conservare solo la coppia con la massima qualità di mappatura. Nella coppia-
end mode, questo comando SOLO funziona con orientamento FR e richiede ISIZE is
correttamente impostato. Non funziona per letture non accoppiate (ad esempio due estremità mappate su
cromosomi diversi o letture orfane).

OPZIONI:

-s Rimuovi duplicati per letture single-end. Per impostazione predefinita, il comando funziona per
solo letture paired-end.

-S Tratta le letture paired-end e le letture single-end.

calmo samtools calmd [-EeubSr] [-C capQcoef]

Genera il tag MD. Se il tag MD è già presente, questo comando darà un
avviso se il tag MD generato è diverso dal tag esistente. Uscita SAM
per impostazione predefinita.

OPZIONI:

-A Se usato insieme a -r questa opzione sovrascrive la base originale
qualità.

-e Converti a la base letta in = se è identico al riferimento allineato
base. Il chiamante Indel non supporta le basi = al momento.

-u Uscita BAM non compresso

-b Uscita compresso BAM

-S L'input è SAM con righe di intestazione

-C INT Coefficiente per limitare la qualità della mappatura delle letture mappate male. Vedi il
pileup comando per i dettagli. [0]

-r Calcola il tag BQ (senza -A) o la qualità della base del cap con BAQ (con -A).

-E Calcolo BAQ esteso. Questa opzione scambia la specificità per
sensibilità, anche se l'effetto è minore.

taglio di destinazione samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
rif]

Questo comando identifica le regioni target esaminando la continuità della lettura
profondità, calcola sequenze consenso aploidi di obiettivi e genera un SAM con
ogni sequenza corrispondente a un bersaglio. Quando opzione -f è in uso, BAQ sarà
applicato. Questo comando è esclusivamente progettato per tagliare cloni di fosmide da fosmid
sequenziamento della piscina [Rif. Kitzman et al. (2010)].

fase samtools fase [-AF] [-k len] [-b prefisso] [-q minLOD] [-Q minBaseQ]

SNP eterozigoti di chiamata e di fase. OPZIONI:

-A Drop legge con fase ambigua.

-b STR Prefisso dell'uscita BAM. Quando questa opzione è in uso, le letture della fase 0 saranno
salvato nel file STR.0.bam e la fase 1 legge in STR.1.bam. Fase sconosciuta
le letture verranno allocate casualmente a uno dei due file. Letture chimeriche
con l'interruttore gli errori verranno salvati in STR.chimerico.bam. [nullo]

-F Non tentare di correggere le letture chimeriche.

-k INT Lunghezza massima per la fasatura locale. [13]

-q INT LOD in scala Phred minimo per chiamare un eterozigote. [40]

-Q INT Qualità di base minima da utilizzare nella chiamata het. [13]

BCFTOLS COMANDI E VERSIONI


vista bcftools vista [-AbFGNQSucgv] [-D seqDict] [-l listLoci] [-s listSample] [-i
gapSNRatio] [-t mutRate] [-p varThres] [-m varThres] [-P precedente] [-1 nGruppo1]
[-d min Frac] [-U nPerme] [-X permThres] [-T trioTipo] in.bcf [regione]

Convertire tra BCF e VCF, chiamare i candidati varianti e stimare l'allele
frequenze.

Input Output Opzioni:

-A Conserva tutti i possibili alleli alternativi nei siti varianti. Per impostazione predefinita,
il comando view elimina gli alleli improbabili.

-b Uscita in formato BCF. L'impostazione predefinita è VCF.

-D RISORSE Dizionario di sequenza (elenco dei nomi dei cromosomi) per la conversione VCF->BCF
[nullo]

-F Indica che PL è generato da r921 o prima (l'ordine è diverso).

-G Sopprimere tutte le informazioni sul genotipo individuale.

-l RISORSE Elenco dei siti in cui vengono emesse le informazioni [tutti i siti]

-N Salta i siti in cui il campo REF non è A/C/G/T

-Q Emetti il ​​formato di probabilità QCALL

-s RISORSE Elenco dei campioni da utilizzare. La prima colonna nell'input fornisce il campione
nomi e il secondo dà la ploidia, che può essere solo 1 o 2. Quando
la 2a colonna è assente, si assume che la ploidia del campione sia 2. Nella
output, l'ordine dei campioni sarà identico a quello in RISORSE.
[nullo]

-S L'input è VCF invece di BCF.

-u Output BCF non compresso (forza -b).

Consenso/Variante chiamata Opzioni:

-c Chiama le varianti usando l'inferenza bayesiana. Questa opzione automaticamente
invoca l'opzione -e.

-d FLOAT Quando -v è in uso, saltare i loci in cui la frazione di campioni coperta da
read è sotto FLOAT. [0]

-e Esegui solo l'inferenza di massima verosimiglianza, inclusa la stima del sito
frequenza allelica, test dell'equilibrio di Hardy-Weinberg e test
associazioni con LRT.

-g Richiamare i genotipi per campione nei siti varianti (forza -c)

-i FLOAT Rapporto tra tasso di mutazione INDEL e SNP [0.15]

-m FLOAT Nuovo modello per una chiamata multiallelica migliorata e con varianti rare. Un altro
L'allele ALT è accettato se P(chi^2) di LRT supera la soglia FLOAT.
Il parametro sembra robusto e il valore effettivo di solito no
influenzare molto i risultati; un buon valore da usare è 0.99. Questo è il
metodo di chiamata consigliato. [0]

-p FLOAT Un sito è considerato una variante se P(ref|D)

-P STR Spettro di frequenza dell'allele precedente o iniziale. Se STR può essere pieno, condizione2,
piatto o il file costituito dall'output dell'errore di una variante precedente
chiamando correre.

-t FLOAT Tasso di muting in scala per la chiamata di varianti [0.001]

-T STR Abilita la chiamata in coppia/trio. Per la chiamata a tre, opzione -s è generalmente
doveva essere applicato per configurare i membri del trio e il loro ordinamento.
Nel file fornito all'opzione -s, il primo campione deve essere il
bambino, il secondo il padre e il terzo la madre. Il valido
valori di STR sono `pair', `trioauto', `trioxd' e `trioxs', dove
"pair" chiama le differenze tra due campioni di input e "trioxd"
("trioxs") specifica che l'input proviene dal cromosoma X non PAR
regioni e il bambino è una femmina (maschio). [nullo]

-v Solo siti variante di output (forza -c)

Confrontare chiamata ed Associazione Test Opzioni:

-1 INT Numero di campioni del gruppo 1. Questa opzione viene utilizzata per dividere il
campioni in due gruppi per l'identificazione del contrasto SNP o il test di associazione.
Quando questa opzione è in uso, verranno emesse le seguenti INFO VCF:
PC2, PCHI2 e QCHI2. [0]

-U INT Numero di permutazioni per test di associazione (efficace solo con -1)
,

-X FLOAT Esegui solo permutazioni per P(chi^2) -U)
,

Index bcftools Index in.bcf

Indice BCF ordinato per l'accesso casuale.

gatto bcftools gatto in1.bcf [in2.bcf [...]]]

Concatena file BCF. I file di input devono essere ordinati e avere
campioni identici che appaiono nello stesso ordine.

SAM FORMATO


Il formato Sequence Alignment/Map (SAM) è delimitato da TAB. A parte le righe di intestazione, che
iniziano con il simbolo `@', ogni linea di allineamento è composta da:

? ?
Berretto o sciarpaSettoreDescrizione
? ?
│ 1 │ QNAME │ Modello di query/coppia NOME │
│ 2 │ FLAG │ FLAG bit per bit │
│ 3 │ RNAME │ Sequenza di riferimento NAME │
│ 4 │ POS │ POSizione/coordinata più a sinistra in base 1 della sequenza ritagliata │
│ 5 │ MAPQ │ Qualità MAPping (scala Phred) │
│ 6 │ CIAGR │ stringa SIGAR estesa │
│ 7 │ MRNM │ Sequenza di riferimento dell'accoppiamento NaMe (`=' se uguale a RNAME) │
│ 8 │ MPOS │ Posizione di accoppiamento basata su 1 │
│ 9 │ TLEN │ dedotto Template LENgth (dimensione inserto) │
│10 │ SEQ │ interroga SEQuence sullo stesso filamento del riferimento │
│11 │ QUAL │ qualità query (ASCII-33 fornisce la qualità di base Phred) │
│12+ │ OPT │ campi OPZIONALI variabili nel formato TAG:VTYPE:VALUE │
? ?

Ogni bit nel campo FLAG è definito come:

? ?
BandieraChrDescrizione
? ?
│0x0001 │ p │ la lettura è accoppiata in sequenza │
│0x0002 │ P │ la lettura è mappata in una coppia appropriata │
│0x0004 │ u │ la sequenza di query stessa non è mappata │
│0x0008 │ U │ il compagno non è mappato │
│0x0010 │ r │ strand della query (1 per invertire) │
│0x0020 │ R │ filo del compagno │
│0x0040 │ 1 │ la lettura è la prima lettura in una coppia │
│0x0080 │ 2 │ la lettura è la seconda lettura in una coppia │
│0x0100 │ s │ l'allineamento non è primario │
│0x0200 │ f │ la lettura fallisce i controlli di qualità della piattaforma/fornitore │
│0x0400 │ d │ la lettura è una PCR o un duplicato ottico │
? ?
dove la seconda colonna fornisce la rappresentazione di stringa del campo FLAG.

VCF FORMATO


Il Variant Call Format (VCF) è un formato delimitato da TAB con ciascuna linea dati composta da
i seguenti campi:

? ?
Berretto o sciarpaSettoreDescrizione
? ?
│ 1 │ CHROM │ Nome CHROMosoma │
│ 2 │ POS │ la POSizione più a sinistra della variante │
│ 3 │ ID │ ID variante univoco │
│ 4 │ REF │ l'allele REFERENCE │
│ 5 │ ALT │ gli alleli ALTernate, separati da virgola │
│ 6 │ QUAL │ variante/qualità di riferimento │
│ 7 │ FILTRO │ FILTRI applicati │
│ 8 │ INFO │ INFORMAZIONI relative alla variante, separate da punto e virgola │
│ 9 │ FORMAT │ FORMAT dei campi del genotipo, separati da due punti (opzionale) │
│10+ │ CAMPIONE │ Genotipi CAMPIONE e informazioni per campione (opzionale) │
? ?

La tabella seguente fornisce il INFO tag utilizzati da samtools e bcftools.

? ? ?
EtichettaFormatoDescrizione
? ? ?
? ? ?

ESEMPI


o Importa SAM in BAM quando @SQ le righe sono presenti nell'intestazione:

samtools view -bS aln.sam > aln.bam

If @SQ le righe sono assenti:

samtools faidx rif.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam

where rif.fa.fai è generato automaticamente dal faix comando.

o Allega il RG tag durante l'unione di allineamenti ordinati:

perl -e 'print
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

Il valore in a RG tag è determinato dal nome del file da cui proviene la lettura. In questo
esempio, in fuso.bam, legge da ga.bam sarà allegato RG:Z:ga, mentre legge da
454.bam sarà allegato RG:Z:454.

o Call SNPs e short INDEL per un individuo diploide:

samtools mpileup -ugf ref.fa aln.bam | bcftools view -bvcg -> var.raw.bcf
bcftools visualizza var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

I -D l'opzione di varFilter controlla la profondità di lettura massima, che dovrebbe essere regolata su
circa il doppio della profondità di lettura media. Si può considerare di aggiungere C50 a compilazione se mappatura
la qualità è sovrastimata per le letture che contengono disallineamenti eccessivi. Applicando questa opzione
di solito aiuta BWA-corto ma non altri mappatori.

o Generare la sequenza di consenso per un individuo diploide:

samtools mpileup -uf ref.fa aln.bam | bcftools vista -cg - | vcfutils.pl vcf2fq >
cns.fq

o Chiamare le mutazioni somatiche da una coppia di campioni:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT coppia -> var.bcf

Nel campo INFO uscita, CLR fornisce il rapporto Phred-log tra la verosimiglianza per
trattando i due campioni in modo indipendente e la probabilità richiedendo al genotipo di
essere identico. Questo CLR è effettivamente un punteggio che misura la fiducia del somatico
chiamate. Più alto è, meglio è.

o Call de novo e mutazioni somatiche da un trio familiare:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT coppia -s campioni.txt - >
var.bcf

Compila il campioni.txt dovrebbe consistere di tre righe che specificano il membro e l'ordine di
campioni (nell'ordine bambino-padre-madre). Allo stesso modo, CLR dà il Phred-log
rapporto di verosimiglianza con e senza il vincolo del trio. UGT mostra il più probabile
configurazione del genotipo senza il vincolo del trio, e CGT dà il più probabile
configurazione del genotipo che soddisfa il vincolo del trio.

o Fase uno individuale:

samtools calmd -AEur aln.bam ref.fa | samtools prefisso fase -b -> phase.out

I calmo comando viene utilizzato per ridurre i falsi eterozigoti attorno agli INDEL.

o Chiama SNP e short indel per più individui diploidi:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools view -bcvg -> var.raw.bcf
bcftools visualizza var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

Gli individui sono identificati dal SM tag nel @RG righe di intestazione. Gli individui possono essere
raggruppati in un file di allineamento; un individuo può anche essere separato in più file.
I -P opzione specifica che i candidati indel devono essere raccolti solo da gruppi di lettura
con la @RG-PL tag impostato su ILLUMINAZIONE. Raccolta di candidati indel da letture sequenziate
da una tecnologia indel-prone può influenzare le prestazioni della chiamata indel.

Nota che c'è un nuovo modello di chiamata che può essere invocato da

bcftools vista -m0.99 ...

che risolve alcune gravi limitazioni del metodo predefinito.

Per il filtraggio, i risultati migliori sembrano essere ottenuti applicando prima il SnpGap filtro e
quindi applicando un approccio di apprendimento automatico

vcf-annotate -f SnpGap=n
filtro vcf...

Entrambi possono essere trovati in vcftools ed htslib pacchetto (link sotto).

o Ricavare lo spettro di frequenza allelica (AFS) su un elenco di siti da più individui:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

where siti.lista contiene l'elenco dei siti con ogni riga costituita dal riferimento
nome e posizione della sequenza. Il seguente bcftools i comandi stimano AFS da EM.

o Dump BAQ applicato allineamento per altri chiamanti SNP:

samtools calmd -bAr aln.bam > aln.baq.bam

Aggiunge e corregge il NM ed MD tag allo stesso tempo. Il calmo arriva anche il comando
con la -C opzione, la stessa di quella in pileup ed compilazione. Applicare se aiuta.

LIMITAZIONI


o Parole non allineate utilizzate in bam_import.c, bam_endian.h, bam.c e bam_aux.c.

o L'rmdup paired-end di Samtools non funziona per le letture non accoppiate (ad es. letture orfane o termina
mappato su cromosomi diversi). Se questo è un problema, usa Picard's
MarkDuplicate che gestisce correttamente questi casi, anche se un po' più lento.

Usa bcftools online utilizzando i servizi onworks.net


Server e workstation gratuiti

Scarica app per Windows e Linux

  • 1
    Firebird
    Firebird
    Firebird RDBMS offre funzionalità ANSI SQL
    e funziona su Linux, Windows e
    diverse piattaforme Unix. Caratteristiche
    concorrenza e prestazioni eccellenti
    & potenza...
    Scarica l'uccello di fuoco
  • 2
    KompoZer
    KompoZer
    KompoZer è un editor HTML wysiwyg che utilizza
    la base di codice di Mozilla Composer. Come
    Lo sviluppo di Nvu è stato interrotto
    nel 2005, KompoZer risolve molti bug e
    aggiunge una f...
    Scarica KompoZer
  • 3
    Downloader di manga gratuito
    Downloader di manga gratuito
    Il Free Manga Downloader (FMD) è un
    applicazione open source scritta
    Object-Pascal per la gestione e
    scaricare manga da vari siti web.
    Questo è uno specchio...
    Scarica il downloader manga gratuito
  • 4
    UNetbootin
    UNetbootin
    UNetbootin ti consente di creare bootable
    Unità USB live per Ubuntu, Fedora e
    altre distribuzioni Linux senza
    masterizzare un CD. Funziona su Windows, Linux,
    e ...
    Scarica UNetbootin
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM è un facile da usare
    Pacchetto software open source ERP e CRM
    (eseguito con un server Web php o come
    software standalone) per le aziende,
    fondamenta...
    Scarica Dolibarr ERP - CRM
  • 6
    Client SQL SQuirreL
    Client SQL SQuirreL
    SQuirreL SQL Client è un SQL grafico
    client scritto in Java che consentirà
    per visualizzare la struttura di un JDBC
    database conforme, sfoglia i dati in
    tavoli...
    Scarica SQuirreL SQL Client
  • Di Più "

Comandi Linux

Ad