EngelsFransSpaans

Ad


OnWorks-favicon

bcftools - Online in de cloud

Voer bcftools uit in de gratis hostingprovider van OnWorks via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht bcftools die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


samtools - Hulpprogramma's voor het formaat Sequence Alignment/Map (SAM).

bcftools - Hulpprogramma's voor het Binary Call Format (BCF) en VCF

KORTE INHOUD


samtools-weergave -bt ref_list.txt -o aln.bam aln.sam.gz

samtools sorteren aln.bam aln.gesorteerd

samtools index aln.gesorteerd.bam

samtools idxstats aln.gesorteerd.bam

samtools bekijk aln.sorted.bam chr2:20,100,000-20,200,000

samtools samenvoegen uit.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools Pileup -vcf ref.fasta aln.gesorteerd.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools-index in.bcf

bcftools bekijken in.bcf chr2:100-200 > out.vcf

bcftools-weergave -Nvm0.99 in.bcf > out.vcf 2> out.afs

PRODUCTBESCHRIJVING


Samtools is een set hulpprogramma's die uitlijningen in het BAM-formaat manipuleren. Het importeert
van en exporteert naar het SAM (Sequence Alignment/Map) formaat, sorteert, samenvoegt en
indexering en maakt het mogelijk om reads in alle regio's snel op te halen.

Samtools is ontworpen om aan een stream te werken. Het beschouwt een invoerbestand `-' als de standaard
invoer (stdin) en een uitvoerbestand `-' als de standaarduitvoer (stdout). Verschillende commando's kunnen
dus te combineren met Unix-pipes. Samtools stuurt altijd waarschuwings- en foutmeldingen naar het
standaard foutuitvoer (stderr).

Samtools kan ook een BAM-bestand (niet SAM-bestand) openen op een externe FTP- of HTTP-server als het
De BAM-bestandsnaam begint met `ftp://' of `http://'. Samtools controleert de huidige werking
directory voor het indexbestand en downloadt de index bij afwezigheid. Samtools niet
haal het volledige uitlijningsbestand op, tenzij hierom wordt gevraagd.

SAMTOOLS COMMANDO'S EN OPTIES


view samtools-weergave [-bchuHS] [-t in.refList] [-o output] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l bibliotheek] [-r readGroup] [-R rgFile] | [regio1


Extraheer/print alle of sub-uitlijningen in SAM- of BAM-indeling. Als er geen regio is
opgegeven, worden alle uitlijningen afgedrukt; anders alleen uitlijningen
overlapping van de gespecificeerde regio's zal worden uitgevoerd. Er kan een uitlijning worden gegeven
meerdere keren als het meerdere regio's overlapt. Er kan een regio worden gepresenteerd,
bijvoorbeeld in het volgende formaat: `chr2' (de hele chr2), `chr2:1000000'
(regio vanaf 1,000,000bp) of `chr2:1,000,000-2,000,000' (regio tussen
1,000,000 en 2,000,000bp inclusief de eindpunten). De coördinaat is gebaseerd op 1.

OPTIES:

-b Uitvoer in het BAM-formaat.

-f INT Voer alleen uitlijningen uit met alle bits in INT aanwezig in het veld FLAG.
INT kan in hex zijn in de indeling /^0x[0-9A-F]+/ [0]

-F INT Uitlijningen overslaan met bits aanwezig in INT [0]

-h Neem de koptekst op in de uitvoer.

-H Voer alleen de koptekst uit.

-l STR Alleen uitvoer leest in bibliotheek STR [null]

-o FILE Uitvoerbestand [stdout]

-q INT Uitlijningen overslaan met MAPQ kleiner dan INT [0]

-r STR Alleen uitvoer leest in leesgroep STR [null]

-R FILE Uitvoerlezingen in leesgroepen vermeld in FILE [nul]

-s FLOAT Fractie van sjablonen/paren voor subsampling; het gehele deel wordt behandeld
als kiem voor de generator van willekeurige getallen [-1]

-S Invoer is in SAM. Als @SQ-kopregels ontbreken, wordt de `-t' Optie is
vereist.

-c In plaats van de uitlijningen af ​​te drukken, telt u ze alleen en drukt u ze af
totaal aantal. Alle filteropties, zoals `-f', `-F' en `-q' , Zijn
rekening mee gehouden.

-t FILE Dit bestand is TAB-gescheiden. Elke regel moet de referentienaam bevatten
en de lengte van de referentie, één regel voor elke afzonderlijke referentie;
extra velden worden genegeerd. Dit bestand definieert ook de volgorde van de
referentiereeksen bij het sorteren. Als u `samtools faidx ',
het resulterende indexbestand .fai kan zo gebruikt worden
bestand.

-u Voer ongecomprimeerde BAM uit. Deze optie bespaart tijd besteed aan
compressie/decompressie en heeft dus de voorkeur wanneer de uitvoer is
doorgesluisd naar een ander samtools-commando.

tv-kijken samtools tview [-p chr: pos] [-s STR] [-d tonen] [ref.fasta]

Tekstuitlijningsviewer (gebaseerd op de ncurses-bibliotheek). Druk in de viewer op `?'
voor hulp en druk op `g' om te controleren of de uitlijning start vanaf een regio in het formaat
zoals `chr10:10,000,000' of `=10,000,000' bij het bekijken van dezelfde referentie
volgorde.

Opties:

-d tonen Uitvoer als (H)tml of (C)urses of (T)ext

-p chr: pos Ga direct naar deze vacature

-s STR Toont alleen uitlezingen van dit voorbeeld of deze leesgroep

mpile-up samtools mpileup [-EBugp] [-C capQcoef] [-r reg] [-f in.fa] [-l lijst] [-M
capMapQ] [-Q minBaseQ] [-q minKaartQ] in.bam [in2.bam [...]]

Genereer BCF of pileup voor een of meerdere BAM-bestanden. Uitlijningsrecords zijn
gegroepeerd op voorbeeld-ID's in @RG-kopregels. Als voorbeeld-ID's zijn
afwezig, wordt elk invoerbestand als één monster beschouwd.

In het pileup-formaat (zonder -uor-g), elke lijn vertegenwoordigt een genomische positie,
bestaande uit chromosoomnaam, coördinaat, referentiebasis, gelezen bases, gelezen
kwaliteiten en afstemming mapping kwaliteiten. Informatie over match, mismatch,
indel, strand, mapping quality en start en end of a read zijn allemaal gecodeerd op
de gelezen basiskolom. Bij deze kolom staat een punt voor een overeenkomst met de referentie
basis op de voorwaartse streng, een komma voor een match op de omgekeerde streng, een '>' of
'<' voor een referentiesprong, `ACGTN' voor een mismatch op de voorwaartse streng en
`acgtn' voor een mismatch op de omgekeerde streng. Een patroon `\+[0-9]+[ACGTAcgtn]+'
geeft aan dat er een invoeging is tussen deze referentiepositie en de volgende
referentie positie. De lengte van de insertie wordt gegeven door het gehele getal in de
patroon, gevolgd door de ingevoegde reeks. Zo ook een patroon
`-[0-9]+[ACGTAcgtn]+' staat voor een verwijdering uit de referentie. De verwijderde
basen worden weergegeven als `*' in de volgende regels. Ook bij de leesbasis
kolom markeert een symbool `^' het begin van een lezing. De ASCII van het personage
volgende `^' minus 33 geeft de kaartkwaliteit. Een symbool `$' markeert het einde van
een leesfragment.

Invoer Opties:

-6 Neem aan dat de kwaliteit in de Illumina 1.3+ codering is. -A Niet overslaan
afwijkende leesparen in variantaanroepen.

-B Schakel probabilistische herschikking uit voor de berekening van het grondtal
uitlijnkwaliteit (BAQ). BAQ is de op Phred geschaalde waarschijnlijkheid van een uitlezing
basis niet goed uitgelijnd. Het toepassen van deze optie helpt enorm om te verminderen
valse SNP's veroorzaakt door verkeerde uitlijningen.

-b FILE Lijst met ingevoerde BAM-bestanden, één bestand per regel [null]

-C INT Coëfficiënt voor het downgraden van de kaartkwaliteit voor reads met
buitensporige mismatches. Gegeven een lezing met een phred-geschaalde waarschijnlijkheid q
gegenereerd vanuit de in kaart gebrachte positie, de nieuwe kaartkwaliteit
gaat over sqrt((INT-q)/INT)*INT. Een nulwaarde schakelt dit uit
functionaliteit; indien ingeschakeld, is de aanbevolen waarde voor BWA 50. [0]

-d INT Lees bij een positie maximaal INT leest per invoer BAM. [250]

-E Uitgebreide BAQ-berekening. Deze optie helpt de gevoeligheid vooral voor
MNP's, maar kunnen de specificiteit een beetje schaden.

-f FILE De faidx-geïndexeerd referentiebestand in het FASTA-formaat. Het bestand kan zijn
eventueel gecomprimeerd door razip. [nul]

-l FILE BED- of positielijstbestand met een lijst met regio's of locaties waar
pileup of BCF moet worden gegenereerd [null]

-q INT Minimale mappingkwaliteit voor een te gebruiken alignement [0]

-Q INT Minimale basiskwaliteit voor een in aanmerking te nemen basis [13]

-r STR Genereer alleen een opstapeling in de regio STR [alle sites]

uitgang Opties:

-D Uitvoer per monster leesdiepte

-g Bereken genotype-waarschijnlijkheden en voer ze uit in het binaire oproepformaat
(BCF).

-S Uitvoer per monster Phred-geschaalde strengbias P-waarde

-u Soortgelijke -g behalve dat de uitvoer ongecomprimeerde BCF is, dat is
voorkeur voor leidingen.

Opties For Genotype waarschijnlijkheid Computation (Voor -g or -u):

-e INT Phred-geschaalde gap extension sequencing foutkans. Verminderen INT
leidt tot langere indels. [20]

-h INT Coëfficiënt voor het modelleren van homopolymeerfouten. Gegeven een l-lange
homopolymer run, de sequentiefout van een indel van grootte s wordt gemodelleerd
as INT*s/l. [100]

-I Voer geen INDEL-oproepen uit

-L INT Sla INDEL-oproepen over als de gemiddelde diepte per monster hoger is INT.
[250]

-o INT Phred-geschaalde gap open sequencing foutkans. Verminderen INT leidt
naar meer indel-oproepen. [40]

-p Pas -m en -F drempels toe per monster om de gevoeligheid van te verhogen
roeping. Standaard worden beide opties toegepast op reads pooled from all
samples.

-P STR Door komma's gescheiden lijst van platforms (bepaald door @RG-PL) van welke
indel-kandidaten worden verkregen. Het wordt aanbevolen om indel te verzamelen
kandidaten van sequencing-technologieën met een laag indel-foutpercentage
zoals ILLUMINA. [alle]

herkoper samtools reheader

Plaats de koptekst erin in.bam met de kop erin in.header.sam. Dit commando is
veel sneller dan het vervangen van de header door een BAM->SAM->BAM-conversie.

hoe samtools cat [-h header.sam] [-o out.bam] [ ... ]

BAM's samenvoegen. Het sequentiewoordenboek van elke invoer-BAM moet identiek zijn,
hoewel dit commando dit niet controleert. Deze opdracht gebruikt een soortgelijke truc als
herkoper waardoor snelle BAM-aaneenschakeling mogelijk is.

sorteren samtools sorteren [-nof] [-m maxMem]

Sorteer uitlijningen op meest linkse coördinaten. Bestand .bam zal gemaakt worden.
Deze opdracht kan ook tijdelijke bestanden maken .%d.bam wanneer het geheel
uitlijning kan niet in het geheugen worden ingepast (bestuurd door optie -m).

OPTIES:

-o Voer de definitieve uitlijning uit naar de standaarduitvoer.

-n Sorteer op gelezen namen in plaats van op chromosomale coördinaten

-f Te gebruiken als het volledige uitvoerpad en niet toevoegen .bam achtervoegsel.

-m INT Ongeveer het maximaal benodigde geheugen. [500000000]

samensmelten samtools samenvoegen [-nur1f] [-h inh.sam] [-R reg]
[...]

Meerdere gesorteerde uitlijningen samenvoegen. De header-referentielijsten van alle invoer
BAM-bestanden en de @SQ-headers van inh.sam, indien van toepassing, moeten allemaal naar hetzelfde verwijzen
reeks referentiesequenties. De header-referentielijst en (tenzij overschreven door
-h) `@'-koppen van in1.bam zal worden gekopieerd naar uit.bam, en de headers van andere
bestanden worden genegeerd.

OPTIES:

-1 Gebruik zlib-compressieniveau 1 om de uitvoer te comprimeren

-f Forceer het uitvoerbestand, indien aanwezig.

-h FILE Gebruik de regels van FILE als `@'-headers waarnaar moet worden gekopieerd uit.bam, vervangen
alle kopregels waaruit anders zou worden gekopieerd in1.bam. (FILE is
eigenlijk in SAM-formaat, hoewel alle uitlijningsrecords die het kan bevatten dat wel zijn
buiten beschouwing gelaten.)

-n De invoeruitlijningen worden gesorteerd op leesnamen in plaats van op chromosomaal
coördinaten

-R STR Voeg bestanden samen in de opgegeven regio aangegeven met STR [nul]

-r Bevestig een RG-tag aan elke uitlijning. De tagwaarde wordt afgeleid uit het bestand
namen.

-u Ongecomprimeerde BAM-uitvoer

index samtools-index

Index gesorteerde uitlijning voor snelle willekeurige toegang. Index bestand .bai zal zijn
aangemaakt.

IDxstats samtools idxstats

Statistieken ophalen en afdrukken in het indexbestand. De uitvoer wordt door TAB gescheiden
elke regel die bestaat uit de naam van de referentiereeks, de lengte van de reeks, # toegewezen reads
en # niet-toegewezen reads.

faidx samtools faidx [regio1 [...]]

Indexeer de referentiereeks in het FASTA-formaat of extraheer de subreeks uit geïndexeerd
referentie volgorde. Als er geen regio is opgegeven, faidx indexeert het bestand en
en je merk te creëren .fai op de schijf. Als regio's zijn gespecificeerd, de subreeksen
wordt opgehaald en afgedrukt naar stdout in het FASTA-formaat. Het invoerbestand kan
worden gecomprimeerd in de RAZF formaat.

vaste partner samtools fixmate

Vul partnercoördinaten in, ISIZE en partnergerelateerde vlaggen van een op naam gesorteerd
uitlijning.

rmdup samtools rmdup [-sS]

Verwijder potentiële PCR-duplicaten: als meerdere leesparen identieke externe hebben
coördinaten, bewaar alleen het paar met de hoogste kaartkwaliteit. In de koppel-
eindmodus, dit commando werkt met FR oriëntatie en vereist ISIZE is
correct ingesteld. Het werkt niet voor ongepaarde leesbewerkingen (bijvoorbeeld twee uiteinden toegewezen aan
verschillende chromosomen of weesaflezingen).

OPTIES:

-s Verwijder duplicaat voor single-end reads. Standaard werkt de opdracht voor
paired-end leest alleen.

-S Behandel paired-end reads en single-end reads.

rustig samtools kalm [-EeubSr] [-C capQcoef]

Genereer de MD-tag. Als de MD-tag al aanwezig is, geeft dit commando een
waarschuwing als de gegenereerde MD-tag verschilt van de bestaande tag. Uitgang SAM
standaard.

OPTIES:

-A Bij gebruik samen met -r deze optie overschrijft de originele basis
kwaliteit.

-e Converteer de gelezen basis naar = als deze identiek is aan de uitgelijnde referentie
baseren. Indel-caller ondersteunt momenteel de =-bases niet.

-u Voer ongecomprimeerde BAM uit

-b Uitvoer gecomprimeerde BAM

-S De invoer is SAM met kopregels

-C INT Coëfficiënt om de mappingkwaliteit van slecht toegewezen reads te beperken. Zie de
opstapelen opdracht voor details. [0]

-r Bereken de BQ-tag (zonder -A) of cap-basiskwaliteit door BAQ (met -A).

-E Uitgebreide BAQ-berekening. Deze optie ruilt specificiteit voor
gevoeligheid, hoewel het effect gering is.

doelbesnoeiing samtools targetcut [-Q minBaseQ] [-i in Penalty] [-0 em0] [-1 em1] [-2 em2] [-f
referentie]

Deze opdracht identificeert doelgebieden door de continuïteit van het lezen te onderzoeken
diepte, berekent haploïde consensusreeksen van doelen en voert een SAM uit met
elke reeks correspondeert met een doel. Wanneer optie -f in gebruik is, zal BAQ dat zijn
toegepast. Deze opdracht is Slechts ontworpen voor het snijden van fosmid-klonen uit fosmid
poolvolgorde [Ref. Kitzman et al. (2010)].

fase samtools fase [-AF] [-k len] [-b prefix] [-q minLOD] [-Q minBaseQ]

Roep heterozygote SNP's op en faseer ze. OPTIES:

-A Drop-lezingen met dubbelzinnige fase.

-b STR Voorvoegsel van BAM-uitvoer. Wanneer deze optie in gebruik is, zijn fase-0-uitlezingen
opgeslagen in bestand STR.0.bam en fase-1 leest in STR.1.bam. Fase onbekend
reads worden willekeurig toegewezen aan een van de twee bestanden. Chimeer leest
met schakelfouten worden opgeslagen in STR.chimeer.bam. [nul]

-F Probeer geen chimere uitlezingen te corrigeren.

-k INT Maximale lengte voor lokale fasering. [13]

-q INT Minimale Phred-geschaalde LOD om een ​​heterozygoot te noemen. [40]

-Q INT Minimale basiskwaliteit te gebruiken in haar roeping. [13]

BCFTOOLS COMMANDO'S EN OPTIES


view bctools view [-AbFGNQSucgv] [-D vervolgDict] [-l lijstLoci] [-s lijstSample] [-i
kloofSNVerhouding] [-t MutRate] [-p varThres] [-m varThres] [-P voorafgaand] [-1 nGroep1]
[-d minFrac] [-U nPerm] [-X permThres] [-T trioType] in.bcf [regio]

Converteer tussen BCF en VCF, roep variantkandidaten op en schat het allel
frequenties.

Input / Output Opties:

-A Behoud alle mogelijke alternatieve allelen op variantlocaties. Standaard,
het view-commando verwijdert onwaarschijnlijke allelen.

-b Uitvoer in BCF-formaat. De standaardwaarde is VCF.

-D FILE Sequentiewoordenboek (lijst met chromosoomnamen) voor VCF->BCF-conversie
[nul]

-F Geef aan dat PL is gegenereerd door r921 of eerder (volgorde is anders).

-G Onderdruk alle individuele genotype-informatie.

-l FILE Lijst met sites waarop informatie wordt uitgevoerd [alle sites]

-N Sla sites over waar het REF-veld niet A/C/G/T is

-Q Voer het waarschijnlijkheidsformaat QCALL uit

-s FILE Lijst met te gebruiken voorbeelden. De eerste kolom in de invoer geeft het voorbeeld
namen en de tweede geeft de ploïdie, die alleen 1 of 2 kan zijn. Wanneer
de 2e kolom ontbreekt, wordt aangenomen dat de steekproefploïdie 2 is. In de
output, zal de volgorde van monsters identiek zijn aan die in FILE.
[nul]

-S De invoer is VCF in plaats van BCF.

-u Ongecomprimeerde BCF-uitvoer (force -b).

Consensus/variant het roepen Opties:

-c Roep varianten aan met behulp van Bayesiaanse inferentie. Deze optie automatisch
roept optie op -e.

-d FLOAT . -v in gebruik is, slaat u loci over waar de fractie monsters onder valt
leest is lager dan FLOAT. [0]

-e Voer alleen max-likelihood-inferentie uit, inclusief het schatten van de site
allelfrequentie, testen van Hardy-Weinberg-evenwicht en testen
associaties met LRT.

-g Genotypes per steekproef aanroepen op variantsites (force -c)

-i FLOAT Verhouding van INDEL-naar-SNP-mutatiesnelheid [0.15]

-m FLOAT Nieuw model voor verbeterde multiallelische en zeldzame varianten. Een andere
Het ALT-allel wordt geaccepteerd als P(chi^2) van LRT de FLOAT-drempel overschrijdt.
De parameter lijkt robuust en de werkelijke waarde meestal niet
veel invloed op de resultaten; een goede waarde om te gebruiken is 0.99. Dit is de
aanbevolen aanroepmethode. [0]

-p FLOAT Een site wordt beschouwd als een variant als P(ref|D)

-P STR Eerder of initieel allelfrequentiespectrum. Als STR kan zijn vol, voorwaarde2,
plat of het bestand dat bestaat uit foutuitvoer van een eerdere variant
roepen rennen.

-t FLOAT Geschaald mutatiepercentage voor variantbellen [0.001]

-T STR Paar-/trio-oproepen inschakelen. Voor trio-oproepen, optie -s gewoonlijk
moest worden toegepast om de trioleden en hun volgorde te configureren.
In het bestand dat bij de optie is geleverd -s, moet het eerste monster de
kind, de tweede de vader en de derde de moeder. De geldige
waarden van STR zijn `paar', `trioauto', `trioxd' en `trioxs', waar
`pair' noemt verschillen tussen twee invoersamples, en `trioxd'
(`trioxs') geeft aan dat de invoer afkomstig is van het X-chromosoom niet-PAR
regio's en het kind is een vrouw (man). [nul]

-v Uitvoer variant sites alleen (force -c)

Contrast het roepen en Vereniging test Opties:

-1 INT Aantal monsters van groep 1. Deze optie wordt gebruikt voor het verdelen van de
steekproeven in twee groepen voor contrast SNP-oproep- of associatietest.
Wanneer deze optie in gebruik is, wordt de volgende VCF INFO uitgevoerd:
PC2, PCHI2 en QCHI2. [0]

-U INT Aantal permutaties voor associatietest (alleen effectief met -1)
[0]

-X FLOAT Voer alleen permutaties uit voor P(chi^2) -U)
[0.01]

index bctools index in.bcf

Index gesorteerd BCF voor willekeurige toegang.

hoe bctools hoe in1.bcf [in2.bcf [...]]]

BCF-bestanden samenvoegen. De invoerbestanden moeten worden gesorteerd en hebben
identieke monsters verschijnen in dezelfde volgorde.

SAM FORMAT


Sequence Alignment/Map (SAM) formaat is TAB-gescheiden. Afgezien van de kopregels, welke
worden gestart met het `@'-symbool, elke uitlijningslijn bestaat uit:

┌────┬───────┬──────────────────────────────────── ──────────────────────┐
ColVeldOmschrijving
├────┼───────┼──────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ Querysjabloon/paar NAME │
│ 2 │ VLAG │ bitsgewijze VLAG │
│ 3 │ RNAME │ Referentiereeks NAAM │
│ 4 │ POS │ 1-gebaseerde meest linkse POSitie/coördinaat van geknipte reeks │
│ 5 │ MAPQ │ MAPping-kwaliteit (phred-schaal) │
│ 6 │ CIAGR │ verlengde SIGAR-reeks │
│ 7 │ MRNM │ Mate Referentiereeks NaMe (`=' indien gelijk aan RNAME) │
│ 8 │ MPOS │ 1-gebaseerde Mate POSistion │
│ 9 │ TLEN │ afgeleide sjabloonLENgth (invoegformaat) │
│10 │ SEQ │ query SEQuence op dezelfde streng als de referentie │
│11 │ KWAL │ query QUALity (ASCII-33 geeft de Phred-basiskwaliteit) │
│12+ │ OPT │ variabele OPTIONELE velden in het formaat TAG:VTYPE:VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘

Elke bit in het FLAG-veld wordt gedefinieerd als:

┌───────┬─────┬───────────────────────── ─────────────────────────┐
VlagchrOmschrijving
├───────┼─────┼───────────────────────── ─────────────────────────┤
│0x0001 │ p │ het lezen is gepaard in volgorde │
│0x0002 │ P │ de gelezen wordt toegewezen in een correct paar │
│0x0004 │ u │ de queryreeks zelf is niet toegewezen │
│0x0008 │ U │ de mate is niet toegewezen │
│0x0010 │ r │ onderdeel van de query (1 voor omgekeerd) │
│0x0020 │ R │ streng van de partner │
│0x0040 │ 1 │ de gelezen is de eerste gelezen in een paar │
│0x0080 │ 2 │ de gelezen is de tweede gelezen in een paar │
│0x0100 │ s │ de uitlijning is niet primair │
│0x0200 │ f │ de kwaliteitscontroles van platform/leverancier mislukt bij lezen │
│0x0400 │ d │ de uitlezing is een PCR of een optisch duplicaat │
└───────┴─────┴───────────────────────── ─────────────────────────┘
waarbij de tweede kolom de tekenreeksrepresentatie van het veld FLAG geeft.

VCF FORMAT


Het Variant Call Format (VCF) is een door TAB's gescheiden indeling waaruit elke dataregel bestaat
de volgende velden:

┌────┬────────┬───────────────────────── ─────────────────────────────────────┐
ColVeldOmschrijving
├────┼────────┼───────────────────────── ─────────────────────────────────────┤
│ 1 │ CHROM │ CHROMosoomnaam │
│ 2 │ POS │ de meest linkse POSitie van de variant │
│ 3 │ ID │ unieke variant IDentifier │
│ 4 │ REF │ het REFerence-allel │
│ 5 │ ALT │ de ALTernate allel(s), gescheiden door komma's │
│ 6 │ QUAL │ variant/referentie KWALiteit │
│ 7 │ FILTER │ FILTers toegepast │
│ 8 │ INFO │ INFORMATIE met betrekking tot de variant, gescheiden door een puntkomma │
│ 9 │ FORMAT │ FORMAT van de genotypevelden, gescheiden door een dubbele punt (optioneel) │
│10+ │ MONSTER │ MONSTER genotypen en informatie per monster (optioneel) │
└────┴────────┴───────────────────────── ─────────────────────────────────────┘

De volgende tabel geeft de INFO tags gebruikt door samtools en bcftools.

┌──────┬───────────┬──────────────────── ───────────────────────────────────────── ───────────────────────────────────────┐
TagFormaatOmschrijving
├──────┼───────────┼──────────────────── ───────────────────────────────────────── ───────────────────────────────────────┤
└──────┴───────────┴──────────────────── ───────────────────────────────────────── ───────────────────────────────────────┘

Voorbeelden


o Importeer SAM naar BAM wanneer @SQ regels zijn aanwezig in de kop:

samtools view -bS aln.sam > aln.bam

If @SQ regels ontbreken:

samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam

WAAR ref.fa.fai wordt automatisch gegenereerd door de faidx opdracht.

o Bevestig de RG tag tijdens het samenvoegen van gesorteerde uitlijningen:

perl -e 'afdrukken
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

De waarde in een RG tag wordt bepaald door de bestandsnaam waaruit het gelezen wordt. In deze
bijvoorbeeld in de samengevoegd.bam, leest voor ga.bam zal worden bijgevoegd RG:Z:ga, terwijl leest van
454.bam zal worden bijgevoegd RG:Z:454.

o Bel SNP's en korte INDEL's voor één diploïde persoon:

samtools mpileup -ugf ref.fa aln.bam | bcftools-weergave -bvcg - > var.raw.bcf
bcftools bekijken var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

De -D optie van varFilter regelt de maximale leesdiepte, waarop moet worden aangepast
ongeveer tweemaal de gemiddelde leesdiepte. Men zou kunnen overwegen toe te voegen -C50 naar mpile-up als in kaart brengen
kwaliteit wordt overschat voor reads met buitensporige mismatches. Deze optie toepassen
helpt meestal BWA-kort maar misschien niet andere mappers.

o Genereer de consensusreeks voor één diploïde individu:

samtools mpileup -uf ref.fa aln.bam | bcftools-weergave -cg - | vcfutils.pl vcf2fq >
cns.fq

o Oproep somatische mutaties uit een paar monsters:

samtools mpileup -DSuf ref.fa aln.bam | bcftools weergave -bvcgT paar - > var.bcf

In het uitvoerveld INFO, CLR geeft de Phred-log verhouding tussen de waarschijnlijkheid door
het onafhankelijk behandelen van de twee monsters, en de waarschijnlijkheid door het genotype te eisen
identiek zijn. Dit CLR is in feite een score die het vertrouwen van somatisch meet
oproepen. Hoe hoger hoe beter.

o Roep de novo en somatische mutaties uit een familietrio:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT pair -s samples.txt - >
var.bcf

Dien in voorbeelden.txt moet bestaan ​​uit drie regels die het lid en de volgorde van specificeren
steekproeven (in de volgorde kind-vader-moeder). Evenzo, CLR geeft de Phred-log
waarschijnlijkheidsratio met en zonder de triobeperking. UGT toont het meest waarschijnlijk
genotypeconfiguratie zonder de triobeperking, en CGT geeft de meeste kans
genotypeconfiguratie die voldoet aan de trio-beperking.

o Fase één individueel:

samtools kalm -AEur aln.bam ref.fa | samtools phase -b prefix -> phase.out

De rustig commando wordt gebruikt om valse heterozygoten rond INDEL's te verminderen.

o Bel SNP's en korte indels voor meerdere diploïde individuen:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools-weergave -bcvg - > var.raw.bcf
bcftools bekijken var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

Individuen worden geïdentificeerd aan de hand van de SM labels in de @RG kopregels. Individuen kunnen zijn
gebundeld in één uitlijnbestand; één persoon kan ook worden gescheiden in meerdere bestanden.
De -P optie geeft aan dat indel-kandidaten alleen uit leesgroepen mogen worden verzameld
met de @RG-PL label ingesteld op VERLICHT. Indel-kandidaten verzamelen uit reads sequenced
door een indel-gevoelige technologie kan de prestaties van indel-oproepen beïnvloeden.

Merk op dat er een nieuw aanroepmodel is dat kan worden aangeroepen door

bcftools-weergave -m0.99 ...

waarmee enkele ernstige beperkingen van de standaardmethode worden opgelost.

Voor het filteren lijken de beste resultaten te worden bereikt door eerst de SnpGap filter en
vervolgens een machine learning-benadering toepassen

vcf-annoteren -f SnpGap=n
vcf-filter ...

Beide zijn te vinden in de vctools en htslib pakket (links hieronder).

o Leid het allelfrequentiespectrum (AFS) af op een lijst met sites van meerdere individuen:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools-weergave -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools-weergave -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools-weergave -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

WAAR sites.lijst bevat de lijst met sites waarbij elke regel bestaat uit de referentie
volgorde naam en positie. Het volgende bctools commando's schatten AFS door EM.

o Dump door BAQ toegepaste uitlijning voor andere SNP-bellers:

samtools calmd -bAr aln.bam > aln.baq.bam

Het voegt toe en corrigeert de NM en MD labels tegelijk. De rustig commando komt ook
met de -C optie, dezelfde als die in opstapelen en mpile-up. Toepassen als het helpt.

Beperkingen


o Niet-uitgelijnde woorden gebruikt in bam_import.c, bam_endian.h, bam.c en bam_aux.c.

o Samtools paired-end rmdup werkt niet voor ongepaarde reads (bijv. verweesde reads of ends
toegewezen aan verschillende chromosomen). Als dit een probleem is, gebruik dan Picard's
MarkDuplicate die deze gevallen correct afhandelt, hoewel iets langzamer.

Gebruik bcftools online met behulp van onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

  • 1
    Firebird
    Firebird
    Firebird RDBMS biedt ANSI SQL-functies
    & draait op Linux, Windows &
    verschillende Unix-platforms. Functies
    uitstekende gelijktijdigheid en prestaties
    & stroom...
    Firebird downloaden
  • 2
    KompoZer
    KompoZer
    KompoZer is een wysiwyg HTML-editor die gebruikt
    de Mozilla Composer-codebasis. Als
    De ontwikkeling van Nvu is gestopt
    in 2005 repareert KompoZer veel bugs en
    voegt een f toe...
    KompoZer downloaden
  • 3
    Gratis Manga Downloader
    Gratis Manga Downloader
    De gratis manga-downloader (FMD) is een
    open source applicatie geschreven in
    Object-Pascal voor het beheer van en
    manga downloaden van verschillende websites.
    Dit is een spiegel...
    Download gratis manga-downloader
  • 4
    UNetbootin
    UNetbootin
    Met UNetbootin kunt u opstartbare
    Live USB-drives voor Ubuntu, Fedora en
    andere Linux-distributies zonder
    een cd branden. Het draait op Windows, Linux,
    En ...
    UNetbootin downloaden
  • 5
    Dolibarr ERP-CRM
    Dolibarr ERP-CRM
    Dolibarr ERP - CRM is eenvoudig te gebruiken
    ERP en CRM open source softwarepakket
    (uitgevoerd met een web-php-server of als
    stand-alone software) voor bedrijven,
    fundamenten...
    Dolibarr ERP - CRM downloaden
  • 6
    SQuirreL SQL-client
    SQuirreL SQL-client
    SQuirreL SQL Client is een grafische SQL
    client geschreven in Java die het mogelijk maakt
    u om de structuur van een JDBC te bekijken
    compatibele database, blader door de gegevens in
    tafels...
    SQuirreL SQL-client downloaden
  • Meer "

Linux-commando's

Ad