EngelsFransSpaans

Ad


OnWorks-favicon

bwa - Online in de cloud

Voer bwa uit in OnWorks gratis hostingprovider via Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

Dit is de opdracht bwa die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


bwa - Burrows-Wheeler uitlijngereedschap

KORTE INHOUD


bwa index ref.fa

bwa mem ref.fa reads.fq > aln-se.sam

bwa mem ref.fa read1.fq read2.fq > aln-pe.sam

bwa aln ref.fa short_read.fq > aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam

bwa voorbeeld ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

bwa bwasw ref.fa long_read.fq > aln.sam

PRODUCTBESCHRIJVING


BWA is een softwarepakket voor het in kaart brengen van laag-divergente sequenties tegen een grote referentie
genoom, zoals het menselijk genoom. Het bestaat uit drie algoritmen: BWA-backtrack, BWA-SW
en BWA-MEM. Het eerste algoritme is ontworpen voor Illumina-sequentielezingen tot 100bp,
terwijl de overige twee voor langere sequenties varieerden van 70 bp tot 1 Mbps. BWA-MEM en BWA-SW delen
vergelijkbare functies zoals ondersteuning voor lang lezen en gesplitste uitlijning, maar BWA-MEM, dat is de
laatste, wordt over het algemeen aanbevolen voor vragen van hoge kwaliteit, omdat het sneller en meer is
nauwkeurig. BWA-MEM heeft ook betere prestaties dan BWA-backtrack voor 70-100bp Illumina
leest.

Voor alle algoritmen moet BWA eerst de FM-index construeren voor het referentiegenoom
(De index opdracht). Alignment-algoritmen worden aangeroepen met verschillende subcommando's:
ALN/hetzelfde/proef voor BWA-backtrack, bwas voor BWA-SW en Lid voor het BWA-MEM-algoritme.

COMMANDO'S EN OPTIES


index BWA index [-p voorvoegsel] [-a algoType] db.fa

Index database sequenties in het FASTA formaat.

OPTIES:

-p STR Prefix van de uitvoerdatabase [zelfde als db-bestandsnaam]

-a STR Algoritme voor het construeren van de BWT-index. BWA implementeert twee algoritmen voor:
BWT-constructie: is en tussen haakjes. Het eerste algoritme is iets sneller
voor kleine database maar vereist veel RAM en werkt niet voor databases
met een totale lengte van meer dan 2 GB. Het tweede algoritme is aangepast van
de BWT-SW-broncode. Het werkt in theorie met een database met biljoenen
van basen. Als deze optie niet is opgegeven, wordt het juiste algoritme
wordt automatisch gekozen.

Lid BWA Lid [-aCHjMpP] [-t nDraden] [-k minZaadLen] [-w bandBreedte] [-d zAfzetten] [-r
zaadSplitRatio] [-c maxOcc] [-D kettingSchaduw] [-m maxMateSW] [-W minSeedMatch] [-A
wedstrijdscore] [-B mmStraf] [-O openingOpenPen] [-E kloofExtPen] [-L clipPen] [-U
ontkoppelenPen] [-R RGlijn] [-H HD-lijnen] [-v uitgebreidNiveau] db.voorvoegsel leest.fq [vrienden.fq]

Lijn 70bp-1Mbp-queryreeksen uit met het BWA-MEM-algoritme. In het kort, het algoritme:
werkt door uitlijningen te zaaien met maximale exacte overeenkomsten (MEM's) en vervolgens uit te breiden
zaden met het affiene-gap Smith-Waterman-algoritme (SW).

If vrienden.fq bestand is afwezig en optie -p is niet ingesteld, dit commando betreft invoer
leest zijn single-end. Indien vrienden.fq aanwezig is, gaat dit commando uit van de i-lees in
leest.fq en i-lees in vrienden.fq een leespaar vormen. Indien -p Wordt gebruikt, de
commando gaat uit van de 2i-de en de (2i+1)-de inlezen leest.fq een leespaar vormen
(zo'n invoerbestand wordt interleaved genoemd). In dit geval, vrienden.fq wordt genegeerd. In
de gepaarde-end-modus, de Lid commando zal de leesrichting en de insert afleiden
grootteverdeling van een batch reads.

Het BWA-MEM-algoritme voert lokale uitlijning uit. Het kan meerdere primaire
uitlijningen voor een ander deel van een queryreeks. Dit is een cruciale functie voor
lange reeksen. Sommige tools zoals Picard's markDuplicates werken echter niet
met gesplitste uitlijningen. Men kan overwegen om optie te gebruiken -M kortere splithits markeren
als secundair.

ALGORITME OPTIES:

-t INT Aantal draden [1]

-k INT Minimale zaadlengte. Wedstrijden korter dan INT zal gemist worden. De
uitlijningssnelheid is meestal ongevoelig voor deze waarde, tenzij het
wijkt sterk af van 20. [19]

-w INT Bandbreedte. In wezen, hiaten langer dan INT zal niet gevonden worden. Opmerking
dat de maximale spleetlengte ook wordt beïnvloed door de scorematrix en
de hitlengte, niet alleen bepaald door deze optie. [100]

-d INT Off-diagonale X-dropoff (Z-dropoff). Stop verlenging wanneer het verschil
tussen de beste en de huidige extensiescore is hoger dan |i-j|*A+INT,
WAAR i en j zijn de huidige posities van de zoekopdracht en referentie,
respectievelijk, en A is de overeenkomende score. Z-dropoff lijkt op:
BLAST's X-dropoff, behalve dat het gaten in een van de
sequenties in de uitlijning. Z-dropoff vermijdt niet alleen onnodige
extensie, maar vermindert ook slechte uitlijning binnen een lange goede uitlijning.
[100]

-r FLOAT Activeer opnieuw zaaien voor een MEM langer dan minZaadLen*FLOAT. Dit is een sleutel
heuristische parameter voor het afstemmen van de uitvoering. Grotere waarde levert minder op
zaden, wat leidt tot een hogere uitlijnsnelheid maar een lagere nauwkeurigheid. [1.5]

-c INT Gooi een MEM weg als deze meer dan . heeft INT voorkomen in het genoom. Dit is een
ongevoelige parameter. [500]

-D INT Dropkettingen korter dan FLOAT fractie van de langste overlappende keten
[0.5]

-m INT Maximaal presteren INT rondes van stuurman-SW [50]

-W INT Laat een ketting vallen als het aantal basen in zaden kleiner is dan INT. Deze
optie wordt voornamelijk gebruikt voor langere contigs/reads. Als het positief is, is het ook
beïnvloedt de zaadfiltering. [0]

-P Voer in de modus met gekoppeld einde SW uit om alleen ontbrekende treffers te redden, maar doe dat niet
probeer hits te vinden die bij een goed paar passen.

SCOREN OPTIES:

-A INT Overeenkomende score. [1]

-B INT Mismatch straf. Het sequentiefoutpercentage is ongeveer: {.75 *
exp [-inloggen(4) * Z/A]}. [4]

-O INT[,INT]
Gap open penalty. Als er twee cijfers zijn opgegeven, is de eerste de straf
voor het openen van een deletie en de tweede voor het openen van een insertie. [6]

-E INT[,INT]
Gap verlenging boete. Als er twee getallen zijn opgegeven, is de eerste de
straf voor het verlengen van een verwijdering en ten tweede voor het verlengen van een toevoeging. EEN
afstand van lengte k kost O + k*E (dwz -O is voor het openen van een nul-lengte
gat). [1]

-L INT[,INT]
Knippende boete. Bij het uitvoeren van SW-extensie houdt BWA-MEM bij:
de beste score die het einde van de zoekopdracht bereikt. Als deze score groter is dan
de beste SW-score minus de clipping penalty, clipping zal dat niet zijn
toegepast. Merk op dat in dit geval de SAM AS-tag de beste SW . rapporteert
scoren; clipping penalty wordt niet afgetrokken. Als er twee nummers worden opgegeven, wordt de
de eerste is voor clipping aan het 5'-uiteinde en de tweede voor clipping aan het 3'-uiteinde. [5]

-U INT Straf voor een ongepaard leespaar. BWA-MEM scoort een ongepaard leespaar
als scoreLees1+scoreLees2-INT en scoort een gepaarde as
scoreRead1+scoreRead2-invoegen Penalty. Het vergelijkt deze twee scores met:
bepalen of we het koppelen moeten forceren. Een grotere waarde leidt tot meer
agressief leespaar. [17]

INGANG / UITGANG OPTIES:

-p Slim koppelen. Als twee aangrenzende reads dezelfde naam hebben, zijn ze:
beschouwd als een leespaar. Op deze manier leest het gepaarde en enkelvoudige einde
kan worden gemengd in een enkele FASTA/Q-stroom.

-R STR Volledige leesgroepkopregel. '\t' kan worden gebruikt in STR en zal
geconverteerd naar een TAB in de output SAM. De leesgroep-ID wordt bijgevoegd
voor elke read in de output. Een voorbeeld is '@RG\tID:foo\tSM:bar'. [nul]

-H ARG Als ARG begint met @, wordt het geïnterpreteerd als een tekenreeks en wordt het ingevoegd
in de output SAM-header; anders wordt ARG geïnterpreteerd als een bestand met
alle regels die beginnen met @ in het bestand dat in de SAM-header is ingevoegd.
[nul]

-T INT Voer geen uitlijning uit met een score lager dan INT. Deze optie beïnvloedt
output en soms SAM flag 2. [30]

-j Behandel ALT-contigs als onderdeel van de primaire assembly (dwz negeer de
db.voorvoegsel.alt bestand).

-h INT[,INT2]
Als een zoekopdracht niet meer heeft dan INT hits met een score hoger dan 80% van de
beste hit, voer ze allemaal uit in de XA-tag. Indien INT2 is gespecificeerd, BWA-MEM
uitgangen tot INT2 hits als de lijst een hit naar een ALT-contig bevat.
[5,200]

-a Voer alle gevonden uitlijningen uit voor single-end of ongepaarde paired-end reads.
Deze uitlijningen worden gemarkeerd als secundaire uitlijningen.

-C Voeg FASTA/Q-opmerking toe aan SAM-uitvoer. Deze optie kan worden gebruikt om
overdracht van gelezen meta-informatie (bijv. barcode) naar de SAM-uitgang. Opmerking
dat het FASTA/Q-commentaar (de string na een spatie in de kopregel)
moet voldoen aan de SAM-specificatie (bijv. BC:Z:CGTAC). Verkeerd geformatteerde opmerkingen leiden tot:
onjuiste SAM-uitvoer.

-Y Gebruik soft clipping SIGAR-bewerking voor aanvullende uitlijningen. Door
standaard gebruikt BWA-MEM soft clipping voor de primaire uitlijning en hard
clipping voor aanvullende uitlijningen.

-M Markeer kortere splithits als secundair (voor Picard-compatibiliteit).

-v INT Regel het uitgebreide niveau van de uitvoer. Deze optie is niet volledig
ondersteund door BWA. Idealiter een waarde 0 voor het uitschakelen van alle uitvoer
naar stderr; 1 alleen voor het uitvoeren van fouten; 2 voor waarschuwingen en fouten; 3 voor
alle normale berichten; 4 of hoger voor foutopsporing. Wanneer deze optie duurt
waarde 4, de uitvoer is niet SAM. [3]

-I ZWEVEN[,ZWEVEN[,INT[,INT]]]
Specificeer het gemiddelde, standaarddeviatie (10% van het gemiddelde indien afwezig), max (4
sigma van het gemiddelde indien afwezig) en min (4 sigma indien afwezig) van de insert
grootteverdeling. Alleen van toepassing op de FR-oriëntatie. Standaard,
BWA-MEM leidt deze getallen af ​​en de paaroriëntaties zijn voldoende gegeven
leest. [afgeleide]

ALN bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-l SeedLen] [-t nThrds] [-cRN] [-M misMsc] [-O gapOsc] [-E gapEsc]
[-q trimQual] >

Zoek de SA-coördinaten van de invoerwaarden. maximaal maxZaadVerschil verschillen zijn
toegestaan ​​in de eerste zaadLen vervolg en maximum maxVerschil verschillen zijn
toegestaan ​​in de hele reeks.

OPTIES:

-n NUM Maximale bewerkingsafstand als de waarde INT is, of de fractie van ontbrekend
uitlijningen gegeven 2% uniform basisfoutpercentage als FLOAT. In het laatste geval,
de maximale bewerkingsafstand wordt automatisch gekozen voor verschillende lezen
lengtes. [0.04]

-o INT Maximaal aantal openingen [1]

-e INT Maximaal aantal tussenruimte-uitbreidingen, -1 voor k-verschilmodus (niet toestaan
lange tussenruimtes) [-1]

-d INT Een lange deletie binnen INT bp naar het 3'-uiteinde niet toestaan ​​[16]

-i INT Een indel binnen INT bp naar de uiteinden toe niet toestaan ​​[5]

-l INT Neem de eerste INT-subreeks als seed. Als INT groter is dan de query
volgorde, wordt seeding uitgeschakeld. Voor lang lezen is deze optie:
varieerde typisch van 25 tot 35 voor `-k 2'. [inf]

-k INT Maximale bewerkingsafstand in de seed [2]

-t INT Aantal threads (multi-threading-modus) [1]

-M INT Mismatch straf. BWA zoekt niet naar suboptimale hits met een score
lager dan (bestScore-misMsc). [3]

-O INT Gat-open-straf [11]

-E INT Gap verlenging boete [4]

-R INT Ga door met suboptimale uitlijningen als er niet meer dan INT gelijk zijn
beste treffers. Deze optie is alleen van invloed op gekoppelde toewijzing. Dit verhogen
drempel helpt de nauwkeurigheid van het koppelen te verbeteren ten koste van snelheid,
vooral voor korte leest (~32bp).

-c Keer de query om, maar vul deze niet aan, wat vereist is voor uitlijning in
de kleurruimte. (Uitgeschakeld sinds 0.6.x)

-N Schakel iteratief zoeken uit. Alle hits met niet meer dan maxVerschil verschillen
zal worden gevonden. Deze modus is veel langzamer dan de standaardmodus.

-q INT Parameter voor lezen trimmen. BWA trimt een aflezing tot
argmax_x{\sum_{i=x+1}^l(INT-q_i)} als q_l
lengte. [0]

-I De invoer is in het Illumina 1.3+ leesformaat (kwaliteit is gelijk aan ASCII-64).

-B INT Lengte van de streepjescode vanaf het 5'-uiteinde. Wanneer INT is positief, de
streepjescode van elke lezing wordt bijgesneden voordat deze in kaart wordt gebracht en wordt geschreven
de BC SAM-tag. Voor het lezen van gepaarde uiteinden is de streepjescode van beide uiteinden:
aaneengeschakeld. [0]

-b Geef op dat het invoerleesvolgordebestand het BAM-formaat is. Voor gepaarde end
gegevens, twee uiteinden in een paar moeten worden gegroepeerd en opties -1 or -2
worden meestal toegepast om aan te geven welk uiteinde moet worden toegewezen. Typisch
opdrachtregels voor het toewijzen van pair-end data in het BAM-formaat zijn:

bwa aln ref.fa -b1 leest.bam > 1.sai
bwa aln ref.fa -b2 leest.bam > 2.sai
bwa sampe ref.fa 1.sai 2.sai leest.bam leest.bam > aln.sam

-0 . -b is opgegeven, gebruik alleen single-end reads in mapping.

-1 . -b is opgegeven, gebruik alleen de eerste lees in een leespaar in mapping
(sla single-end leest en de tweede leest).

-2 . -b is opgegeven, gebruik dan alleen de tweede read in een read pair in mapping.

hetzelfde bwa hetzelfde [-n maxOcc] >

Genereer uitlijningen in het SAM-formaat met single-end reads. Herhaalde hits zullen
willekeurig worden gekozen.

OPTIES:

-n INT Maximaal aantal uitlijningen dat moet worden uitgevoerd in de XA-tag voor gekoppelde reads
naar behoren. Als een read meer dan INT-treffers heeft, wordt de XA-tag niet
geschreven. [3]

-r STR Specificeer de leesgroep in een formaat als `@RG\tID:foo\tSM:bar'. [nul]

proef bwa voorbeeld [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>

Genereer uitlijningen in het SAM-formaat gegeven gepaarde leesbewerkingen. Herhaalde leesparen
willekeurig worden geplaatst.

OPTIES:

-a INT Maximale invoeggrootte voor een leespaar om te worden beschouwd als correct in kaart gebracht.
Sinds 0.4.5 wordt deze optie alleen gebruikt als er niet genoeg goede zijn
uitlijning om de verdeling van wisselplaatafmetingen af ​​te leiden. [500]

-o INT Maximum aantal keren gelezen voor koppeling. Een lezing met meer gebeurtenissen
zal worden behandeld als een single-end lezen. Het verminderen van deze parameter helpt sneller
koppelen. [100000]

-P Laad de volledige FM-index in het geheugen om schijfbewerkingen te verminderen (base-space
alleen lezen). Met deze optie is minimaal 1.25N bytes geheugen vereist,
waarbij N de lengte van het genoom is.

-n INT Maximaal aantal uitlijningen dat moet worden uitgevoerd in de XA-tag voor gekoppelde reads
naar behoren. Als een read meer dan INT-treffers heeft, wordt de XA-tag niet geschreven.
[3]

-N INT Maximaal aantal uitlijningen dat moet worden uitgevoerd in de XA-tag voor tegenstrijdige lezing
paren (exclusief eenlingen). Als een lezing meer dan INT-treffers heeft, wordt de XA-tag
zal niet worden geschreven. [10]

-r STR Specificeer de leesgroep in een formaat als `@RG\tID:foo\tSM:bar'. [nul]

bwas bwa bwasw [-a matchScore] [-b mmPen] [-q gapOpenPen] [-r gapExtPen] [-t nThreads]
[-w bandbreedte] [-T thres] [-s hspIntv] [-z zBest] [-N nHspRev] [-c thresCoef]
[maat.fq]

Lijn queryreeksen uit in de in.fq het dossier. Wanneer mate.fq is aanwezig, voer gepaarde-
uitlijning beëindigen. De gekoppelde modus werkt alleen voor leest Illumina short-insert
bibliotheken. In de gekoppelde modus kan BWA-SW nog steeds gesplitste uitlijningen uitvoeren, maar
ze zijn allemaal gemarkeerd als niet correct gekoppeld; de mate-posities worden niet geschreven
als de mate meerdere lokale hits heeft.

OPTIES:

-a INT Uitslag van een wedstrijd [1]

-b INT Mismatch-straf [3]

-q INT Gat-open-straf [5]

-r INT Gap verlenging boete. De straf voor een aaneengesloten opening van maat k is
q+k*r. [2]

-t INT Aantal threads in de multi-threading-modus [1]

-w INT Bandbreedte in de gestreepte uitlijning [33]

-T INT Minimale scoredrempel gedeeld door een [37]

-c FLOAT Coëfficiënt voor drempelaanpassing volgens de lengte van de query. gegeven an
l-lange zoekopdracht, de drempel voor het behouden van een hit is:
a*max{T,c*log(l)}. [5.5]

-z INT Z-beste heuristieken. Hogere -z verhoogt de nauwkeurigheid ten koste van snelheid. [1]

-s INT Maximale SA-intervalgrootte voor het starten van een seed. Hogere -s neemt toe
nauwkeurigheid ten koste van snelheid. [3]

-N INT Minimum aantal zaden dat de resulterende uitlijning ondersteunt om over te slaan
omgekeerde uitlijning. [5]

SAM UITLIJNING FORMAT


De output van de `aln' commando is binair en alleen bedoeld voor BWA-gebruik. BWA voert de . uit
definitieve uitlijning in het SAM-formaat (Sequence Alignment/Map). Elke lijn bestaat uit:

┌────┬───────┬──────────────────────────────────── ──────────────────────┐
ColVeldOmschrijving
├────┼───────┼──────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ Query (paar) NAME │
│ 2 │ VLAG │ bitsgewijze VLAG │
│ 3 │ RNAME │ Referentiereeks NAAM │
│ 4 │ POS │ 1-gebaseerde meest linkse POSitie/coördinaat van geknipte reeks │
│ 5 │ MAPQ │ MAPping-kwaliteit (phred-schaal) │
│ 6 │ CIAGR │ verlengde SIGAR-reeks │
│ 7 │ MRNM │ Mate Referentiereeks NaMe (`=' indien gelijk aan RNAME) │
│ 8 │ MPOS │ 1-gebaseerde Mate POSistion │
│ 9 │ ISIZE │ Afgeleide insert SIZE │
│10 │ SEQ │ query SEQuence op dezelfde streng als de referentie │
│11 │ KWAL │ query QUALity (ASCII-33 geeft de Phred-basiskwaliteit) │
│12 │ OPT │ variabele OPTIONELE velden in het formaat TAG:VTYPE:VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘

Elke bit in het FLAG-veld wordt gedefinieerd als:

┌────┬────────┬─────────────────────────────────── ────┐
chrVlagOmschrijving
├────┼────────┼─────────────────────────────────── ────┤
│ p │ 0x0001 │ het lezen is gepaard in sequencing │
│ P │ 0x0002 │ de uitlezing wordt toegewezen in een juist paar │
│ u │ 0x0004 │ de queryreeks zelf is niet toegewezen │
│ U │ 0x0008 │ de mate is niet toegewezen │
│ r │ 0x0010 │ streng van de query (1 voor omgekeerd) │
│ R │ 0x0020 │ streng van de partner │
│ 1 │ 0x0040 │ de lezing is de eerste lezing in een paar │
│ 2 │ 0x0080 │ de read is de tweede read in een paar │
│ s │ 0x0100 │ de uitlijning is niet primair │
│ f │ 0x0200 │ QC-fout │
│ d │ 0x0400 │ optisch of PCR duplicaat │
│ S │ 0x0800 │ aanvullende uitlijning │
└────┴────────┴─────────────────────────────────── ────┘

De Controleer a.u.b.http://samtools.sourceforge.net> voor de formaatspecificatie en de
tools voor de nabewerking van de uitlijning.

BWA genereert de volgende optionele velden. Tags die beginnen met `X' zijn specifiek voor BWA.

┌────┬──────────────────────────────────────────── ──────┐
TagBetekenis
├────┼──────────────────────────────────────────── ──────┤
NM │ Afstand bewerken │
MD │ Niet-overeenkomende posities/bases │
AS │ Uitlijningsscore │
BC │ Streepjescodereeks │
SA │ Aanvullende uitlijningen │
├────┼──────────────────────────────────────────── ──────┤
X0 │ Aantal beste hits │
X1 │ Aantal suboptimale hits gevonden door BWA │
XN │ Aantal ambigue basen in de referentie │
XM │ Aantal mismatches in de uitlijning │
XO │ Aantal openingen │
XG │ Aantal gap-extensies │
XT │ Type: Uniek/Herhaal/N/Mate-sw │
XA │ Alternatieve treffers; formaat: /(chr,pos,SIGAAR,NM;)*/
├────┼──────────────────────────────────────────── ──────┤
XS │ Suboptimale uitlijningsscore │
XF │ Ondersteuning van voorwaartse/achterwaartse uitlijning │
XE │ Aantal ondersteunende zaden │
└────┴──────────────────────────────────────────── ──────┘

Merk op dat XO en XG worden gegenereerd door BWT-zoekopdracht, terwijl de CIGAR-reeks door Smith-Waterman
uitlijning. Deze twee tags kunnen inconsistent zijn met de CIGAR-tekenreeks. Dit is geen fout.

OPMERKINGEN ON KORT LEZEN UITLIJNING


Uitlijning Nauwkeurigheid
Wanneer seeding is uitgeschakeld, garandeert BWA een uitlijning met maximaal maxVerschil
verschillen waaronder: maxGapO gaatjes open die niet binnenin voorkomen nIndelEnd bp richting
beide uiteinden van de query. Langere tussenruimten kunnen worden gevonden als: maxGapE is positief, maar is het niet
gegarandeerd alle hits te vinden. Wanneer seeding is ingeschakeld, vereist BWA verder dat de eerste
zaadLen vervolg bevat niet meer dan maxZaadVerschil verschillen.

Wanneer gapped uitlijning is uitgeschakeld, wordt verwacht dat BWA dezelfde uitlijning genereert als Eland
versie 1, het Illumina-uitlijningsprogramma. Echter, als BWA `N' verandert in de database
sequentie naar willekeurige nucleotiden, worden treffers op deze willekeurige sequenties ook geteld. Als een
bijgevolg kan BWA een unieke hit markeren als een herhaling, als de willekeurige reeksen toevallig zijn
identiek aan de sequenties die uniek zouden moeten zijn in de database.

Als de beste treffer niet erg repetitief is (gecontroleerd door -R), vindt BWA standaard ook
alle hits bevatten nog een mismatch; anders vindt BWA alleen alle even beste hits. Baseren
kwaliteit wordt NIET in aanmerking genomen bij het beoordelen van hits. In de gekoppelde modus koppelt BWA alle treffers
het vond. Het voert verder Smith-Waterman-uitlijning uit voor niet-toegewezen uitlezingen om uitlezingen te redden
met een hoog foutpercentage en voor hoogwaardige afwijkende paren om mogelijke uitlijning te corrigeren
fouten.

Het schatten Invoegen Maat Distributie
BWA schat de grootteverdeling van de inserts per 256*1024 gelezen paren. Het verzamelt eerst
paar leest met beide uiteinden in kaart gebracht met een single-end kwaliteit 20 of hoger en dan
berekent mediaan (Q2), lager en hoger kwartiel (Q1 en Q3). Het schat het gemiddelde en
de variantie van de wisselplaatgrootteverdeling van paren waarvan de wisselplaatafmetingen binnen
interval [Q1-2(Q3-Q1), Q3+2(Q3-Q1)]. De maximale afstand x voor een paar dat wordt beschouwd als
correct gepaard (SAM-vlag 0x2) wordt berekend door vergelijking Phi((x-mu)/sigma)=x/L*p0 op te lossen,
waarbij mu het gemiddelde is, sigma de standaardfout is van de verdeling van de tussenvoegselgrootte, L is
de lengte van het genoom, p0 is de prioriteit van een afwijkend paar en Phi() is de standaard
cumulatieve verdelingsfunctie. Voor het in kaart brengen van korte-insert-lezingen van Illumina voor de mens
genoom, x is ongeveer 6-7 sigma verwijderd van het gemiddelde. Kwartielen, gemiddelde, variantie en x zullen zijn
afgedrukt naar de standaardfoutuitvoer.

Geheugen eis
Met het bwtsw-algoritme is 5 GB geheugen vereist voor het indexeren van het volledige menselijke genoom
sequenties. Voor korte lezingen, de ALN opdracht gebruikt ~ 3.2 GB geheugen en de proef commando gebruikt
~ 5.4 GB.

Speed
Het indexeren van de menselijke genoomsequenties duurt 3 uur met het bwtsw-algoritme. Indexeren kleiner
genomen met IS-algoritmen is sneller, maar vereist meer geheugen.

De snelheid van uitlijning wordt grotendeels bepaald door het foutenpercentage van de queryreeksen (r).
Ten eerste loopt BWA veel sneller voor bijna perfecte treffers dan voor treffers met veel verschillen,
en het stopt met zoeken naar een treffer met l+2 verschillen als een l-verschil treffer wordt gevonden. Dit
betekent dat BWA erg traag zal zijn als r hoog is, omdat in dit geval BWA hits moet bezoeken met
veel verschillen en het zoeken naar deze hits is duur. Ten tweede, de uitlijning
achterliggend algoritme maakt de snelheid gevoelig voor [k log(N)/m], waarbij k het maximaal toegestane is
verschillen, N de grootte van de database en m de lengte van een query. In de praktijk kiezen we k
wrt r en daarom is r de leidende factor. Ik zou het niet aanraden om BWA op gegevens te gebruiken
met r>0.02.

Koppelen is langzamer voor kortere lezingen. Dit komt vooral omdat kortere reads meer hebben
valse hits en het omzetten van SA-coördinaten naar chromosomale coördinaten zijn erg kostbaar.

WIJZIGINGEN IN BWA-0.6


Sinds versie 0.6 kan BWA werken met een referentiegenoom langer dan 4GB.
Deze functie maakt het mogelijk om het voorwaartse en achterwaartse gecomplementeerde genoom te integreren in
één FM-index, die zowel BWA-short als BWA-SW versnelt. Als wisselwerking gebruikt BWA meer
geheugen omdat het alle posities en rangen in 64-bits gehele getallen moet houden, tweemaal groter
dan 32-bits gehele getallen die in de vorige versies werden gebruikt.

De nieuwste BWA-SW werkt ook voor gepaarde leesbewerkingen van meer dan 100 bp. In vergelijking met BWA-
kortom, BWA-SW is meestal nauwkeuriger voor zeer unieke uitlezingen en robuuster om
relatief lange INDEL's en structurele varianten. Desalniettemin heeft BWA-short meestal een hogere
vermogen om de optimale treffer te onderscheiden van vele suboptimale treffers. De keuze van de mapping
algoritme kan afhankelijk zijn van de toepassing.

Bwa online gebruiken met onworks.net-services


Gratis servers en werkstations

Windows- en Linux-apps downloaden

  • 1
    Eclipse Tomcat-plug-in
    Eclipse Tomcat-plug-in
    De Eclipse Tomcat-plug-in biedt
    eenvoudige integratie van een katerservlet
    container voor de ontwikkeling van java
    web applicaties. U kunt bij ons terecht voor
    discussie...
    Eclipse Tomcat-plug-in downloaden
  • 2
    WebTorrent Desktop
    WebTorrent Desktop
    WebTorrent Desktop is voor streaming
    torrents op Mac, Windows of Linux. Het
    maakt verbinding met zowel BitTorrent als
    WebTorrent-collega's. Nu is er geen
    moet wachten op...
    WebTorrent Desktop downloaden
  • 3
    GenX
    GenX
    GenX is een wetenschappelijk programma om te verfijnen
    x-ray reflectiviteit, neutron
    reflectiviteit en oppervlakteröntgenstraling
    diffractiegegevens met behulp van het differentieel
    evolutie algoritme....
    GenX downloaden
  • 4
    pspp4windows
    pspp4windows
    PSPP is een programma voor statistiek
    analyse van bemonsterde gegevens. Het is een gratis
    vervanging voor het propriëtaire programma
    SPSS. PSPP heeft zowel op tekst gebaseerd als
    grafisch ons...
    Pspp4windows downloaden
  • 5
    Git-extensies
    Git-extensies
    Git Extensions is een op zichzelf staande UI-tool
    voor het beheren van Git-opslagplaatsen. Het ook
    integreert met Windows Verkenner en
    Microsoft Visual Studio
    (2015/2017/2019). E...
    Git-extensies downloaden
  • 6
    eSpeak: spraaksynthese
    eSpeak: spraaksynthese
    Tekst-naar-spraak-engine voor Engels en
    vele andere talen. Compact formaat met
    duidelijke maar kunstmatige uitspraak.
    Beschikbaar als opdrachtregelprogramma met
    veel ...
    Download eSpeak: spraaksynthese
  • Meer "

Linux-commando's

Ad