Dit is de opdrachtuitlijner die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online-emulator of MAC OS online-emulator
PROGRAMMA:
NAAM
dalliner - uitlijner voor lang lezen
KORTE INHOUD
uitlijner [-vbAI][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-edubbel(.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mspoor]+ onderwerp:db|dam doel:db|dam ...
PRODUCTBESCHRIJVING
Vergelijk sequenties in de getrimde onderwerpen blokkeren tegen degenen in de lijst met doel blokken
zoeken naar lokale uitlijningen met ten minste -l basenparen (standaard 1000) of meer,
met een gemiddeld correlatiepercentage van -e (standaard 70%). De gevonden lokale uitlijningen
wordt uitgevoerd in een spaarzame codering waarbij elke keer een traceerpunt op de uitlijning wordt vastgelegd
-s basenparen van de a-read (standaard 100bp). Reads worden vergeleken in beide richtingen en
lokale uitlijningen die aan de criteria voldoen, worden uitgevoerd naar een van de verschillende beschreven gemaakte bestanden
hieronder. De -v optie schakelt een uitgebreide rapportagemodus in die statistieken over elk geeft
belangrijke stap in de berekening.
De opties -k, -h en -w controleer de initiële filterzoekopdracht voor mogelijke overeenkomsten
tussen het lezen. Onze zoekcode zoekt met name naar een paar diagonale breedtebanden
2^w (standaard 2^6 = 64) die een verzameling exact overeenkomende k-meren bevatten (standaard 14)
tussen de twee aflezingen, zodat het totale aantal basen dat door de k-mer-treffers wordt gedekt, h is
(standaard 35). k kan niet groter zijn dan 32 in de huidige implementatie. Als de -b optie
is ingesteld, dan is de uitlijner gaat ervan uit dat de gegevens een sterke voorkeur voor samenstelling hebben (bijv. >65% AT
rich), en ten koste van wat meer tijd, past dynamisch k-mer-groottes aan, afhankelijk van
samenstellingsbias, zodat de gebruikte meren een effectieve specificiteit van 4^k hebben.
Als er een of meer intervaltracks zijn opgegeven met de -m optie, dan leest het van
de DB of DB's waarop het masker van toepassing is, worden zacht gemaskeerd met de vereniging van de intervallen
van alle intervaltracks die van toepassing zijn, dat zijn alle k-mers die bases bevatten in een van
de gemaskeerde intervallen worden genegeerd bij het plaatsen van een match. Een intervaltrack
is een track, zoals de "dust" track gemaakt door DBdust, die een reeks intervallen codeert
over de niet-getrimde of getrimde DB.
Steevast zijn sommige k-meren aanzienlijk oververtegenwoordigd (bijv. homopolymeerruns).
Deze k-mers creëren een buitensporig aantal overeenkomende k-mer-paren en blijven ongeadresseerd
ervoor zorgen dat daligner het beschikbare fysieke geheugen overstroomt. Een manier om hiermee om te gaan is om
stel expliciet de -t parameter die het gebruik onderdrukt van elke k-mer die meer voorkomt
neem contact t keer in het onderwerp- of doelblok. Echter, een betere manier om met de
situatie is om het programma automatisch een waarde van te laten selecteren t dat voldoet aan een gegeven
geheugengebruikslimiet gespecificeerd (in Gb) door de -M parameter. Standaard uitlijner zal gebruiken
de hoeveelheid fysiek geheugen waar u voor kiest -M. Wil je minder verbruiken, zeg dan maar 8Gb
op een 24Gb HPC-clusterknooppunt omdat u 3 uitlijner banen op het knooppunt, dan
specificeren -M8. Specificeren -M0 geeft eigenlijk aan dat je niet wilt uitlijner zichzelf
pas k-mer-onderdrukking aan om binnen een bepaalde hoeveelheid geheugen te passen.
Voor elk onderwerp, doelpaar blokken, zeg X en Y, rapporteert het programma uitlijningen waar
de a-read is in X en de b-read is in Y, en vice versa. Echter, als de -A Optie is
set ("A" voor "asymmetrisch") overlapt dan gewoon waar de a-read in X is en de b-read
in Y worden gerapporteerd, en als X = Y, dan rapporteert het verder alleen die overlappingen waar de
a-read-index is lager dan de b-read-index. In beide gevallen, als de -I optie is ingesteld ("I"
voor "identiteit") dan wanneer X = Y, overlapt tussen verschillende delen van dezelfde leeswil
ook worden gevonden en gerapporteerd.
Elke gevonden uitlijning wordt geregistreerd als -- a[ab,ae] x bo[bb,be] -- waarbij a en b de
indices (in de getrimde DB) van de reads die elkaar overlappen, o geeft aan of de b-read is
van dezelfde of tegenovergestelde streng, en [ab,ae] en [bb,be] zijn de intervallen van a en bo,
respectievelijk, die op één lijn liggen. Het programma plaatst deze uitlijningsrecords in bestanden waarvan de naam
heeft de vorm XY[C|N]#.las waarbij C aangeeft dat de b-reads zijn aangevuld en N
geeft aan dat dit niet het geval is (beide vergelijkingen worden uitgevoerd) en # is de thread die is gedetecteerd
en schreef de verzameling uitlijningen in het bestand uit. Dat is het dossier
XYO#.las bevat de uitlijningen geproduceerd door thread # waarvoor de a-read is van X en
de b-read is van Y en in oriëntatie O. Het commando uitlijner -A X Y produceert 2*NTDRAAD
thread-bestanden XY?.las en uitlijner X Y produceert 4*NTHREAD bestanden XY?.las en YX?.las
(tenzij X=Y in welk geval alleen NTHREAD-bestanden, XX?.las, worden geproduceerd).
Standaard uitlijner vergelijkt alle overlappingen tussen lezingen in de database die groter zijn
dan de minimale cutoff die is ingesteld toen de DB of DB's werden gesplitst, meestal 1 of 2 Kbp. Echter,
de HGAP-assemblagepijplijn wil alleen grote leesbewerkingen corrigeren, bijvoorbeeld 8 Kbp of meer, enzovoort
heeft alleen de overlappingen nodig waar de a-read een van de grote reads is. Door het instellen van de -H
parameter om N te zeggen, verandert er één uitlijner zodat het alleen overlappingen meldt waar de a-read
is meer dan N basenparen lang.
Hoewel de standaard parameterinstellingen goed zijn voor onbewerkte Pacbio-gegevens, uitlijner kan worden gebruikt
voor het efficiënt vinden van uitlijningen in gecorrigeerde uitlezingen of andere minder luidruchtige uitlezingen. Voor
voor het in kaart brengen van applicaties tegen .dams draaien we bijvoorbeeld
uitlijner -k20 -h60 -e.85
en bij gecorrigeerde waarden rennen we meestal
uitlijner -k25 -w5 -h60 -e.95 -s500
en bij deze instellingen is het erg snel.
Gebruik daraligner online met behulp van onworks.net-services