Acesta este dalignerul de comandă care poate fi rulat în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
daligner - alinier cu citire lungă
REZUMAT
daligner [-vbAI][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-edublu (.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-murmări]+ subiect:db|dam target:db|dam ...
DESCRIERE
Comparați secvențele din tăiat subiect bloc împotriva celor din lista de ţintă blocuri
căutarea aliniamentelor locale care implică cel puţin -l perechi de baze (implicit 1000) sau mai multe,
care au o rată medie de corelare de -e (implicit 70%). Aliniamentele locale găsite
va fi scos într-o codificare rară în care un punct de urmărire pe aliniere este înregistrat la fiecare
-s perechile de baze ale a-read (implicit 100bp). Citirile sunt comparate în ambele orientări și
aliniamentele locale care îndeplinesc criteriile sunt trimise într-unul dintre câteva fișiere create descrise
de mai jos. -v opțiunea activează un mod de raportare detaliate care oferă statistici pentru fiecare
pasul major al calculului.
Opțiunile -k, -h, și -w controlați căutarea inițială de filtrare pentru posibile potriviri
între citiri. Mai exact, codul nostru de căutare caută o pereche de benzi diagonale de lățime
2^w (implicit 2^6 = 64) care conțin o colecție de k-mers care se potrivesc exact (implicit 14)
între cele două citiri, astfel încât numărul total de baze acoperite de hit-urile k-mer să fie h
(implicit 35). k nu poate fi mai mare de 32 în implementarea actuală. Dacă -b opțiune
este setat, apoi daligner presupune că datele au o părtinire compozițională puternică (de exemplu > 65% AT
bogat), și cu costul unui pic mai mult timp, ajustează dinamic dimensiunile k-mer în funcție de
prejudecăți compoziționale, astfel încât merele utilizate au o specificitate efectivă de 4^k.
Dacă există una sau mai multe piste de interval specificate cu -m opțiunea, apoi citirile de
DB-urile sau DB-urile cărora li se aplică masca sunt soft mascate cu unirea intervalelor
dintre toate pistele de interval care se aplică, adică orice k-mer care conțin baze în oricare dintre
intervalele mascate sunt ignorate în scopul semănării unui meci. O pistă cu intervale
este o pistă, cum ar fi pista „praf” creată de DBdust, care codifică un set de intervale
peste DB netăiat sau tăiat.
În mod invariabil, unii k-meri sunt semnificativ suprareprezentați (de exemplu, cicluri de homopolimeri).
Acești k-mer creează un număr excesiv de perechi k-mer care se potrivesc și ar fi lăsați neadresați
face ca dalignerul să depășească memoria fizică disponibilă. O modalitate de a face față acestui lucru este să
setați în mod explicit -t parametru care suprimă utilizarea oricărui k-mer care apare mai mult
decât t ori în blocul subiect sau țintă. Cu toate acestea, o modalitate mai bună de a gestiona
situația este de a lăsa programul să selecteze automat o valoare de t care îndeplinește un dat
limita de utilizare a memoriei specificată (în Gb) de către -M parametru. În mod implicit daligner voi folosi
cantitatea de memorie fizică ca alegere pentru -M. Dacă doriți să folosiți mai puțin, spuneți doar 8Gb
pe un nod de cluster HPC de 24 Gb deoarece doriți să rulați 3 daligner locuri de muncă pe nod, atunci
specifica -M8. Precizând -M0 practic indică faptul că nu vrei daligner la sine
ajustați suprimarea k-mer pentru a se potrivi într-o anumită cantitate de memorie.
Pentru fiecare subiect, pereche țintă de blocuri, să spunem X și Y, programul raportează aliniamente unde
a-read este în X și b-read este în Y și invers. Cu toate acestea, dacă -A opțiunea este
set ("A" pentru "asimetric"), apoi se suprapune acolo unde citirea a este în X și citirea b este
în Y sunt raportate, iar dacă X = Y, atunci raportează în continuare doar acele suprapuneri în care
indicele a-read este mai mic decât indicele b-read. În ambele cazuri, dacă -I opțiunea este setată ("I"
pentru „identitate”) atunci când X = Y, se suprapune între diferite porțiuni ale aceluiași testament de citire
de asemenea, să fie găsite și raportate.
Fiecare aliniament găsit este înregistrat ca -- a[ab,ae] x bo[bb,be] -- unde a și b sunt
indicii (în DB tăiat) ai citirilor care se suprapun, o indică dacă b-read este
din aceeași catenă sau opusă și [ab,ae] și [bb,be] sunt intervalele lui a și bo,
respectiv, care se aliniază. Programul plasează aceste înregistrări de aliniere în fișiere al căror nume
este de forma XY[C|N]#.las unde C indică faptul că citirile b sunt completate și N
indică că nu sunt (ambele comparații sunt efectuate) și # este firul care a detectat
și a scris colecția de aliniamente conținute în fișier. Acesta este dosarul
XYO#.las conține aliniamentele produse de firul # pentru care a-read este de la X și
b-read-ul este din Y și în orientare O. Comanda daligner -A X Y produce 2*NTHREAD
file file XY?.las și daligner X Y produce fișiere 4*NTHREAD XY?.las și YX?.las
(dacă nu X=Y caz în care sunt produse numai fișierele NTHREAD, XX?.las).
În mod implicit, daligner compară toate suprapunerile dintre citirile din baza de date care sunt mai mari
decât limita minimă stabilită atunci când DB sau DB-urile au fost împărțite, de obicei 1 sau 2 Kbp. In orice caz,
conducta de asamblare HGAP dorește doar să corecteze citirile mari, să spunem 8Kbp sau mai mult și așadar
are nevoie doar de suprapuneri în care a-read este una dintre citirile mari. Prin setarea -H
parametru pentru a spune N, se modifică daligner astfel încât să raporteze doar suprapuneri acolo unde a-read
are peste N perechi de baze.
În timp ce setările implicite ale parametrilor sunt bune pentru datele brute Pacbio, daligner poate fi utilizat
pentru a găsi eficient aliniamente în citirile corectate sau alte citiri mai puțin zgomotoase. Pentru
de exemplu, pentru maparea aplicațiilor împotriva .dams, rulăm
daligner -k20 -h60 -e. 85
iar la citirile corectate, de obicei rulăm
daligner -k25 -w5 -h60 -e. 95 -s500
iar la aceste setari este foarte rapid.
Utilizați daligner online folosind serviciile onworks.net