sim4 - Online în cloud

Aceasta este comanda sim4 care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS

PROGRAM:

NUME


sim4 - aliniază o secvență de ADN exprimată cu o secvență genomică

REZUMAT


da4 seqfile1 seqfile2 {[WXKCRDAPNB]=valoare}

DESCRIERE


da4 este un instrument bazat pe similaritate pentru alinierea unei secvențe ADN exprimate (EST, ADNc, ARNm)
cu o secvență genomică pentru genă. De asemenea, detectează potrivirile finale atunci când cele două intrări
secvențele se suprapun la un capăt (adică începutul unei secvențe se suprapune la sfârșitul
alte). Dacă seqfile2 este o bază de date de secvențe, secvența în seqfile1 va fi aliniat
cu fiecare dintre secvențele în seqfile2.

da4 folosește o tehnică bazată pe explozie pentru a determina mai întâi blocurile de potrivire de bază
reprezentând „nucleele exonilor”. În această primă etapă, detectează toate potrivirile exacte posibile
de W-mers (adică cuvinte ADN de mărimea W) între cele două secvențe și le extinde la
segmente fără decalaj de punctaj maxim. În a doua etapă, nucleele exonilor sunt extinse în
fragmentele adiacente, încă nepotrivite, folosind algoritmi de aliniere lacomi și euristici
sunt folosite pentru a favoriza configurațiile care se conformează semnalelor de recunoaștere a locului de îmbinare (GT-
AG, CT-AC). Dacă este necesar, procesul se repetă cu parametri mai puțin stringenți pe
fragmente de neegalat.

În mod implicit, da4 caută ambele componente și raportează cea mai bună potrivire, măsurată prin număr
de nucleotide care se potrivesc găsite în aliniament. Opțiunea de linie de comandă R poate fi folosită pentru
restrângeți căutarea doar la o singură orientare (față).

În prezent, sunt acceptate cinci opțiuni majore de afișare a alinierii, controlate de opțiunea A.
În mod implicit (A=0), numai punctele finale, asemănarea generală și orientarea intronilor
sunt raportate. Un semn săgeată (`->' sau `<-') indică orientarea intronului (`+' sau
`-' fir), când semnalele care flanchează intronul au trei sau mai multe potriviri de poziție cu
fie semnalele de recunoaștere a îmbinării GT-AG, fie CT-AC. Când același număr de meciuri
este găsit pentru ambele orientări, intronul este raportat ca ambiguu și reprezentat de
`--'. Semnul „==” marchează absența de la alinierea unui fragment de ADNc începând de la
pozitia respectiva. Formate alternative (format lav-block, text, „fișier exon” de tip PipMaker sau
anumite combinații ale acestor opțiuni) pot fi solicitate prin specificarea unei valori diferite
Pentru o.

Dacă opțiunea P este specificată cu o valoare diferită de zero, da4 va elimina orice poli-A cu capătul 3'
cozile pe care le detectează în aliniament.

Din cand in cand, da4 poate pierde un exon intern atunci când este înconjurat de introni foarte mari,
de obicei, mai mare de 100 Kb. Când se suspectează acest lucru, opțiunea H poate fi folosită pentru a reseta
greutatea exonilor pentru a compensa penalizarea decalajului intron.

Codurile de ambiguitate sunt permise implicit în datele secvenței, dar da4 ii trateaza non-
diferential. Dacă se dorește, opțiunea de comandă B poate restricționa setul de acceptabile
caractere la A, C, G, T, N și X numai.

da4 compară lungimile secvențelor de intrare pentru a distinge între ADNc („scurt”)
și componentele genomice („lungi”) în comparație. Cand seqfile2 conţine o colecţie
de secvențe, prima intrare din fișier va fi folosită pentru a determina tipul acesteia și
toate comparațiile ulterioare.

În descrierea de mai jos, termenul MSP denotă a Maximală Segment Paer, adică o pereche de
fragmente foarte asemănătoare în cele două secvențe, obținute în timpul procedurii de tip blast de către
extinderea unui W-mer lovit de meciuri și poate de câteva nepotriviri.

OPŢIUNI


Parametrii algoritmului (incluși în primele două secțiuni de mai jos) au fost deja
reglat și, în mod normal, nu necesită ajustare de către utilizator.

Parametri interni procedurii de tip explozie:

W Setează dimensiunea cuvântului pentru loviturile explozive în prima etapă a algoritmului. Implicit
valoarea este 12, dar poate fi crescută pentru o căutare mai strictă sau poate fi redusă la
găsiți potriviri mai slabe.

X Controlează limitele pentru terminarea extensiilor de cuvinte în etapa de tip explozie a
algoritm. Valoarea implicită este 12.

K Setează pragul pentru scorurile MSP atunci când se determină „nucleele exonilor” de bază,
în prima etapă a algoritmului. (Dacă această opțiune nu este specificată,
pragul este calculat din lungimile secvențelor, folosind statistici
criterii.) De exemplu, o valoare bună pentru secvențele genomice în intervalul câtorva
o sută Kb este 16. Pentru a evita potrivirile false, totuși, poate fi necesară o valoare mai mare
pentru secvențe mai lungi.

C Setează pragul pentru scorurile MSP la alinierea fragmentelor încă nepotrivite,
în timpul celei de-a doua etape a algoritmului. În mod implicit, cea mai mică dintre constante
12 și se alege un prag bazat pe statistici.

Parametri suplimentari ai algoritmului:

D Setează limita pentru distanța „diagonală” în cadrul MSP-urilor consecutive într-un exon. The
valoarea implicită este 10.

Parametri de context:

R Specifică direcția căutării. Dacă R=0, numai firul „+” (direct) este
căutat. Dacă R=1, sunt căutate doar potrivirile „-” (complement invers). În mod implicit
(R=2), sim4 caută ambele componente și raportează cea mai bună potrivire, măsurată prin
numărul de perechi potrivite în aliniament.

A Specifică formatul ieșirii: numai punctele finale exon (A=0), punctele finale exon și
limitele regiunii de codificare (CDS) în secvența genomică, atunci când este specificat pentru
mARN-ul de intrare (A=5), textul de aliniere (A=1), alinierea în format lav-bloc (A=2) sau
atât punctele finale ale exonului, cât și textul de aliniere (A=3 sau A=4). Dacă un complement invers se potrivește
se găsește, A=0,1,2,3,5 își va da poziția în firul „+” al celui mai lung
secvența și catena „-” a secvenței mai scurte. A=4 își va da poziția în
componenta „+” a primei secvențe (seqfile1) și componenta „-” a celei de-a doua
secvență (seqfile2), indiferent de ce secvență este mai lungă. Opțiunea A=5 poate fi
utilizat cu opțiunea de linie de comandă S pentru a specifica punctele finale ale CDS în
ARNm și produce rezultate în formatul „fișier exoni” cerut de PipMaker.

P Specifică dacă programul trebuie să raporteze sau nu fragmentul aliniamentului
care conține coada poli-A (dacă este găsită). În mod implicit (P=0) alinierea este afișată
așa cum a fost calculat, dar specificarea unei valori diferite de zero va solicita sim4 să elimine poli-A
cozi. Când această caracteristică este activată, toate opțiunile de afișare produc lav suplimentar
anteturi de aliniere.

H Resetează greutatea MSP-urilor pentru a compensa intronii foarte mari. Valoarea implicită este
H=500, dar unii introni mai mari de 100 Kb pot necesita valori mai mari, de obicei
între 1000 și 2500. Această opțiune trebuie utilizată cu prudență, în general în cazuri
unde o porțiune internă de neegalat a ADNc poate ascunde un exon ratat în a
intron foarte mare. Nu este recomandat pentru EST, unde pot produce false
exonii.

N Solicită o căutare suplimentară pentru exoni marginali mici (N=1) ghidate de splice-
semnale de recunoaștere a site-ului. Această opțiune poate fi utilizată atunci când este o potrivire de mare precizie
așteptat. Valoarea implicită este N=0, nespecificând nicio căutare suplimentară.

B Controlează setul de caractere permis în secvențele de introducere. Implicit (B=1),
caracterele de ambiguitate (ABCDGHKMNRSTVWXY) sunt permise. Specificând B=0, mulțimea de
caracterele acceptabile sunt limitate doar la A,C,G,T,N și X.

S Permite utilizatorului să specifice punctele finale ale CDS în ARNm de intrare, cu
sintaxă: S=n1..n2. Această opțiune este disponibilă numai cu steagul A=5, care produce
ieșire în formatul cerut de PipMaker. Alternativ, coordonatele CDS ar putea
apar într-un construct CDS=n1..n2 în antetul FastA al secvenței ARNm. Cand
al doilea fișier este o bază de date ARNm, specificația liniei de comandă pentru CDS va
se aplică numai la prima secvență din fișier.

EXEMPLE


sim4 este genomic

sim4 genomic estdb

sim4 est genomic A=1 P=1

sim4 est1 est2 R=1

sim4 mARN genomic A=5 S=123..1020

sim4 mouse_cDNA uman_genomic K=15 C=11 A=3 W=10

AUTORI


sim4 a fost scris de Liliana Floreaflorea@gwu.edu> și Scott Schwartz.

Această pagină de manual a fost scrisă de Nelson A. de Oliveiranaoliv@gmail.com>, pe baza
documentație online la http://globin.cse.psu.edu/html/docs/sim4.html, pentru Debian
proiect (dar poate fi folosit de alții).

Miercuri, 03 Aug 2005 18:40:58 -0300 SIM4(1)

Utilizați sim4 online folosind serviciile onworks.net



Cele mai recente programe online Linux și Windows