Aceasta este comanda ncbi-seg care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS
PROGRAM:
NUME
ncbi-seg - secvență(e) de segmente după complexitatea locală
REZUMAT
secvență ncbi-seg [ W ] [ K(1) ] [ K(2) ] [ -x ] [ opțiuni ]
DESCRIERE
ncbi-seg împarte secvențele în segmente contrastante de complexitate scăzută și înaltă
complexitate. Segmentele cu complexitate redusă definite de algoritm reprezintă „secvențe simple”
sau „regiuni părtinitoare din punct de vedere al compoziției”.
Segmentele de complexitate redusă optimizate local sunt produse la niveluri definite de stringență,
pe baza definițiilor formale ale complexității compoziționale locale (Wootton & Federhen, 1993).
Lungimile segmentelor și numărul de segmente pe secvență sunt determinate automat
prin algoritm.
Intrarea este un fișier de secvență formatat FASTA sau un fișier de bază de date care conține multe FASTA-
secvențe formatate. ncbi-seg este reglat pentru secvențe de aminoacizi. Pentru nucleotide
secvențe, vezi mai jos EXEMPLE DE SETURURI DE PARAMETRI.
Severitatea căutării segmentelor cu complexitate redusă este determinată de trei utilizatori
parametri definiți, lungimea ferestrei de declanșare [ W ], complexitatea declanșării [ K(1) ] și extindere
complexitate [ K(2)] (vezi mai jos la PARAMETRI). Valorile implicite furnizate sunt potrivite pentru
mascarea cu complexitate redusă a secvențelor de interogare de căutare în baza de date [ opțiunea -x necesară, vezi
de mai jos].
IESIRI AND APLICATII
(1) Secvență segmentată care poate fi citită [Implicit]. Regiunile de complexitate contrastantă sunt
afișat în „format arbore”. Vezi EXEMPLE.
(2) Mascare cu complexitate redusă (vezi Altschul et al, 1994). Produceți un format mascat FASTA
fișier, gata pentru introducere ca secvență de interogare pentru programele de căutare în baze de date, cum ar fi BLAST sau
FASTA. Aminoacizii din regiunile cu complexitate scăzută sunt înlocuiți cu caractere „x” [-x
opțiune]. Vezi EXEMPLE.
(3) Construirea bazei de date. Produceți fișiere formatate FASTA care conțin o complexitate redusă
segmente [-l opțiune] sau segmente cu complexitate ridicată [-h opțiune] sau ambele [-a opțiune]. Fiecare
segmentul este o secvență separată cu o linie de antet informativă.
ALGORITM
Algoritmul SEG are două etape. În primul rând, identificarea segmentelor brute aproximative ale
complexitate redusă; a doua optimizare locală.
În prima etapă, stringența și rezolvarea căutării de complexitate scăzută
segmentele este determinată de W, K(1) și K(2) parametri. Toate ferestrele de declanșare sunt
definite, inclusiv ferestre suprapuse, de lungime W și complexitate mai mică sau egală cu
K(1). „Complexitatea” aici este definită de ecuația (3) a lui Wootton & Federhen (1993). Fiecare
fereastra de declanșare este apoi extinsă într-un contig în ambele direcții prin îmbinarea cu extensia
ferestre, care sunt ferestre suprapuse de lungime W și complexitate mai mică sau egală cu
K(2). Fiecare contig este un segment brut.
În a doua etapă, fiecare segment brut este redus la o singură complexitate scăzută optimă
segment, care poate fi întregul segment brut, dar este de obicei o secvență. Optima
subsecvența are cea mai mică valoare a probabilității P(0) (ecuația (5) a lui Wootton și
Federhen, 1993).
PARAMETRI
Acești trei parametri numerici sunt în ordine obligatorie după numele fișierului de secvență.
Lungimea ferestrei de declanșare [ W ]. Un număr întreg mai mare decât zero [ Implicit 12 ].
Declanșează complexitatea. [K1]. Complexitatea maximă a unei ferestre de declanșare în unități de biți.
K1 trebuie să fie egal sau mai mare decât zero. Valoarea maximă este 4.322 (log[bază 2]20) pentru
secvențe de aminoacizi [Implicit 2.2].
Complexitatea extensiei [K2]. Complexitatea maximă a unei ferestre de extindere în unități de
biți. Numai valorile mai mari decât K1 sunt eficiente în extinderea ferestrelor declanșate. Gama de
valorile posibile sunt ca pentru K1 [ Implicit 2.5 ].
OPŢIUNI
Următoarele opțiuni pot fi plasate în orice ordine în linia de comandă după W, K1 și
Parametrii K2:
-a Ieșiți atât segmente de complexitate scăzută, cât și de mare complexitate într-un fișier formatat FASTA, ca
un set de intrări separate cu linii de antet.
-c [caractere-pe-linie]
Numărul de caractere de secvență pe linie de ieșire [Implicit 60]. Alte personaje, așa
ca numere de reziduuri, sunt suplimentare.
-h Afișează numai segmentele de mare complexitate dintr-un fișier formatat FASTA, ca un set de
intrări separate cu linii de antet.
-l Afișează numai segmentele cu complexitate redusă dintr-un fișier formatat FASTA, ca un set de
intrări separate cu linii de antet.
-m [lungime]
Lungimea minimă în reziduuri pentru un segment cu complexitate ridicată [implicit 0]. Mai scurt
segmentele sunt îmbinate cu segmente adiacente de complexitate redusă.
-o Afișați toate segmentele de complexitate redusă care se suprapun, declanșate independent [acestea sunt
fuzionat implicit].
-q Produceți un format de ieșire cu secvența într-un bloc numerotat cu marcaje pentru a ajuta
numărarea reziduurilor. Segmentele cu complexitate scăzută și cu complexitate ridicată sunt în jos și
respectiv caractere majuscule.
-t [lungime]
Parametrul „Lungimea maximă de tăiere” [implicit 100]. Aceasta controlează spațiul de căutare (și
timpul de căutare) în timpul optimizării segmentelor brute (vezi ALGORITM mai sus). De
implicit, subsecvențele cu 100 sau mai multe reziduuri mai scurte decât segmentul brut sunt omise
din căutare. Acest parametru poate fi mărit pentru a oferi o căutare mai extinsă dacă
segmentele brute sunt mai lungi de 100 de reziduuri.
-x Opțiunea de mascare pentru secvențele de aminoacizi. Fiecare secvență de intrare este reprezentată de a
o singură secvență de ieșire în format FASTA cu regiuni de complexitate redusă înlocuite cu șiruri
de caractere „x”.
EXEMPLE OF PARAMETRI SETURI
Parametrii impliciti sunt dați de „secvența ncbi-seg” (echivalent cu „secvența ncbi-seg 12
2.2 2.5’). Acești parametri sunt adecvați pentru mascarea cu complexitate redusă a multor amino
secvențe de acid [cu opțiunea -x].
Baza de date-baza de date comparații:
Parametrii de complexitate mai stringenți (mai mici) sunt potriviți atunci când secvențele mascate sunt
comparativ cu secvențele mascate. De exemplu, pentru căutări BLAST sau FASTA care compară două
bazele de date cu secvențe de aminoacizi, următoarea mascare poate fi aplicată ambelor baze de date:
baza de date ncbi-seg 12 1.8 2.0 -x
homopolimer analiză:
Pentru a examina toate subsecvențele homopolimerice de lungime (de exemplu) 7 sau mai mare:
secvența ncbi-seg 7 0 0
Neglobulare regiuni of proteină secvente:
Multe domenii lungi non-globulare pot fi diagnosticate la ferestre mai lungi, de obicei:
secvența ncbi-seg 45 3.4 3.75
Pentru unele domenii non-globulare mai scurte, următorul set este adecvat:
secvența ncbi-seg 25 3.0 3.3
nucleotida secvente:
Valoarea maximă a parametrilor de complexitate este 2 (log[bază 2]4). Pentru mascare, cel
următoarele este aproximativ echivalentă ca efect cu parametrii impliciti pentru aminoacid
secvente:
secvenţa ncbi-seg.na 21 1.4 1.6
EXEMPLE
Următorul este un fișier numit „prion” în format FASTA:
>PRIO_PRION MAJOR UMANO PRECURSOR PROTEIN PRION
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP
HGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA
VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV
ILLISFLIFLIVG
Linia de comandă:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa
oferă rezultatul standard de mai jos
>PRIO_PRION MAJOR UMANO PRECURSOR PROTEIN PRION
1-49 MANLGCWMLVLFVATWSDLGLCKKRPKPGG
WNTGGSRYPGQGSPGGNRY
ppqggggwgqphgggwgqphgggwgqphgg 50-94
gwgqphgggwgqggg
95-112 THSQWNKPSKPKTNMKHM
agaaaagavvgglggymlgsams 113-135
136-187 RPIIHFGSDYEDRYYRENMHRYPNQVYYRP
MDEYSNQNNFVHDCVNITIKQH
tvttttkgenftet 188-201
202-236 DVKMMERVVEQMCITQYERESQAYYQRGSS
MVLFS
sppvillisflifliv 237-252
253-253 G
Secvențele de complexitate scăzută sunt în stânga (minuscule) și secvențele de complexitate mare
sunt în dreapta (majusculă). Toate segmentele de secvență sunt citite de la stânga la dreapta și ale acestora
ordinea în secvență este de sus în jos, așa cum se arată în coloana centrală de reziduuri
numere.
Linia de comandă:
ncbi-seg /usr/share/doc/ncbi-seg/examples/prion.fa -x
oferă următorul fișier formatat FASTA:-
>PRIO_PRION MAJOR UMANO PRECURSOR PROTEIN PRION
MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYx
xxxxTHSQWNKPSKPKTNMKHMxxx
RPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV
NITIKQHxxxxDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSxxxx
xxG
Utilizați ncbi-seg online folosind serviciile onworks.net