InglesPransesEspanyol

Ad


OnWorks favicon

hmmsim - Online sa Cloud

Patakbuhin ang hmmsim sa OnWorks na libreng hosting provider sa Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

Ito ang command na hmmsim na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

PROGRAMA:

NAME


hmmsim - mangolekta ng mga pamamahagi ng marka sa mga random na pagkakasunud-sunod

SINOPSIS


hmmsim [mga pagpipilian]

DESCRIPTION


Ang hmmsim Ang programa ay bumubuo ng mga random na pagkakasunud-sunod, i-score ang mga ito gamit ang (mga) modelo sa ,
at naglalabas ng iba't ibang uri ng histograms, plots, at fitted distributions para sa resulta
mga marka

hmmsim ay hindi isang pangunahing bahagi ng HMMER package. Karamihan sa mga gumagamit ay walang dahilan upang
gamitin ito. Ito ay ginagamit upang bumuo at subukan ang mga istatistikal na pamamaraan na ginagamit upang matukoy ang mga P-values
at E-values ​​sa HMMER3. Halimbawa, ginamit ito upang makabuo ng karamihan sa mga resulta noong 2008
papel sa mga istatistika ng lokal na pagkakahanay ng H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Dahil isa itong research testbed, hindi mo dapat asahan na magiging kasing tibay ito ng iba
mga programa sa package. Halimbawa, maaaring makipag-ugnayan ang mga opsyon sa kakaibang paraan; hindi pa namin
sinubukan o sinubukang asahan ang lahat ng iba't ibang posibleng kumbinasyon.

Ang pangunahing gawain ay upang magkasya ang isang maximum na posibilidad ng pamamahagi ng Gumbel sa mga marka ng Viterbi o isang
maximum na posibilidad na exponential tail sa mataas na marka ng Forward na mga marka, at upang subukan na ang mga ito
ang mga angkop na pamamahagi ay sumusunod sa haka-haka na lambda ~ log_2 para sa parehong Viterbi Gumbel
at ang Forward exponential tail.

Ang output ay isang talahanayan ng mga numero, isang hilera para sa bawat modelo. Apat na magkakaibang parametric na akma
sa data ng marka ay sinusubok: (1) ang maximum na posibilidad ay magkasya sa parehong lokasyon (mu/tau) at
mga parameter ng slope (lambda); (2) sa pag-aakalang lambda=log_2, maximum na posibilidad na magkasya sa
parameter ng lokasyon lamang; (3) pareho ngunit ipinapalagay na isang edge-corrected lambda, gamit ang kasalukuyang
mga pamamaraan sa H3 [Eddy, 2008]; at (4) gamit ang parehong mga parameter na tinutukoy ng kasalukuyang H3
mga pamamaraan. Ang karaniwang simple, mabilis at maruming istatistika para sa goodness-of-fit ay 'E@10',
ang nakalkulang E-value ng 10th ranking top hit, na inaasahan naming nasa 10.

Sa detalye, ang mga column ng output ay:

pangalan Pangalan ng modelo.

buntot Fraction ng pinakamataas na marka na ginamit upang magkasya sa pamamahagi. Para sa Viterbi, MSV, at
Hybrid na mga marka, ito ay nagde-default sa 1.0 (isang pamamahagi ng Gumbel ay nilagyan ng lahat ng
data). Para sa mga Forward score, ito ay nagde-default sa 0.02 (isang exponential tail ay nilagyan ng
ang pinakamataas na 2% na marka).

mu/tau Parameter ng lokasyon para sa maximum na posibilidad na magkasya sa data.

lambda Parameter ng slope para sa maximum na posibilidad na magkasya sa data.

E@10 Ang E-value na kinakalkula para sa ika-10 na mataas na marka ('E@10') gamit ang ML mu/tau
at lambda. Sa pamamagitan ng kahulugan, ito ay inaasahang magiging humigit-kumulang 10, kung ang pagtatantya ng E-value ay
tumpak

mufix Parameter ng lokasyon, para sa maximum na posibilidad na magkasya sa isang kilalang (naayos) na slope
parameter lambda ng log_2 (0.693).

E@10fix
Ang E-value na kinakalkula para sa ika-10 na ranggo na marka gamit ang mufix at ang inaasahan
lambda = log_2 = 0.693.

mufix2 Parameter ng lokasyon, para sa maximum na posibilidad na magkasya sa isang edge-effect-corrected
lambda.

E@10fix2
Ang E-value na kinakalkula para sa ika-10 na ranggo na marka gamit ang mufix2 at ang edge-effect-
naitama ang lambda.

pmu Parameter ng lokasyon gaya ng tinutukoy ng mga pamamaraan ng pagtatantya ng H3.

plambda
Parameter ng slope gaya ng tinutukoy ng mga pamamaraan ng pagtatantya ng H3.

pE@10 Ang E-value na kinakalkula para sa ika-10 na ranggo na marka gamit ang pmu, plambda.

Sa dulo ng talahanayang ito, isa pang linya ang naka-print, na nagsisimula sa # at nagbubuod ng
pangkalahatang oras ng CPU na ginagamit ng mga simulation.

Ang ilan sa mga opsyonal na output file ay nasa xmgrace xy na format. Ang xmgrace ay makapangyarihan at malaya
magagamit na graph-plotting software.

IBA PA Opsyon


-h Tulong; mag-print ng maikling paalala ng paggamit ng command line at lahat ng available na opsyon.

-a Kolektahin ang inaasahang mga istatistika ng haba ng pagkakahanay ng Viterbi mula sa bawat simulate na sequence.
Gumagana lamang ito sa mga marka ng Viterbi (ang default; tingnan ang --vit). Dalawang karagdagang
ang mga field ay naka-print sa output table para sa bawat modelo: ang ibig sabihin ng haba ng Viterbi
alignments, at ang standard deviation.

-v (Verbose). I-print din ang mga score, isang puntos bawat linya.

-L Itakda ang haba ng random na na-sample (nonhomologous) sequence sa . ang
ang default ay 100.

-N Itakda ang bilang ng mga random na na-sample na sequence sa . Ang default ay 1000.

--mpi Patakbuhin sa MPI parallel mode, sa ilalim mpirun. Ito ay parallelized sa antas ng pagpapadala
isang profile sa isang pagkakataon sa isang proseso ng manggagawa ng MPI, kaya nakakatulong lamang ang parallelization kung
mayroon kang higit sa isang profile sa , at gusto mong magkaroon ng kahit man lang bilang
maraming profile bilang proseso ng manggagawa ng MPI. (Available lang kung ang opsyonal na suporta ng MPI ay
pinagana sa oras ng pag-compile.)

Opsyon KONTROL oUTPUT


-o I-save ang pangunahing talahanayan ng output sa isang file sa halip na ipadala ito sa stdout.

--afile
Kapag nangongolekta ng mga istatistika ng pagkakahanay ng Viterbi (ang -a opsyon), para sa bawat sample
sequence, mag-output ng dalawang field sa bawat linya sa isang file : ang haba ng pinakamainam
alignment, at ang Viterbi bit score. Nangangailangan na ang -a ginagamit din ang opsyon.

--efile
Mag-output ng rank vs. E-value plot sa XMGRACE xy na format para i-file . Ang x-axis ay ang
ranggo ng sequence na ito, mula sa pinakamataas na marka hanggang sa pinakamababa; ang y-axis ay ang E-value
kinakalkula para sa sequence na ito. Ang mga e-value ay kinakalkula gamit ang mga default na pamamaraan ng H3
(ibig sabihin ang pmu, mga parameter ng plambda sa talahanayan ng output). Inaasahan mo ang isang magaspang na laban
sa pagitan ng ranggo at E-value kung ang mga E-value ay tumpak na tinatantya.

--file
Mag-output ng "filter power" na file sa : para sa bawat modelo, isang linya na may tatlong field:
pangalan ng modelo, bilang ng mga sequence na pumasa sa P-value threshold, at fraction ng
mga sequence na pumasa sa P-value threshold. Tingnan mo --pthresh para sa pagtatakda ng P-value
threshold, na nagde-default sa 0.02 (ang default na threshold ng filter ng MSV sa H3). Ang P-
ang mga halaga ay tinutukoy ng mga default na pamamaraan ng H3 (ang mga parameter ng pmu,plambda sa
ang talahanayan ng output). Kung maayos ang lahat, inaasahan mong makita ang lakas ng filter na katumbas ng
hinulaang P-value na setting ng threshold.

--pfile
Mag-output ng mga pinagsama-samang survival plot (P(S>x)) upang i-file sa XMGRACE xy na format. doon
ay tatlong balangkas: (1) ang naobserbahang pamamahagi ng marka; (2) ang pinakamataas na posibilidad
angkop na pamamahagi; (3) isang maximum na posibilidad na magkasya sa parameter ng lokasyon
(mu/tau) habang
sa pag-aakalang lambda=log_2.

--xfile
I-output ang mga bit score bilang isang binary array ng double-precision floats (8 bytes per
puntos) upang i-file . Mga programa tulad ng Easel's esl-histplot maaaring basahin ang mga binary file.
Ito ay kapaki-pakinabang kapag bumubuo ng napakalaking laki ng sample.

Opsyon KONTROL MODEL Configuration (FASHION)


Gumagamit lamang ang H3 ng multihit local alignment ( --fs mode), at dito kami naniniwala sa
istatistikal na akma. Mga marka ng lokal na pagkakahanay ng Unihit (Smith/Waterman; --sw mode) sumunod din sa aming
istatistikal na haka-haka. Ang mga istatistika ng glocal alignment (alinman sa multihit o unihit) ay
hindi pa rin sapat na nauunawaan o sapat na angkop.

--fs Kolektahin ang mga multihit na lokal na marka ng pagkakahanay. Ito ang default. pagkakahanay bilang
'fragment search mode'.

--sw Kolektahin ang mga unihit na lokal na marka ng pagkakahanay. Ang estado ng H3 J ay hindi pinagana. pagkakahanay bilang
'Smith/Waterman search mode'.

--ls Kolektahin ang multihit glocal alignment score. Sa glocal (global/local) alignment, ang
ang buong modelo ay dapat na nakahanay, sa isang kasunod ng target. Ang lokal na pagpasok/paglabas ng H3
ang mga posibilidad ng paglipat ay hindi pinagana. Ang 'ls' ay mula sa makasaysayang HMMER2
terminolohiya para sa multihit local alignment bilang 'local search mode'.

--s Kolektahin ang unihit glocal alignment scores. Parehong ang estado ng H3 J at lokal na pagpasok/paglabas
ang mga posibilidad ng paglipat ay hindi pinagana. 's' ay mula sa makasaysayang HMMER2
terminolohiya para sa unihit glocal alignment.

Opsyon KONTROL PAGSUSULIT ALGORITMO


--vit Kolektahin ang Viterbi maximum likelihood alignment scores. Ito ang default.

--fwd Kolektahin ang Forward log-odds likelihood scores, summed over alignment ensemble.

--hyb Kolektahin ang mga marka ng 'Hybrid', gaya ng inilarawan sa mga papel nina Yu at Hwa (halimbawa,
Bioinformatics 18:864, 2002). Kabilang dito ang pagkalkula ng Forward matrix at pagkuha
ang maximum na halaga ng cell. Ang numero mismo ay medyo hindi motibasyon sa istatistika,
ngunit ang distribusyon ay inaasahang maging isang mahusay na pag-uugali na matinding pamamahagi ng halaga
(Gumbel).

--msv Kolektahin ang mga marka ng MSV (multiple ungapped segment Viterbi), gamit ang pangunahing H3
acceleration heuristic.

--mabilis Para sa alinman sa mga opsyon sa itaas, gamitin ang na-optimize na pagpapatupad ng produksyon ng H3 (gamit ang
SIMD vectorization). Ang default ay ang paggamit ng mga pagpapatupad na nagsasakripisyo ng kaunti
dami ng numerical precision. Maaari itong magpasok ng nakakalito na ingay
mga istatistikal na simulation at akma, kaya kapag ang isa ay labis na nag-aalala tungkol sa eksaktong
mga detalye, mas mainam na ma-factor ang pinagmumulan ng ingay.

Opsyon KONTROL KASAMA BUNTOT MGA MISA PARA SA FORWARD


Sa ilang mga eksperimento, kapaki-pakinabang na magkasya ang mga marka ng Pagpasa sa isang hanay ng iba't ibang buntot
masa, sa halip na isa lamang. Ang mga opsyong ito ay nagbibigay ng isang mekanismo para sa paglalagay ng pantay-
spaced range ng iba't ibang tail mass. Para sa bawat iba't ibang tail mass, isang linya ang nabuo
sa output.

--tmin
Itakda ang lower bound sa tail mass distribution. (Ang default ay 0.02 para sa
default na single tail mass.)

--tmax
Itakda ang upper bound sa tail mass distribution. (Ang default ay 0.02 para sa
default na single tail mass.)

--tpoints
Itakda ang bilang ng mga buntot na masa sa sample, simula sa --tmin at nagtatapos sa --tmax.
(Ang default ay 1, para sa default na 0.02 single tail mass.)

--tlinear
Mag-sample ng hanay ng tail mass na may pare-parehong linear spacing. Ang default ay ang gamitin
pare-parehong logarithmic spacing.

Opsyon KONTROL H3 PARAMETER PAGTATAYA PARAAN


Gumagamit ang H3 ng tatlong maikling random na sequence simulation upang matantya ang mga parameter ng lokasyon para sa
ang inaasahang pamamahagi ng marka para sa mga marka ng MSV, mga marka ng Viterbi, at mga marka ng Pagpasa. Ang mga ito
pinapayagan ng mga opsyon na mabago ang mga simulation na ito.

--EmL
Itinatakda ang haba ng sequence sa simulation na tinatantya ang parameter ng lokasyon na mu para sa
MSV E-values. Ang default ay 200.

--EmN
Itinatakda ang bilang ng mga sequence sa simulation na tinatantya ang parameter ng lokasyon mu
para sa mga MSV E-values. Ang default ay 200.

--EvL
Itinatakda ang haba ng sequence sa simulation na tinatantya ang parameter ng lokasyon na mu para sa
Viterbi E-halaga. Ang default ay 200.

--EvN
Itinatakda ang bilang ng mga sequence sa simulation na tinatantya ang parameter ng lokasyon mu
para sa Viterbi E-values. Ang default ay 200.

--EfL
Itinatakda ang haba ng sequence sa simulation na tinatantya ang parameter ng lokasyon tau
para sa Forward E-values. Ang default ay 100.

--EfN
Itinatakda ang bilang ng mga sequence sa simulation na tinatantya ang parameter ng lokasyon
tau para sa Forward E-values. Ang default ay 200.

--Eft
Itinatakda ang tail mass fraction upang magkasya sa simulation na tinatantya ang lokasyon
parameter tau para sa Forward evalues. Ang default ay 0.04.

NAG-DEBUGG Opsyon


--stall
Para sa pag-debug sa bersyon ng master/manggagawa ng MPI: i-pause pagkatapos magsimula, upang paganahin ang
developer na mag-attach ng mga debugger sa tumatakbong master at (mga) proseso ng manggagawa. Ipadala
SIGCONT signal para bitawan ang pause. (Sa ilalim ng gdb: (Gdb) senyas NEXTCONT) (Tanging
magagamit kung ang opsyonal na suporta ng MPI ay pinagana sa oras ng pag-compile.)

--binhi
Itakda ang random number seed sa . Ang default ay 0, na gumagawa ng random na numero
generator ay gumagamit ng isang arbitrary na buto, upang ang iba't ibang mga run ng hmmsim ay halos
tiyak na makabuo ng ibang istatistikal na sample. Para sa pag-debug, ito ay kapaki-pakinabang sa
pilitin ang mga reproducible na resulta, sa pamamagitan ng pag-aayos ng random number seed.

NALALAMAN Opsyon


Ginamit ang mga opsyong ito sa isang maliit na iba't ibang mga eksperimento sa pagtuklas.

--bgflat
Itakda ang pamamahagi ng nalalabi sa background sa isang pare-parehong pamamahagi, pareho para sa
mga layunin ng null model na ginamit sa pagkalkula ng mga marka, at para sa pagbuo ng
mga random na pagkakasunud-sunod. Ang default ay ang paggamit ng karaniwang dalas ng background ng amino acid
pamamahagi.

--bgcomp
Itakda ang pamamahagi ng nalalabi sa background sa ibig sabihin ng komposisyon ng profile.
Ginamit ito sa paggalugad ng ilan sa mga epekto ng pinapanigang komposisyon.

--x-walang-lengthmodel
I-off ang H3 target sequence length model. Itakda ang mga self-transition para sa N,C,J
at ang null na modelo sa halip ay 350/351; ito emulates HMMER2. Hindi magandang ideya sa
pangkalahatan. Ginamit ito upang ipakita ang isa sa mga pangunahing pagkakaiba ng H2 kumpara sa H3.

--nu
Itakda ang parameter ng nu para sa MSV algorithm -- ang inaasahang bilang ng hindi nagamit na lokal
mga pagkakahanay sa bawat target na pagkakasunud-sunod. Ang default ay 2.0, na tumutugma sa isang E->J
posibilidad ng paglipat ng 0.5. Ginamit ito upang subukan kung mayroon ang iba't ibang nu
makabuluhang epekto sa resulta (mukhang hindi, sa loob ng dahilan). Ang pagpipiliang ito lamang
gumagana kung --msv ay pinili (ito ay nakakaapekto lamang sa MSV), at hindi ito gagana --mabilis
(dahil ang mga na-optimize na pagpapatupad ay hardwired upang ipalagay na nu=2.0).

--pthresh
Itakda ang filter na P-value threshold na gagamitin sa pagbuo ng mga filter na power file gamit ang
--file. Ang default ay 0.02 (na magiging angkop para sa pagsubok ng mga marka ng MSV,
dahil ito ang default na threshold ng filter ng MSV sa pipeline ng acceleration ng H3.)
Ang iba pang naaangkop na mga pagpipilian (nagtutugma ng mga default sa pipeline ng acceleration) ay magiging
0.001 para sa Viterbi, at 1e-5 para sa Forward.

Gamitin ang hmmsim online gamit ang mga serbisyo ng onworks.net


Mga Libreng Server at Workstation

Mag-download ng Windows at Linux apps

Linux command

Ad