hmmsim - Dalam talian di Awan

Jalankan hmmsim dalam penyedia pengehosan percuma OnWorks melalui Ubuntu Online, Fedora Online, emulator dalam talian Windows atau emulator dalam talian MAC OS

Ini ialah arahan hmmsim yang boleh dijalankan dalam penyedia pengehosan percuma OnWorks menggunakan salah satu daripada berbilang stesen kerja dalam talian percuma kami seperti Ubuntu Online, Fedora Online, emulator dalam talian Windows atau emulator dalam talian MAC OS.

Jalankan dalam Ubuntu Berlari di Fedora Jalankan dalam Windows Sim Jalankan dalam MACOS Sim

JADUAL:

NAMA

hmmsim - kumpulkan taburan skor pada urutan rawak

SINOPSIS

hmmsim [pilihan]

DESCRIPTION

. hmmsim program menjana urutan rawak, menjaringkannya dengan model dalam ,
dan mengeluarkan pelbagai jenis histogram, plot, dan taburan yang dipasang untuk terhasil
skor.

hmmsim bukan bahagian arus perdana pakej HMMER. Kebanyakan pengguna tidak mempunyai sebab untuk melakukannya
gunakannya. Ia digunakan untuk membangunkan dan menguji kaedah statistik yang digunakan untuk menentukan nilai-P
dan E-nilai dalam HMMER3. Sebagai contoh, ia digunakan untuk menjana kebanyakan hasil pada tahun 2008
kertas mengenai statistik penjajaran tempatan H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Kerana ia adalah ujian penyelidikan, anda tidak boleh mengharapkan ia sekukuh yang lain
program dalam pakej. Sebagai contoh, pilihan mungkin berinteraksi dengan cara yang pelik; kita belum
diuji atau cuba untuk menjangka semua kombinasi yang mungkin berbeza.

Tugas utama adalah untuk menyesuaikan pengedaran Gumbel kemungkinan maksimum kepada skor Viterbi atau an
ekor eksponen kemungkinan maksimum kepada skor Hadapan berskor tinggi, dan untuk menguji bahawa ini
pengedaran yang sesuai mematuhi sangkaan bahawa lambda ~ log_2 untuk kedua-dua Viterbi Gumbel
dan ekor eksponen Hadapan.

Output ialah jadual nombor, satu baris untuk setiap model. Empat padanan parametrik berbeza
kepada data skor diuji: (1) kemungkinan maksimum sesuai dengan kedua-dua lokasi (mu/tau) dan
parameter cerun (lambda); (2) dengan mengandaikan lambda=log_2, kemungkinan maksimum sesuai dengan
parameter lokasi sahaja; (3) sama tetapi mengandaikan lambda yang diperbetulkan tepi, menggunakan arus
prosedur dalam H3 [Eddy, 2008]; dan (4) menggunakan kedua-dua parameter yang ditentukan oleh arus H3
prosedur. Statistik standard yang mudah, cepat dan kotor untuk kebaikan-kesesuaian ialah 'E@10',
nilai E yang dikira untuk hit teratas di kedudukan ke-10, yang kami jangkakan adalah kira-kira 10.

Secara terperinci, lajur output ialah:

nama Nama model.

ekor Pecahan markah tertinggi yang digunakan untuk menepati taburan. Untuk Viterbi, MSV, dan
Skor hibrid, ini lalai kepada 1.0 (taburan Gumbel dipasang pada semua
data). Untuk skor Hadapan, ini lalai kepada 0.02 (ekor eksponen dipasang pada
markah 2% tertinggi).

mu/tau Parameter lokasi untuk kebarangkalian maksimum yang sesuai dengan data.

lambda Parameter cerun untuk kebarangkalian maksimum yang sesuai dengan data.

E@10 Nilai E yang dikira untuk skor tinggi kedudukan ke-10 ('E@10') menggunakan ML mu/tau
dan lambda. Mengikut takrifan, ini dijangkakan kira-kira 10, jika anggaran nilai E adalah
tepat.

mufix Parameter lokasi, untuk kesesuaian kemungkinan maksimum dengan cerun (tetap) yang diketahui
parameter lambda log_2 (0.693).

E@10fix
Nilai E dikira untuk skor kedudukan ke-10 menggunakan mufix dan jangkaan
lambda = log_2 = 0.693.

mufix2 Parameter lokasi, untuk kesesuaian kemungkinan maksimum dengan pembetulan kesan tepi
lambda.

E@10fix2
Nilai E yang dikira untuk skor kedudukan ke-10 menggunakan mufix2 dan kesan tepi-
lambda diperbetulkan.

pmu Parameter lokasi seperti yang ditentukan oleh prosedur anggaran H3.

plambda
Parameter cerun seperti yang ditentukan oleh prosedur anggaran H3.

pE@10 Nilai E dikira untuk skor kedudukan ke-10 menggunakan pmu, plambda.

Pada penghujung jadual ini, satu lagi baris dicetak, bermula dengan # dan meringkaskan
keseluruhan masa CPU yang digunakan oleh simulasi.

Beberapa fail output pilihan adalah dalam format xmgrace xy. xmgrace berkuasa dan bebas
perisian graf-plot yang tersedia.

PELBAGAI PILIHAN

-h Bantuan; cetak peringatan ringkas tentang penggunaan baris arahan dan semua pilihan yang tersedia.

-a Kumpulkan statistik panjang penjajaran Viterbi yang dijangka daripada setiap jujukan simulasi.
Ini hanya berfungsi dengan skor Viterbi (lalai; lihat --vit). Dua tambahan
medan dicetak dalam jadual output untuk setiap model: panjang min Viterbi
penjajaran, dan sisihan piawai.

-v (Verbose). Cetak markah juga, satu markah setiap baris.

-L Tetapkan panjang jujukan sampel rawak (tidak homolog) kepada . Yang
lalai adalah 100.

-N Tetapkan bilangan urutan sampel rawak kepada . Lalai ialah 1000.

--mpi Jalankan dalam mod selari MPI, di bawah mpirun. Ia adalah selari pada tahap penghantaran
satu profil pada satu masa kepada proses pekerja MPI, jadi penyelarasan hanya membantu jika
anda mempunyai lebih daripada satu profil dalam , dan anda mahu mempunyai sekurang-kurangnya sebagai
banyak profil sebagai proses pekerja MPI. (Hanya tersedia jika sokongan MPI pilihan adalah
didayakan pada masa penyusunan.)

PILIHAN MENGAWAL OUTPUT

-o Simpan jadual keluaran utama ke fail daripada menghantarnya ke stdout.

--fail
Apabila mengumpul statistik penjajaran Viterbi (the -a pilihan), untuk setiap sampel
urutan, keluarkan dua medan setiap baris ke fail : panjang optimum
penjajaran, dan skor bit Viterbi. Memerlukan bahawa -a pilihan juga digunakan.

--efile
Keluarkan plot pangkat lwn. E-nilai dalam format XMGRACE xy ke fail . Paksi-x ialah
pangkat urutan ini, dari skor tertinggi hingga terendah; paksi-y ialah nilai-E
dikira untuk urutan ini. E-nilai dikira menggunakan prosedur lalai H3
(iaitu pmu, parameter plambda dalam jadual output). Anda mengharapkan perlawanan yang sukar
antara pangkat dan nilai-E jika nilai-E dianggarkan dengan tepat.

--fail
Keluarkan fail "kuasa penapis" ke : untuk setiap model, satu baris dengan tiga medan:
nama model, bilangan jujukan yang melepasi ambang nilai P, dan pecahan daripada
jujukan yang melepasi ambang nilai P. Lihat --pthresh untuk menetapkan nilai-P
ambang, yang lalai kepada 0.02 (ambang penapis MSV lalai dalam H3). P-
nilai adalah seperti yang ditentukan oleh prosedur lalai H3 (parameter pmu,plambda dalam
jadual keluaran). Jika semuanya baik, anda menjangkakan untuk melihat kuasa penapis yang sama dengan
meramalkan penetapan nilai P bagi ambang.

--pfile
Keluarkan plot survival kumulatif (P(S>x)) ke fail dalam format XMGRACE xy. di sana
adalah tiga plot: (1) taburan skor yang diperhatikan; (2) kemungkinan maksimum
pengedaran dipasang; (3) kebarangkalian maksimum sesuai dengan parameter lokasi
(mu/tau) manakala
andaikan lambda=log_2.

--xfile
Keluarkan skor bit sebagai tatasusunan binari terapung berketepatan ganda (8 bait setiap
skor) ke fail . Program seperti Easel's esl-histplot boleh membaca fail binari tersebut.
Ini berguna apabila menjana saiz sampel yang sangat besar.

PILIHAN MENGAWAL MODEL CONFIGURATION (FASHION)

H3 hanya menggunakan penjajaran tempatan multihit ( --fs mod), dan di sinilah kami percaya
kesesuaian statistik. Skor penjajaran tempatan Unihit (Smith/Waterman; --sw mod) juga mematuhi kami
sangkaan statistik. Statistik penjajaran glokal (sama ada multihit atau unihit) adalah
masih tidak cukup difahami atau dipasang dengan secukupnya.

--fs Kumpul skor penjajaran tempatan berbilang hit. Ini adalah lalai. penjajaran sebagai
'mod carian serpihan'.

--sw Kumpul skor penjajaran tempatan unihit. Keadaan H3 J dilumpuhkan. penjajaran sebagai
'Mod carian Smith/Waterman'.

--ls Kumpul skor penjajaran glokal multihit. Dalam penjajaran glokal (global/tempatan), the
keseluruhan model mesti diselaraskan, dengan urutan sasaran. Kemasukan/keluar tempatan H3
kebarangkalian peralihan dilumpuhkan. 'ls' berasal daripada sejarah HMMER2
terminologi untuk penjajaran tempatan berbilang hit sebagai 'mod carian tempatan'.

--s Kumpul skor penjajaran glokal unihit. Kedua-dua negeri H3 J dan kemasukan/keluar tempatan
kebarangkalian peralihan dilumpuhkan. 's' berasal daripada sejarah HMMER2
terminologi untuk penjajaran glokal unihit.

PILIHAN MENGAWAL PEMARKAHAN ALGORITMA

--vit Kumpul skor penjajaran kemungkinan maksimum Viterbi. Ini adalah lalai.

--fwd Kumpul skor kemungkinan log-odds ke hadapan, dijumlahkan ke atas ensembel penjajaran.

--hyb Kumpul skor 'Hibrid', seperti yang diterangkan dalam kertas oleh Yu dan Hwa (contohnya,
Bioinformatik 18:864, 2002). Ini melibatkan pengiraan matriks Hadapan dan pengambilan
nilai sel maksimum. Nombor itu sendiri secara statistik agak tidak bermotivasi,
tetapi pengedaran itu dijangka merupakan pengedaran nilai ekstrem yang berkelakuan baik
(Gumbel).

--msv Kumpul skor MSV (berbilang segmen Viterbi yang tidak tertangkap), menggunakan mata utama H3
heuristik pecutan.

--cepat Untuk mana-mana pilihan di atas, gunakan pelaksanaan pengeluaran dioptimumkan H3 (menggunakan
pengvektoran SIMD). Lalai adalah untuk menggunakan pelaksanaan yang mengorbankan sedikit
jumlah ketepatan berangka. Ini boleh memasukkan bunyi yang mengelirukan
simulasi dan kesesuaian statistik, jadi apabila seseorang menjadi sangat prihatin tentang tepat
perincian, adalah lebih baik untuk dapat memfaktorkan sumber bunyi itu keluar.

PILIHAN MENGAWAL SESUAI TELUR BERJUMPA UNTUK KE DEPAN

Dalam sesetengah eksperimen, adalah berguna untuk memuatkan skor Maju pada julat ekor yang berbeza
jisim, bukan hanya satu. Pilihan ini menyediakan mekanisme untuk memasangkan
julat jarak jisim ekor yang berbeza. Untuk setiap jisim ekor yang berbeza, satu garisan dijana
dalam output.

--tmin
Tetapkan sempadan bawah pada taburan jisim ekor. (Lalai ialah 0.02 untuk
jisim ekor tunggal lalai.)

--tmax
Tetapkan sempadan atas pada taburan jisim ekor. (Lalai ialah 0.02 untuk
jisim ekor tunggal lalai.)

--tpoints
Tetapkan bilangan jisim ekor untuk dijadikan sampel, bermula dari --tmin dan berakhir pada --tmax.
(Lalai ialah 1, untuk lalai 0.02 jisim ekor tunggal.)

--tlinear
Sampel julat jisim ekor dengan jarak linear seragam. Lalai adalah untuk menggunakan
jarak logaritma seragam.

PILIHAN MENGAWAL H3 PARAMETER ANGGARAN KAEDAH

H3 menggunakan tiga simulasi jujukan rawak pendek untuk menganggar parameter lokasi untuk
taburan skor yang dijangkakan untuk skor MSV, skor Viterbi dan skor Hadapan. Ini
pilihan membolehkan simulasi ini diubah suai.

--EmL
Menetapkan panjang jujukan dalam simulasi yang menganggarkan parameter lokasi mu untuk
MSV E-nilai. Lalai ialah 200.

--EmN
Menetapkan bilangan jujukan dalam simulasi yang menganggarkan parameter lokasi mu
untuk nilai E MSV. Lalai ialah 200.

--EvL
Menetapkan panjang jujukan dalam simulasi yang menganggarkan parameter lokasi mu untuk
Viterbi E-nilai. Lalai ialah 200.

--EvN
Menetapkan bilangan jujukan dalam simulasi yang menganggarkan parameter lokasi mu
untuk nilai-E Viterbi. Lalai ialah 200.

--EfL
Menetapkan panjang jujukan dalam simulasi yang menganggarkan parameter lokasi tau
untuk nilai-E Hadapan. Lalai ialah 100.

--EfN
Menetapkan bilangan jujukan dalam simulasi yang menganggarkan parameter lokasi
tau untuk Forward E-values. Lalai ialah 200.

--Eft
Menetapkan pecahan jisim ekor agar muat dalam simulasi yang menganggarkan lokasi
parameter tau untuk nilai Forward. Lalai ialah 0.04.

MENGHILANGKAN PILIHAN

--gerai
Untuk menyahpepijat versi induk/pekerja MPI: jeda selepas mula, untuk mendayakan
pembangun untuk melampirkan penyahpepijat pada proses induk dan pekerja yang sedang berjalan. Hantar
Isyarat SIGCONT untuk melepaskan jeda. (Di bawah gdb: (Gdb) isyarat TANDATANGAN) (Sahaja
tersedia jika sokongan MPI pilihan didayakan pada masa penyusunan.)

--benih
Tetapkan benih nombor rawak kepada . Lalai ialah 0, yang menjadikan nombor rawak
penjana menggunakan benih sewenang-wenangnya, supaya larian yang berbeza hmmsim akan hampir
sudah tentu menghasilkan sampel statistik yang berbeza. Untuk penyahpepijatan, ia berguna untuk
memaksa keputusan yang boleh dihasilkan semula, dengan menetapkan benih nombor rawak.

PERCUBAAN PILIHAN

Pilihan ini digunakan dalam pelbagai kecil eksperimen penerokaan yang berbeza.

--bgflat
Tetapkan pengedaran sisa latar belakang kepada pengedaran seragam, kedua-duanya untuk
tujuan model nol yang digunakan dalam mengira markah, dan untuk menjana
urutan rawak. Lalai adalah menggunakan kekerapan latar belakang asid amino standard
Pengedaran.

--bgcomp
Tetapkan taburan sisa latar belakang kepada min komposisi profil.
Ini digunakan dalam meneroka beberapa kesan komposisi berat sebelah.

--x-tiada-model panjang
Matikan model panjang jujukan sasaran H3. Tetapkan peralihan kendiri untuk N,C,J
dan model nol kepada 350/351 sebaliknya; ini meniru HMMER2. Bukan idea yang baik dalam
umum. Ini digunakan untuk menunjukkan salah satu perbezaan H2 vs. H3 utama.

--nu
Tetapkan parameter nu untuk algoritma MSV -- bilangan yang dijangkakan tempatan yang tidak ditangkap
penjajaran setiap jujukan sasaran. Lalai ialah 2.0, sepadan dengan E->J
kebarangkalian peralihan 0.5. Ini digunakan untuk menguji sama ada pelbagai nu mempunyai
kesan yang ketara pada hasil (nampaknya tidak, dalam alasan). Pilihan ini sahaja
berfungsi jika --msv dipilih (ia hanya menjejaskan MSV), dan ia tidak akan berfungsi dengannya --cepat
(kerana pelaksanaan yang dioptimumkan dirangkaikan untuk menganggap nu=2.0).

--pthresh
Tetapkan ambang nilai P penapis untuk digunakan dalam menjana fail kuasa penapis
--fail. Lalai ialah 0.02 (yang sesuai untuk menguji skor MSV,
kerana ini ialah ambang penapis MSV lalai dalam saluran paip pecutan H3.)
Pilihan lain yang sesuai (padanan lalai dalam saluran paip pecutan) ialah
0.001 untuk Viterbi, dan 1e-5 untuk Hadapan.

Gunakan hmmsim dalam talian menggunakan perkhidmatan onworks.net