hmmsim - ออนไลน์ในคลาวด์

นี่คือคำสั่ง hmmsim ที่สามารถเรียกใช้ในผู้ให้บริการโฮสติ้งฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

โครงการ:

ชื่อ


hmmsim - รวบรวมการแจกแจงคะแนนตามลำดับแบบสุ่ม

เรื่องย่อ


อืมมม [ตัวเลือก]

DESCRIPTION


พื้นที่ อืมมม โปรแกรมสร้างลำดับแบบสุ่ม ให้คะแนนด้วยแบบจำลองใน ,
และแสดงผลฮิสโทแกรม แผนผัง และการกระจายแบบต่างๆ สำหรับผลลัพธ์
คะแนน

อืมมม ไม่ใช่ส่วนหลักของแพ็คเกจ HMMER ผู้ใช้ส่วนใหญ่จะไม่มีเหตุผลที่จะ
ใช้มัน. ใช้เพื่อพัฒนาและทดสอบวิธีการทางสถิติที่ใช้ในการกำหนดค่า P
และค่า E ใน HMMER3 ตัวอย่างเช่น ใช้เพื่อสร้างผลลัพธ์ส่วนใหญ่ในปี 2008
กระดาษเกี่ยวกับสถิติการจัดตำแหน่งในพื้นที่ของ H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

เนื่องจากเป็นห้องทดสอบการวิจัย คุณไม่ควรคาดหวังว่ามันจะแข็งแกร่งเหมือนที่อื่นๆ
โปรแกรมในแพ็คเกจ ตัวอย่างเช่น ตัวเลือกอาจโต้ตอบในลักษณะแปลก ๆ เราไม่ได้
ทดสอบหรือพยายามคาดการณ์ชุดค่าผสมที่เป็นไปได้ทั้งหมด

ภารกิจหลักคือจัดการกระจาย Gumbel ที่เป็นไปได้สูงสุดให้กับคะแนน Viterbi หรือ an
โอกาสสูงสุดเลขชี้กำลังถึงคะแนนไปข้างหน้าคะแนนสูงและเพื่อทดสอบว่าสิ่งเหล่านี้
การแจกแจงแบบพอดีเป็นไปตามการคาดเดาที่แลมบ์ดา ~ log_2 สำหรับทั้ง Viterbi Gumbel
และหางเลขชี้กำลังไปข้างหน้า

ผลลัพธ์คือตารางตัวเลข หนึ่งแถวสำหรับแต่ละรุ่น พารามิเตอร์สี่แบบที่แตกต่างกัน
ทดสอบข้อมูลคะแนน: (1) โอกาสสูงสุดที่เหมาะสมกับทั้งสถานที่ (mu/tau) และ
พารามิเตอร์ความชัน (แลมบ์ดา); (2) สมมติว่า lambda=log_2 โอกาสสูงสุดที่พอดีกับ
พารามิเตอร์ตำแหน่งเท่านั้น (3) เหมือนกัน แต่สมมติว่าแลมบ์ดาแก้ไขขอบโดยใช้กระแส
ขั้นตอนใน H3 [Eddy, 2008]; และ (4) ใช้ทั้งสองพารามิเตอร์ที่กำหนดโดยกระแสของ H3
ขั้นตอน สถิติมาตรฐานที่เรียบง่าย รวดเร็ว และสกปรกสำหรับความพอดีคือ 'E@10'
ค่า E-value ที่คำนวณได้ของอันดับที่ 10 อันดับสูงสุด ซึ่งเราคาดว่าจะอยู่ที่ประมาณ 10

ในรายละเอียด คอลัมน์ของผลลัพธ์คือ:

ชื่อ ชื่อรุ่น.

หาง เศษส่วนของคะแนนสูงสุดที่ใช้ประกอบการแจกแจง สำหรับ Viterbi, MSV และ
คะแนนไฮบริด ค่าเริ่มต้นนี้เป็น 1.0 (การกระจาย Gumbel พอดีกับทุก
ข้อมูล). สำหรับคะแนนไปข้างหน้า ค่าเริ่มต้นนี้จะเป็น 0.02 (หางเลขชี้กำลังพอดีกับ
คะแนนสูงสุด 2%)

มู/เทา พารามิเตอร์ตำแหน่งสำหรับโอกาสสูงสุดที่เหมาะสมกับข้อมูล

แลมบ์ดา พารามิเตอร์ความชันสำหรับโอกาสสูงสุดที่พอดีกับข้อมูล

อี@10 ค่า E ที่คำนวณสำหรับคะแนนสูงสุดอันดับที่ 10 ('E@10') โดยใช้ ML mu/tau
และแลมบ์ดา ตามคำจำกัดความ ค่านี้คาดว่าจะอยู่ที่ประมาณ 10 ถ้าการประมาณค่า E เป็น
ถูกต้อง

มัฟฟิกซ์ พารามิเตอร์ตำแหน่งสำหรับโอกาสสูงสุดที่พอดีกับความชันที่ทราบ (คงที่)
พารามิเตอร์แลมบ์ดาของ log_2 (0.693)

E@10แก้ไข
ค่า E ที่คำนวณสำหรับคะแนนอันดับที่ 10 โดยใช้ mufix และค่าที่คาดหวัง
แลมบ์ดา = log_2 = 0.693

มูฟิกซ์2 พารามิเตอร์ตำแหน่ง เพื่อความน่าจะเป็นสูงสุดกับการแก้ไขขอบผล
แลมบ์ดา

E@10fix2
ค่า E-value ที่คำนวณสำหรับคะแนนอันดับที่ 10 โดยใช้ mufix2 และ edge-effect-
แก้ไขแลมบ์ดา

PMU พารามิเตอร์ตำแหน่งที่กำหนดโดยขั้นตอนการประมาณค่าของ H3

พลัมดา
ค่าพารามิเตอร์ความชันตามกระบวนการประมาณค่าของ H3

พีอี@10 ค่า E ที่คำนวณสำหรับคะแนนอันดับที่ 10 โดยใช้ pmu, plambda

ที่ส่วนท้ายของตารางนี้ มีการพิมพ์อีกบรรทัดหนึ่ง เริ่มด้วย # และสรุป
เวลา CPU โดยรวมที่ใช้โดยการจำลอง

ไฟล์เอาต์พุตที่เป็นทางเลือกบางไฟล์อยู่ในรูปแบบ xmgrace xy xmgrace นั้นทรงพลังและอิสระ
ซอฟต์แวร์พล็อตกราฟที่มีอยู่

เบ็ดเตล็ด OPTIONS


-h ช่วย; พิมพ์การแจ้งเตือนสั้นๆ เกี่ยวกับการใช้บรรทัดคำสั่งและตัวเลือกที่มีทั้งหมด

-a รวบรวมสถิติความยาวการจัดตำแหน่ง Viterbi ที่คาดไว้จากแต่ละลำดับการจำลอง
ใช้งานได้กับคะแนน Viterbi เท่านั้น (ค่าเริ่มต้น see --วิต). เพิ่มอีกสอง
ฟิลด์จะถูกพิมพ์ในตารางผลลัพธ์สำหรับแต่ละรุ่น: ความยาวเฉลี่ยของViterbi
การจัดตำแหน่งและส่วนเบี่ยงเบนมาตรฐาน

-v (ละเอียด). พิมพ์คะแนนด้วย หนึ่งคะแนนต่อบรรทัด

-L กำหนดความยาวของลำดับสุ่มตัวอย่าง (ไม่เท่ากัน) เป็น .
ค่าเริ่มต้นคือ 100

-N ตั้งค่าจำนวนลำดับการสุ่มตัวอย่างเป็น . ค่าเริ่มต้นคือ 1000

--mpi ทำงานในโหมดขนาน MPI ภายใต้ มปีรัน. เป็นแบบขนานที่ระดับการส่ง
ทีละโปรไฟล์ไปยังกระบวนการของผู้ปฏิบัติงาน MPI ดังนั้นการขนานจะช่วยได้ก็ต่อเมื่อ
คุณมีโปรไฟล์มากกว่าหนึ่งรายการใน และคุณต้องการมีอย่างน้อย as
โปรไฟล์จำนวนมากตามกระบวนการของผู้ปฏิบัติงาน MPI (ใช้ได้ก็ต่อเมื่อการรองรับ MPI ที่เป็นตัวเลือกคือ
เปิดใช้งานในเวลาคอมไพล์)

OPTIONS การควบคุม เอาท์พุท


-o บันทึกตารางผลลัพธ์หลักไปยังไฟล์ แทนที่จะส่งไปที่ stdout

--ไฟล์
เมื่อรวบรวมสถิติการจัดตำแหน่ง Viterbi (the -a ตัวเลือก) สำหรับแต่ละตัวอย่าง
ลำดับ ส่งออกสองฟิลด์ต่อบรรทัดไปยังไฟล์ : ความยาวของค่าที่เหมาะสมที่สุด
การจัดตำแหน่งและคะแนนบิต Viterbi กำหนดให้ -a นอกจากนี้ยังใช้ตัวเลือก

--efile
ส่งออกอันดับเทียบกับพล็อตค่า E ในรูปแบบ XMGRACE xy เป็นไฟล์ . แกน x คือ
อันดับของลำดับนี้ จากคะแนนสูงสุดไปต่ำสุด แกน y คือ E-value
คำนวณสำหรับลำดับนี้ ค่า E คำนวณโดยใช้ขั้นตอนเริ่มต้นของ H3
(เช่นพารามิเตอร์ pmu, plambda ในตารางผลลัพธ์) คุณคาดหวังการแข่งขันที่ดุเดือด
ระหว่างอันดับและค่า E หากค่า E ถูกประมาณการอย่างแม่นยำ

--ไฟล์
ส่งออกไฟล์ "กำลังกรอง" ไปที่ : สำหรับแต่ละรุ่น บรรทัดที่มีสามช่อง:
ชื่อรุ่น จำนวนลำดับที่ผ่านเกณฑ์ค่า P และเศษส่วนของ
ลำดับที่ผ่านเกณฑ์ค่า P ดู --phresh สำหรับการตั้งค่า P-value
เกณฑ์ซึ่งมีค่าเริ่มต้นเป็น 0.02 (เกณฑ์ตัวกรอง MSV เริ่มต้นใน H3) พี-
ค่าจะถูกกำหนดโดยโพรซีเดอร์เริ่มต้นของ H3 (พารามิเตอร์ pmu,plambda ใน
ตารางผลลัพธ์) ถ้าทุกอย่างเป็นไปด้วยดี คุณคาดว่าจะเห็นพลังของตัวกรองเท่ากับ
การตั้งค่า P-value ที่คาดการณ์ไว้ของเกณฑ์

--pfile
แปลงเอาท์พุตการอยู่รอดสะสม (P(S>x)) ไปยังไฟล์ ในรูปแบบ XMGRACE xy ที่นั่น
มีสามแปลง: (1) การกระจายคะแนนที่สังเกต; (2) ความเป็นไปได้สูงสุด
การกระจายแบบพอดี (3) โอกาสสูงสุดที่เหมาะสมกับพารามิเตอร์ตำแหน่ง
(mu/tau) ในขณะที่
สมมติว่า lambda=log_2.

--xfile
ส่งออกคะแนนบิตเป็นอาร์เรย์ไบนารีของทุ่นความแม่นยำสองเท่า (8 ไบต์ต่อ
คะแนน) เพื่อยื่น . โปรแกรมต่างๆ เช่น Easel's esl-histplot สามารถอ่านไฟล์ไบนารีดังกล่าวได้
สิ่งนี้มีประโยชน์ในการสร้างขนาดตัวอย่างที่ใหญ่มาก

OPTIONS การควบคุม MODEL การกำหนดค่า (แฟชั่น)


H3 ใช้การจัดตำแหน่งในพื้นที่ multihit เท่านั้น ( --ฉ โหมด) และนี่คือที่ที่เราเชื่อว่า
สถิติพอดี คะแนนการจัดตำแหน่งท้องถิ่น Unihit (Smith/Waterman; --สว โหมด) ก็เชื่อฟังของเรา
การคาดเดาทางสถิติ สถิติการจัดตำแหน่งโดยรวม (ทั้งแบบหลายรายการหรือแบบยูนิฮิต) คือ
ยังไม่เข้าใจอย่างพอเพียงหรือเหมาะสม

--ฉ รวบรวมคะแนนการจัดตำแหน่งในพื้นที่ multihit นี่คือค่าเริ่มต้น การจัดตำแหน่งเป็น
'โหมดค้นหาส่วนย่อย'

--สว รวบรวมคะแนนการจัดตำแหน่งท้องถิ่น unihit สถานะ H3 J ถูกปิดใช้งาน การจัดตำแหน่งเป็น
'โหมดค้นหา Smith / Waterman'

--ล รวบรวมคะแนนการจัดตำแหน่ง glocal multihit ในการจัดตำแหน่ง glocal (ทั่วโลก/ท้องถิ่น) the
โมเดลทั้งหมดต้องจัดตำแหน่งให้สอดคล้องกับเป้าหมาย ทางเข้า/ออก H3 ในพื้นที่
ความน่าจะเป็นของการเปลี่ยนแปลงถูกปิดใช้งาน 'ls' มาจากประวัติศาสตร์ของ HMMER2
คำศัพท์สำหรับการจัดตำแหน่งท้องถิ่น multihit เป็น 'โหมดการค้นหาในท้องถิ่น'

--NS รวบรวมคะแนนการจัดตำแหน่ง unihit glocal ทั้งสถานะ H3 J และการเข้า/ออกในพื้นที่
ความน่าจะเป็นของการเปลี่ยนแปลงถูกปิดใช้งาน 's' มาจากประวัติศาสตร์ของ HMMER2
คำศัพท์สำหรับการจัดตำแหน่ง unihit glocal

OPTIONS การควบคุม การให้คะแนน อัลกอริธึม


--วิต รวบรวมคะแนนการจัดตำแหน่งความน่าจะเป็นสูงสุดของ Viterbi นี่คือค่าเริ่มต้น

--fwd รวบรวมคะแนนความน่าจะเป็นแบบฟอร์เวิร์ดล็อก-odds รวมกันจากการจัดตำแหน่งทั้งหมด

--hyb รวบรวมคะแนน 'ไฮบริด' ตามที่อธิบายไว้ในเอกสารโดย Yu และ Hwa (เช่น
ชีวสารสนเทศ 18:864, 2002). สิ่งเหล่านี้เกี่ยวข้องกับการคำนวณเมทริกซ์ไปข้างหน้าและการรับ
ค่าเซลล์สูงสุด ตัวเลขนั้นค่อนข้างไม่มีแรงจูงใจทางสถิติ
แต่คาดว่าการแจกแจงจะเป็นการแจกแจงค่านิยมแบบสุดโต่ง
(กัมเบล).

--msv รวบรวมคะแนน MSV (กลุ่ม Viterbi ที่ไม่ได้ใช้งานหลายส่วน) โดยใช้ main . ของ H3
ฮิวริสติกการเร่งความเร็ว

--เร็ว สำหรับตัวเลือกใด ๆ ข้างต้น ให้ใช้การปรับใช้งานจริงของ H3 (โดยใช้
SIMD vectorization) ค่าเริ่มต้นคือการใช้การใช้งานที่เสียสละเล็กน้อย
ปริมาณความแม่นยำเชิงตัวเลข สิ่งนี้สามารถทำให้เกิดเสียงรบกวนที่สับสนใน
การจำลองทางสถิติและความเหมาะสม ดังนั้นเมื่อมีคนกังวลอย่างมากเกี่ยวกับเรื่องที่แน่นอน
รายละเอียดจะดีกว่าที่จะสามารถแยกแหล่งที่มาของเสียงรบกวนนั้นออกมาได้

OPTIONS การควบคุม ติดตั้ง หาง มวลชน สำหรับ ไปข้างหน้า


ในการทดลองบางอย่าง การปรับคะแนนไปข้างหน้าให้เข้ากับช่วงของหางที่แตกต่างกันนั้นมีประโยชน์
มวลชน ไม่ใช่แค่คนเดียว ตัวเลือกเหล่านี้ให้กลไกสำหรับการติดตั้งอย่างเท่าเทียมกัน-
ช่วงระยะห่างของมวลหางที่แตกต่างกัน สำหรับแต่ละมวลหางที่แตกต่างกัน เส้นจะถูกสร้างขึ้น
ในการส่งออก

--tmin
กำหนดขอบเขตล่างของการกระจายมวลส่วนหาง (ค่าเริ่มต้นคือ 0.02 สำหรับ
มวลหางเดี่ยวเริ่มต้น)

--tmax
กำหนดขอบเขตบนของการกระจายมวลส่วนหาง (ค่าเริ่มต้นคือ 0.02 สำหรับ
มวลหางเดี่ยวเริ่มต้น)

--จุด
กำหนดจำนวนมวลหางตัวอย่างโดยเริ่มจาก --tmin และสิ้นสุดที่ --tmax.
(ค่าเริ่มต้นคือ 1 สำหรับมวลหางเดี่ยวเริ่มต้น 0.02)

--tlinear
สุ่มตัวอย่างช่วงของมวลส่วนหางที่มีระยะห่างเชิงเส้นสม่ำเสมอ ค่าเริ่มต้นคือการใช้
ระยะห่างลอการิทึมสม่ำเสมอ

OPTIONS การควบคุม H3 พารามิเตอร์ ประมาณการ วิธี


H3 ใช้การจำลองลำดับสุ่มสั้นๆ สามครั้งเพื่อประเมินพารามิเตอร์ตำแหน่งสำหรับ
การกระจายคะแนนที่คาดไว้สำหรับคะแนน MSV คะแนน Viterbi และคะแนนไปข้างหน้า เหล่านี้
ตัวเลือกช่วยให้สามารถปรับเปลี่ยนการจำลองเหล่านี้ได้

--เอ็มแอล
ตั้งค่าความยาวของลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu for
ค่า MSV E ค่าเริ่มต้นคือ 200

--เอมเอ็น
ตั้งค่าจำนวนลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu
สำหรับค่า MSV E ค่าเริ่มต้นคือ 200

--EvL
ตั้งค่าความยาวของลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu for
ค่า E-value ของ Viterbi ค่าเริ่มต้นคือ 200

--EvN
ตั้งค่าจำนวนลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu
สำหรับค่า Viterbi E ค่าเริ่มต้นคือ 200

--EfL
ตั้งค่าความยาวของลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง tau
สำหรับ Forward E-values ค่าเริ่มต้นคือ 100

--เอิฟเอ็น
ตั้งค่าจำนวนลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง
tau สำหรับ Forward E-values ค่าเริ่มต้นคือ 200

--Eft
ตั้งค่าเศษส่วนมวลส่วนท้ายให้พอดีกับการจำลองที่ประเมินตำแหน่ง
พารามิเตอร์ tau สำหรับการส่งต่อค่า ค่าเริ่มต้นคือ 0.04

การดีบัก OPTIONS


--แผงลอย
สำหรับการดีบักเวอร์ชันต้นแบบ/ผู้ปฏิบัติงานของ MPI: หยุดชั่วคราวหลังจากเริ่มต้น เพื่อเปิดใช้งาน
นักพัฒนาเพื่อแนบดีบักเกอร์กับมาสเตอร์และกระบวนการของผู้ปฏิบัติงาน ส่ง
SIGCONT สัญญาณเพื่อปล่อยการหยุดชั่วคราว (ภายใต้ gdb: (gdb) สัญญาณ ซิกคอน) (เท่านั้น
ใช้ได้หากเปิดใช้งานการรองรับ MPI เสริมในเวลาคอมไพล์)

--เมล็ด
ตั้งค่าเมล็ดสุ่มเลขเป็น . ค่าเริ่มต้นคือ 0 ซึ่งทำให้ตัวเลขสุ่ม
เครื่องกำเนิดไฟฟ้าใช้เมล็ดโดยพลการเพื่อให้การทำงานของ .ต่างกัน อืมมม จะเกือบ
สร้างตัวอย่างทางสถิติที่แตกต่างกันอย่างแน่นอน สำหรับการดีบักจะเป็นประโยชน์ต่อ
บังคับผลลัพธ์ที่ทำซ้ำได้โดยการแก้ไขเมล็ดตัวเลขสุ่ม

ทดลอง OPTIONS


ตัวเลือกเหล่านี้ถูกใช้ในการทดลองเชิงสำรวจที่แตกต่างกันเล็กน้อย

--bgแบน
ตั้งค่าการกระจายสารตกค้างพื้นหลังเป็นการกระจายแบบสม่ำเสมอทั้งสำหรับ
วัตถุประสงค์ของแบบจำลองว่างที่ใช้ในการคำนวณคะแนน และสำหรับการสร้าง
ลำดับสุ่ม ค่าเริ่มต้นคือการใช้ความถี่พื้นหลังของกรดอะมิโนมาตรฐาน
การกระจาย

--bgcomp
ตั้งค่าการกระจายสารตกค้างพื้นหลังเป็นองค์ประกอบเฉลี่ยของโปรไฟล์
ข้อมูลนี้ใช้เพื่อสำรวจผลกระทบบางอย่างขององค์ประกอบที่มีอคติ

--x-ไม่มีความยาวรุ่น
ปิดโมเดลความยาวลำดับเป้าหมาย H3 ตั้งค่าการเปลี่ยนแปลงตัวเองสำหรับ N,C,J
และโมเดล null ถึง 350/351 แทน; สิ่งนี้เลียนแบบ HMMER2 ไม่ใช่ความคิดที่ดีใน
ทั่วไป. ใช้เพื่อแสดงความแตกต่างหลักระหว่าง H2 กับ H3

--นู๋
ตั้งค่าพารามิเตอร์ nu สำหรับอัลกอริธึม MSV -- จำนวนที่คาดไว้ของ local . ที่ยังไม่ได้แอป
การจัดตำแหน่งตามลำดับเป้าหมาย ค่าเริ่มต้นคือ 2.0 ซึ่งสอดคล้องกับ E->J
ความน่าจะเป็นของการเปลี่ยนแปลง 0.5 ใช้เพื่อทดสอบว่า nu แตกต่างกันหรือไม่
ผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ (ดูเหมือนจะไม่เป็นไปตามเหตุผล) ตัวเลือกนี้เท่านั้น
ใช้งานได้ถ้า --msv ถูกเลือก (มีผลกับ MSV เท่านั้น) และจะไม่ทำงานกับ --เร็ว
(เนื่องจากการใช้งานที่ปรับให้เหมาะสมนั้นเดินสายเพื่อถือว่า nu=2.0)

--phresh
ตั้งค่าตัวกรอง P-value threshold เพื่อใช้ในการสร้างไฟล์กำลังกรองด้วย
--ไฟล์. ค่าเริ่มต้นคือ 0.02 (ซึ่งจะเหมาะสมสำหรับการทดสอบคะแนน MSV
เนื่องจากนี่คือเกณฑ์ตัวกรอง MSV เริ่มต้นในไปป์ไลน์การเร่งความเร็วของ H3)
ตัวเลือกที่เหมาะสมอื่น ๆ (การจับคู่ค่าเริ่มต้นในไปป์ไลน์การเร่งความเร็ว) จะเป็น
0.001 สำหรับ Viterbi และ 1e-5 สำหรับ Forward

ใช้ hmmsim ออนไลน์โดยใช้บริการ onworks.net



โปรแกรมออนไลน์ Linux และ Windows ล่าสุด