ภาษาอังกฤษภาษาฝรั่งเศสสเปน

Ad


ไอคอน Fav ของ OnWorks

hmmsim - ออนไลน์ในคลาวด์

เรียกใช้ hmmsim ในผู้ให้บริการโฮสต์ฟรีของ OnWorks ผ่าน Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

นี่คือคำสั่ง hmmsim ที่สามารถเรียกใช้ในผู้ให้บริการโฮสติ้งฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

โครงการ:

ชื่อ


hmmsim - รวบรวมการแจกแจงคะแนนตามลำดับแบบสุ่ม

เรื่องย่อ


อืมมม [ตัวเลือก]

DESCRIPTION


พื้นที่ อืมมม โปรแกรมสร้างลำดับแบบสุ่ม ให้คะแนนด้วยแบบจำลองใน ,
และแสดงผลฮิสโทแกรม แผนผัง และการกระจายแบบต่างๆ สำหรับผลลัพธ์
คะแนน

อืมมม ไม่ใช่ส่วนหลักของแพ็คเกจ HMMER ผู้ใช้ส่วนใหญ่จะไม่มีเหตุผลที่จะ
ใช้มัน. ใช้เพื่อพัฒนาและทดสอบวิธีการทางสถิติที่ใช้ในการกำหนดค่า P
และค่า E ใน HMMER3 ตัวอย่างเช่น ใช้เพื่อสร้างผลลัพธ์ส่วนใหญ่ในปี 2008
กระดาษเกี่ยวกับสถิติการจัดตำแหน่งในพื้นที่ของ H3 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

เนื่องจากเป็นห้องทดสอบการวิจัย คุณไม่ควรคาดหวังว่ามันจะแข็งแกร่งเหมือนที่อื่นๆ
โปรแกรมในแพ็คเกจ ตัวอย่างเช่น ตัวเลือกอาจโต้ตอบในลักษณะแปลก ๆ เราไม่ได้
ทดสอบหรือพยายามคาดการณ์ชุดค่าผสมที่เป็นไปได้ทั้งหมด

ภารกิจหลักคือจัดการกระจาย Gumbel ที่เป็นไปได้สูงสุดให้กับคะแนน Viterbi หรือ an
โอกาสสูงสุดเลขชี้กำลังถึงคะแนนไปข้างหน้าคะแนนสูงและเพื่อทดสอบว่าสิ่งเหล่านี้
การแจกแจงแบบพอดีเป็นไปตามการคาดเดาที่แลมบ์ดา ~ log_2 สำหรับทั้ง Viterbi Gumbel
และหางเลขชี้กำลังไปข้างหน้า

ผลลัพธ์คือตารางตัวเลข หนึ่งแถวสำหรับแต่ละรุ่น พารามิเตอร์สี่แบบที่แตกต่างกัน
ทดสอบข้อมูลคะแนน: (1) โอกาสสูงสุดที่เหมาะสมกับทั้งสถานที่ (mu/tau) และ
พารามิเตอร์ความชัน (แลมบ์ดา); (2) สมมติว่า lambda=log_2 โอกาสสูงสุดที่พอดีกับ
พารามิเตอร์ตำแหน่งเท่านั้น (3) เหมือนกัน แต่สมมติว่าแลมบ์ดาแก้ไขขอบโดยใช้กระแส
ขั้นตอนใน H3 [Eddy, 2008]; และ (4) ใช้ทั้งสองพารามิเตอร์ที่กำหนดโดยกระแสของ H3
ขั้นตอน สถิติมาตรฐานที่เรียบง่าย รวดเร็ว และสกปรกสำหรับความพอดีคือ 'E@10'
ค่า E-value ที่คำนวณได้ของอันดับที่ 10 อันดับสูงสุด ซึ่งเราคาดว่าจะอยู่ที่ประมาณ 10

ในรายละเอียด คอลัมน์ของผลลัพธ์คือ:

ชื่อ ชื่อรุ่น.

หาง เศษส่วนของคะแนนสูงสุดที่ใช้ประกอบการแจกแจง สำหรับ Viterbi, MSV และ
คะแนนไฮบริด ค่าเริ่มต้นนี้เป็น 1.0 (การกระจาย Gumbel พอดีกับทุก
ข้อมูล). สำหรับคะแนนไปข้างหน้า ค่าเริ่มต้นนี้จะเป็น 0.02 (หางเลขชี้กำลังพอดีกับ
คะแนนสูงสุด 2%)

มู/เทา พารามิเตอร์ตำแหน่งสำหรับโอกาสสูงสุดที่เหมาะสมกับข้อมูล

แลมบ์ดา พารามิเตอร์ความชันสำหรับโอกาสสูงสุดที่พอดีกับข้อมูล

อี@10 ค่า E ที่คำนวณสำหรับคะแนนสูงสุดอันดับที่ 10 ('E@10') โดยใช้ ML mu/tau
และแลมบ์ดา ตามคำจำกัดความ ค่านี้คาดว่าจะอยู่ที่ประมาณ 10 ถ้าการประมาณค่า E เป็น
ถูกต้อง

มัฟฟิกซ์ พารามิเตอร์ตำแหน่งสำหรับโอกาสสูงสุดที่พอดีกับความชันที่ทราบ (คงที่)
พารามิเตอร์แลมบ์ดาของ log_2 (0.693)

E@10แก้ไข
ค่า E ที่คำนวณสำหรับคะแนนอันดับที่ 10 โดยใช้ mufix และค่าที่คาดหวัง
แลมบ์ดา = log_2 = 0.693

มูฟิกซ์2 พารามิเตอร์ตำแหน่ง เพื่อความน่าจะเป็นสูงสุดกับการแก้ไขขอบผล
แลมบ์ดา

E@10fix2
ค่า E-value ที่คำนวณสำหรับคะแนนอันดับที่ 10 โดยใช้ mufix2 และ edge-effect-
แก้ไขแลมบ์ดา

PMU พารามิเตอร์ตำแหน่งที่กำหนดโดยขั้นตอนการประมาณค่าของ H3

พลัมดา
ค่าพารามิเตอร์ความชันตามกระบวนการประมาณค่าของ H3

พีอี@10 ค่า E ที่คำนวณสำหรับคะแนนอันดับที่ 10 โดยใช้ pmu, plambda

ที่ส่วนท้ายของตารางนี้ มีการพิมพ์อีกบรรทัดหนึ่ง เริ่มด้วย # และสรุป
เวลา CPU โดยรวมที่ใช้โดยการจำลอง

ไฟล์เอาต์พุตที่เป็นทางเลือกบางไฟล์อยู่ในรูปแบบ xmgrace xy xmgrace นั้นทรงพลังและอิสระ
ซอฟต์แวร์พล็อตกราฟที่มีอยู่

เบ็ดเตล็ด OPTIONS


-h ช่วย; พิมพ์การแจ้งเตือนสั้นๆ เกี่ยวกับการใช้บรรทัดคำสั่งและตัวเลือกที่มีทั้งหมด

-a รวบรวมสถิติความยาวการจัดตำแหน่ง Viterbi ที่คาดไว้จากแต่ละลำดับการจำลอง
ใช้งานได้กับคะแนน Viterbi เท่านั้น (ค่าเริ่มต้น see --วิต). เพิ่มอีกสอง
ฟิลด์จะถูกพิมพ์ในตารางผลลัพธ์สำหรับแต่ละรุ่น: ความยาวเฉลี่ยของViterbi
การจัดตำแหน่งและส่วนเบี่ยงเบนมาตรฐาน

-v (ละเอียด). พิมพ์คะแนนด้วย หนึ่งคะแนนต่อบรรทัด

-L กำหนดความยาวของลำดับสุ่มตัวอย่าง (ไม่เท่ากัน) เป็น .
ค่าเริ่มต้นคือ 100

-N ตั้งค่าจำนวนลำดับการสุ่มตัวอย่างเป็น . ค่าเริ่มต้นคือ 1000

--mpi ทำงานในโหมดขนาน MPI ภายใต้ มปีรัน. เป็นแบบขนานที่ระดับการส่ง
ทีละโปรไฟล์ไปยังกระบวนการของผู้ปฏิบัติงาน MPI ดังนั้นการขนานจะช่วยได้ก็ต่อเมื่อ
คุณมีโปรไฟล์มากกว่าหนึ่งรายการใน และคุณต้องการมีอย่างน้อย as
โปรไฟล์จำนวนมากตามกระบวนการของผู้ปฏิบัติงาน MPI (ใช้ได้ก็ต่อเมื่อการรองรับ MPI ที่เป็นตัวเลือกคือ
เปิดใช้งานในเวลาคอมไพล์)

OPTIONS การควบคุม เอาท์พุท


-o บันทึกตารางผลลัพธ์หลักไปยังไฟล์ แทนที่จะส่งไปที่ stdout

--ไฟล์
เมื่อรวบรวมสถิติการจัดตำแหน่ง Viterbi (the -a ตัวเลือก) สำหรับแต่ละตัวอย่าง
ลำดับ ส่งออกสองฟิลด์ต่อบรรทัดไปยังไฟล์ : ความยาวของค่าที่เหมาะสมที่สุด
การจัดตำแหน่งและคะแนนบิต Viterbi กำหนดให้ -a นอกจากนี้ยังใช้ตัวเลือก

--efile
ส่งออกอันดับเทียบกับพล็อตค่า E ในรูปแบบ XMGRACE xy เป็นไฟล์ . แกน x คือ
อันดับของลำดับนี้ จากคะแนนสูงสุดไปต่ำสุด แกน y คือ E-value
คำนวณสำหรับลำดับนี้ ค่า E คำนวณโดยใช้ขั้นตอนเริ่มต้นของ H3
(เช่นพารามิเตอร์ pmu, plambda ในตารางผลลัพธ์) คุณคาดหวังการแข่งขันที่ดุเดือด
ระหว่างอันดับและค่า E หากค่า E ถูกประมาณการอย่างแม่นยำ

--ไฟล์
ส่งออกไฟล์ "กำลังกรอง" ไปที่ : สำหรับแต่ละรุ่น บรรทัดที่มีสามช่อง:
ชื่อรุ่น จำนวนลำดับที่ผ่านเกณฑ์ค่า P และเศษส่วนของ
ลำดับที่ผ่านเกณฑ์ค่า P ดู --phresh สำหรับการตั้งค่า P-value
เกณฑ์ซึ่งมีค่าเริ่มต้นเป็น 0.02 (เกณฑ์ตัวกรอง MSV เริ่มต้นใน H3) พี-
ค่าจะถูกกำหนดโดยโพรซีเดอร์เริ่มต้นของ H3 (พารามิเตอร์ pmu,plambda ใน
ตารางผลลัพธ์) ถ้าทุกอย่างเป็นไปด้วยดี คุณคาดว่าจะเห็นพลังของตัวกรองเท่ากับ
การตั้งค่า P-value ที่คาดการณ์ไว้ของเกณฑ์

--pfile
แปลงเอาท์พุตการอยู่รอดสะสม (P(S>x)) ไปยังไฟล์ ในรูปแบบ XMGRACE xy ที่นั่น
มีสามแปลง: (1) การกระจายคะแนนที่สังเกต; (2) ความเป็นไปได้สูงสุด
การกระจายแบบพอดี (3) โอกาสสูงสุดที่เหมาะสมกับพารามิเตอร์ตำแหน่ง
(mu/tau) ในขณะที่
สมมติว่า lambda=log_2.

--xfile
ส่งออกคะแนนบิตเป็นอาร์เรย์ไบนารีของทุ่นความแม่นยำสองเท่า (8 ไบต์ต่อ
คะแนน) เพื่อยื่น . โปรแกรมต่างๆ เช่น Easel's esl-histplot สามารถอ่านไฟล์ไบนารีดังกล่าวได้
สิ่งนี้มีประโยชน์ในการสร้างขนาดตัวอย่างที่ใหญ่มาก

OPTIONS การควบคุม MODEL การกำหนดค่า (แฟชั่น)


H3 ใช้การจัดตำแหน่งในพื้นที่ multihit เท่านั้น ( --ฉ โหมด) และนี่คือที่ที่เราเชื่อว่า
สถิติพอดี คะแนนการจัดตำแหน่งท้องถิ่น Unihit (Smith/Waterman; --สว โหมด) ก็เชื่อฟังของเรา
การคาดเดาทางสถิติ สถิติการจัดตำแหน่งโดยรวม (ทั้งแบบหลายรายการหรือแบบยูนิฮิต) คือ
ยังไม่เข้าใจอย่างพอเพียงหรือเหมาะสม

--ฉ รวบรวมคะแนนการจัดตำแหน่งในพื้นที่ multihit นี่คือค่าเริ่มต้น การจัดตำแหน่งเป็น
'โหมดค้นหาส่วนย่อย'

--สว รวบรวมคะแนนการจัดตำแหน่งท้องถิ่น unihit สถานะ H3 J ถูกปิดใช้งาน การจัดตำแหน่งเป็น
'โหมดค้นหา Smith / Waterman'

--ล รวบรวมคะแนนการจัดตำแหน่ง glocal multihit ในการจัดตำแหน่ง glocal (ทั่วโลก/ท้องถิ่น) the
โมเดลทั้งหมดต้องจัดตำแหน่งให้สอดคล้องกับเป้าหมาย ทางเข้า/ออก H3 ในพื้นที่
ความน่าจะเป็นของการเปลี่ยนแปลงถูกปิดใช้งาน 'ls' มาจากประวัติศาสตร์ของ HMMER2
คำศัพท์สำหรับการจัดตำแหน่งท้องถิ่น multihit เป็น 'โหมดการค้นหาในท้องถิ่น'

--NS รวบรวมคะแนนการจัดตำแหน่ง unihit glocal ทั้งสถานะ H3 J และการเข้า/ออกในพื้นที่
ความน่าจะเป็นของการเปลี่ยนแปลงถูกปิดใช้งาน 's' มาจากประวัติศาสตร์ของ HMMER2
คำศัพท์สำหรับการจัดตำแหน่ง unihit glocal

OPTIONS การควบคุม การให้คะแนน อัลกอริธึม


--วิต รวบรวมคะแนนการจัดตำแหน่งความน่าจะเป็นสูงสุดของ Viterbi นี่คือค่าเริ่มต้น

--fwd รวบรวมคะแนนความน่าจะเป็นแบบฟอร์เวิร์ดล็อก-odds รวมกันจากการจัดตำแหน่งทั้งหมด

--hyb รวบรวมคะแนน 'ไฮบริด' ตามที่อธิบายไว้ในเอกสารโดย Yu และ Hwa (เช่น
ชีวสารสนเทศ 18:864, 2002). สิ่งเหล่านี้เกี่ยวข้องกับการคำนวณเมทริกซ์ไปข้างหน้าและการรับ
ค่าเซลล์สูงสุด ตัวเลขนั้นค่อนข้างไม่มีแรงจูงใจทางสถิติ
แต่คาดว่าการแจกแจงจะเป็นการแจกแจงค่านิยมแบบสุดโต่ง
(กัมเบล).

--msv รวบรวมคะแนน MSV (กลุ่ม Viterbi ที่ไม่ได้ใช้งานหลายส่วน) โดยใช้ main . ของ H3
ฮิวริสติกการเร่งความเร็ว

--เร็ว สำหรับตัวเลือกใด ๆ ข้างต้น ให้ใช้การปรับใช้งานจริงของ H3 (โดยใช้
SIMD vectorization) ค่าเริ่มต้นคือการใช้การใช้งานที่เสียสละเล็กน้อย
ปริมาณความแม่นยำเชิงตัวเลข สิ่งนี้สามารถทำให้เกิดเสียงรบกวนที่สับสนใน
การจำลองทางสถิติและความเหมาะสม ดังนั้นเมื่อมีคนกังวลอย่างมากเกี่ยวกับเรื่องที่แน่นอน
รายละเอียดจะดีกว่าที่จะสามารถแยกแหล่งที่มาของเสียงรบกวนนั้นออกมาได้

OPTIONS การควบคุม ติดตั้ง หาง มวลชน สำหรับ ไปข้างหน้า


ในการทดลองบางอย่าง การปรับคะแนนไปข้างหน้าให้เข้ากับช่วงของหางที่แตกต่างกันนั้นมีประโยชน์
มวลชน ไม่ใช่แค่คนเดียว ตัวเลือกเหล่านี้ให้กลไกสำหรับการติดตั้งอย่างเท่าเทียมกัน-
ช่วงระยะห่างของมวลหางที่แตกต่างกัน สำหรับแต่ละมวลหางที่แตกต่างกัน เส้นจะถูกสร้างขึ้น
ในการส่งออก

--tmin
กำหนดขอบเขตล่างของการกระจายมวลส่วนหาง (ค่าเริ่มต้นคือ 0.02 สำหรับ
มวลหางเดี่ยวเริ่มต้น)

--tmax
กำหนดขอบเขตบนของการกระจายมวลส่วนหาง (ค่าเริ่มต้นคือ 0.02 สำหรับ
มวลหางเดี่ยวเริ่มต้น)

--จุด
กำหนดจำนวนมวลหางตัวอย่างโดยเริ่มจาก --tmin และสิ้นสุดที่ --tmax.
(ค่าเริ่มต้นคือ 1 สำหรับมวลหางเดี่ยวเริ่มต้น 0.02)

--tlinear
สุ่มตัวอย่างช่วงของมวลส่วนหางที่มีระยะห่างเชิงเส้นสม่ำเสมอ ค่าเริ่มต้นคือการใช้
ระยะห่างลอการิทึมสม่ำเสมอ

OPTIONS การควบคุม H3 พารามิเตอร์ ประมาณการ วิธี


H3 ใช้การจำลองลำดับสุ่มสั้นๆ สามครั้งเพื่อประเมินพารามิเตอร์ตำแหน่งสำหรับ
การกระจายคะแนนที่คาดไว้สำหรับคะแนน MSV คะแนน Viterbi และคะแนนไปข้างหน้า เหล่านี้
ตัวเลือกช่วยให้สามารถปรับเปลี่ยนการจำลองเหล่านี้ได้

--เอ็มแอล
ตั้งค่าความยาวของลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu for
ค่า MSV E ค่าเริ่มต้นคือ 200

--เอมเอ็น
ตั้งค่าจำนวนลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu
สำหรับค่า MSV E ค่าเริ่มต้นคือ 200

--EvL
ตั้งค่าความยาวของลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu for
ค่า E-value ของ Viterbi ค่าเริ่มต้นคือ 200

--EvN
ตั้งค่าจำนวนลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง mu
สำหรับค่า Viterbi E ค่าเริ่มต้นคือ 200

--EfL
ตั้งค่าความยาวของลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง tau
สำหรับ Forward E-values ค่าเริ่มต้นคือ 100

--เอิฟเอ็น
ตั้งค่าจำนวนลำดับในการจำลองที่ประเมินพารามิเตอร์ตำแหน่ง
tau สำหรับ Forward E-values ค่าเริ่มต้นคือ 200

--Eft
ตั้งค่าเศษส่วนมวลส่วนท้ายให้พอดีกับการจำลองที่ประเมินตำแหน่ง
พารามิเตอร์ tau สำหรับการส่งต่อค่า ค่าเริ่มต้นคือ 0.04

การดีบัก OPTIONS


--แผงลอย
สำหรับการดีบักเวอร์ชันต้นแบบ/ผู้ปฏิบัติงานของ MPI: หยุดชั่วคราวหลังจากเริ่มต้น เพื่อเปิดใช้งาน
นักพัฒนาเพื่อแนบดีบักเกอร์กับมาสเตอร์และกระบวนการของผู้ปฏิบัติงาน ส่ง
SIGCONT สัญญาณเพื่อปล่อยการหยุดชั่วคราว (ภายใต้ gdb: (gdb) สัญญาณ ซิกคอน) (เท่านั้น
ใช้ได้หากเปิดใช้งานการรองรับ MPI เสริมในเวลาคอมไพล์)

--เมล็ด
ตั้งค่าเมล็ดสุ่มเลขเป็น . ค่าเริ่มต้นคือ 0 ซึ่งทำให้ตัวเลขสุ่ม
เครื่องกำเนิดไฟฟ้าใช้เมล็ดโดยพลการเพื่อให้การทำงานของ .ต่างกัน อืมมม จะเกือบ
สร้างตัวอย่างทางสถิติที่แตกต่างกันอย่างแน่นอน สำหรับการดีบักจะเป็นประโยชน์ต่อ
บังคับผลลัพธ์ที่ทำซ้ำได้โดยการแก้ไขเมล็ดตัวเลขสุ่ม

ทดลอง OPTIONS


ตัวเลือกเหล่านี้ถูกใช้ในการทดลองเชิงสำรวจที่แตกต่างกันเล็กน้อย

--bgแบน
ตั้งค่าการกระจายสารตกค้างพื้นหลังเป็นการกระจายแบบสม่ำเสมอทั้งสำหรับ
วัตถุประสงค์ของแบบจำลองว่างที่ใช้ในการคำนวณคะแนน และสำหรับการสร้าง
ลำดับสุ่ม ค่าเริ่มต้นคือการใช้ความถี่พื้นหลังของกรดอะมิโนมาตรฐาน
การกระจาย

--bgcomp
ตั้งค่าการกระจายสารตกค้างพื้นหลังเป็นองค์ประกอบเฉลี่ยของโปรไฟล์
ข้อมูลนี้ใช้เพื่อสำรวจผลกระทบบางอย่างขององค์ประกอบที่มีอคติ

--x-ไม่มีความยาวรุ่น
ปิดโมเดลความยาวลำดับเป้าหมาย H3 ตั้งค่าการเปลี่ยนแปลงตัวเองสำหรับ N,C,J
และโมเดล null ถึง 350/351 แทน; สิ่งนี้เลียนแบบ HMMER2 ไม่ใช่ความคิดที่ดีใน
ทั่วไป. ใช้เพื่อแสดงความแตกต่างหลักระหว่าง H2 กับ H3

--นู๋
ตั้งค่าพารามิเตอร์ nu สำหรับอัลกอริธึม MSV -- จำนวนที่คาดไว้ของ local . ที่ยังไม่ได้แอป
การจัดตำแหน่งตามลำดับเป้าหมาย ค่าเริ่มต้นคือ 2.0 ซึ่งสอดคล้องกับ E->J
ความน่าจะเป็นของการเปลี่ยนแปลง 0.5 ใช้เพื่อทดสอบว่า nu แตกต่างกันหรือไม่
ผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ (ดูเหมือนจะไม่เป็นไปตามเหตุผล) ตัวเลือกนี้เท่านั้น
ใช้งานได้ถ้า --msv ถูกเลือก (มีผลกับ MSV เท่านั้น) และจะไม่ทำงานกับ --เร็ว
(เนื่องจากการใช้งานที่ปรับให้เหมาะสมนั้นเดินสายเพื่อถือว่า nu=2.0)

--phresh
ตั้งค่าตัวกรอง P-value threshold เพื่อใช้ในการสร้างไฟล์กำลังกรองด้วย
--ไฟล์. ค่าเริ่มต้นคือ 0.02 (ซึ่งจะเหมาะสมสำหรับการทดสอบคะแนน MSV
เนื่องจากนี่คือเกณฑ์ตัวกรอง MSV เริ่มต้นในไปป์ไลน์การเร่งความเร็วของ H3)
ตัวเลือกที่เหมาะสมอื่น ๆ (การจับคู่ค่าเริ่มต้นในไปป์ไลน์การเร่งความเร็ว) จะเป็น
0.001 สำหรับ Viterbi และ 1e-5 สำหรับ Forward

ใช้ hmmsim ออนไลน์โดยใช้บริการ onworks.net


เซิร์ฟเวอร์และเวิร์กสเตชันฟรี

ดาวน์โหลดแอพ Windows & Linux

คำสั่ง Linux

Ad