นี่คือคำสั่ง tigr-build-icm ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
tigr-glimer — ควบคุมและส่งออกแบบจำลอง Markov แบบสอดแทรก (IMM)
เรื่องย่อ
เสือ-สร้าง-icm
DESCRIPTION
โปรแกรม build-icm.c สร้างและส่งออกโมเดล Markov แบบสอดแทรก (IMM) ตามที่อธิบายไว้
ในบทความ AL Delcher, D. Harmon, S. Kasif, O. White และ SL Salzberg ปรับปรุง
การระบุยีนของจุลินทรีย์ด้วย Glimmer การวิจัยกรดนิวคลีอิก, 1999, in press.
โปรดอ้างอิงเอกสารนี้หากคุณใช้ระบบนี้เป็นส่วนหนึ่งของงานวิจัยที่ตีพิมพ์
อินพุตมาจากไฟล์ชื่อบนบรรทัดคำสั่ง รูปแบบควรเป็นหนึ่งสตริงต่อ
ไลน์. แต่ละบรรทัดมีสตริง ID ตามด้วยช่องว่างตามด้วยลำดับตัวเอง
สคริปต์ run-glimer3 สร้างไฟล์อินพุตในรูปแบบที่ถูกต้องโดยใช้ 'แตกไฟล์'
โครงการ
IMM ถูกสร้างขึ้นดังนี้: สำหรับบริบทที่กำหนด พูดว่า acgtta เราต้องการประมาณการ
การกระจายความน่าจะเป็นของอักขระถัดไป เราจะทำสิ่งนี้ในลักษณะเชิงเส้น
การรวมกันของการแจกแจงความน่าจะเป็นที่สังเกตได้สำหรับบริบทนี้และทั้งหมด
คำต่อท้ายเช่น cgtta, gtta, tta, ta, a และว่างเปล่า โดยการแจกแจงที่สังเกตได้ฉันหมายถึง
นับจำนวนครั้งของสตริงเหล่านี้ในชุดการฝึก เส้นตรง
ชุดค่าผสมถูกกำหนดโดยชุดของความน่าจะเป็น แลมบ์ดา หนึ่งชุดสำหรับแต่ละสตริงบริบท
สำหรับบริบท acgtta สัมประสิทธิ์การรวมเชิงเส้นคือ:
แลมบ์ดา (acgtta) (1 - แลมบ์ดา (acgtta)) x แลมบ์ดา (cgtta) (1 - แลมบ์ดา (acgtta)) x (1 - แลมบ์ดา
(cgtta)) x แลมบ์ดา (gtta) (1 - แลมบ์ดา (acgtta)) x (1 - แลมบ์ดา (cgtta)) x (1 - แลมบ์ดา
(gtta)) x แลมบ์ดา (tta) (1 - แลมบ์ดา (acgtta)) x (1 - แลมบ์ดา (cgtta)) x (1 - แลมบ์ดา (gtta))
x (1 - แลมบ์ดา (tta)) x (1 - แลมบ์ดา (ตา)) x (1 - แลมบ์ดา (a))
เราคำนวณค่าแลมบ์ดาสำหรับแต่ละบริบทดังนี้: - ถ้าจำนวนการสังเกต
ในชุดการฝึกคือ >= ค่าคงที่ SAMPLE_SIZE_BOUND แลมบ์ดาสำหรับบริบทนั้นคือ
1.0 - มิฉะนั้น ให้ทำการทดสอบไคสแควร์กับการสังเกตบริบทนี้เทียบกับ
การกระจายที่คาดการณ์ไว้สำหรับบริบทคำต่อท้ายที่สั้นกว่าหนึ่งอักขระ ถ้าไคสแควร์
นัยสำคัญ < 0.5 ตั้งค่าแลมบ์ดาสำหรับบริบทนี้เป็น 0.0 มิฉะนั้น ตั้งค่าแลมบ์ดาสำหรับ
บริบทนี้เพื่อ: (นัยสำคัญไคสแควร์) x (# การสังเกต) / SAMPLE_WEIGHT
ในการรันโปรแกรม:
build-icm รถไฟ.รุ่น
สิ่งนี้จะใช้ข้อมูลการฝึกใน train.seq เพื่อสร้างไฟล์ train.model ที่มี
IMM ของคุณ
ใช้ tigr-build-icm ออนไลน์โดยใช้บริการ onworks.net