daligner - ออนไลน์ในคลาวด์

นี่คือตัวจัดการคำสั่งที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

โครงการ:

ชื่อ


daligner - เครื่องจัดฟันแบบอ่านยาว

เรื่องย่อ


ไดไลน์เนอร์ [-vbAI][-kint(14)] [-wint(6)] [-hint(35)] [-tint] [-Mint] [-eสองเท่า(.70)]
[-lint(1000)] [-sint(100)] [-Hint] [-mลู่]+ เรื่อง:db|dam เป้าหมาย:db|เขื่อน ...

DESCRIPTION


เปรียบเทียบลำดับในการตัดแต่ง หรือ ปิดกั้นผู้ที่อยู่ในรายการของ เป้า บล็อก
ค้นหาแนวท้องถิ่นที่เกี่ยวข้องอย่างน้อย -l คู่ฐาน (ค่าเริ่มต้น 1000) หรือมากกว่า
ที่มีอัตราสหสัมพันธ์เฉลี่ยของ -e (ค่าเริ่มต้น 70%) พบการจัดตำแหน่งในท้องถิ่น
จะถูกส่งออกด้วยการเข้ารหัสแบบเบาบางซึ่งจุดติดตามบนการจัดตำแหน่งจะถูกบันทึกทุกๆ
-s คู่ฐานของ a-read (ค่าเริ่มต้น 100bp) การอ่านจะถูกเปรียบเทียบทั้งในทิศทางและ
การจัดตำแหน่งในพื้นที่ที่ตรงตามเกณฑ์จะส่งออกไปยังไฟล์ที่สร้างขึ้นหลายไฟล์ที่อธิบายไว้
ด้านล่าง -v ตัวเลือกเปิดโหมดการรายงานอย่างละเอียดที่ให้สถิติในแต่ละ
ขั้นตอนสำคัญของการคำนวณ

ตัวเลือกต่างๆ -k, -hและ -w ควบคุมการค้นหาการกรองเริ่มต้นสำหรับการจับคู่ที่เป็นไปได้
ระหว่างการอ่าน โดยเฉพาะอย่างยิ่ง โค้ดค้นหาของเราจะค้นหาแถบความกว้างคู่หนึ่ง
2^w (ค่าเริ่มต้น 2^6 = 64) ที่มีชุดของ k-mers ที่ตรงกันทุกประการ (ค่าเริ่มต้น 14)
ระหว่างการอ่านทั้งสองครั้ง ดังนั้นจำนวนฐานทั้งหมดที่ครอบคลุมโดย k-mer hits คือ h
(ค่าเริ่มต้น 35) k ต้องไม่เกิน 32 ในการใช้งานปัจจุบัน ถ้า -b ตัวเลือก
ถูกกำหนดไว้แล้ว ไดไลน์เนอร์ ถือว่าข้อมูลมีอคติเชิงองค์ประกอบที่แข็งแกร่ง (เช่น >65% AT
รวย) และใช้เวลาเพิ่มขึ้นอีกเล็กน้อย ปรับขนาด k-mer แบบไดนามิกขึ้นอยู่กับ
ความลำเอียงในการเรียบเรียง เพื่อให้ Mers ที่ใช้มีความจำเพาะที่มีประสิทธิภาพเท่ากับ 4^k

หากมีแทร็กช่วงเวลาหนึ่งแทร็กขึ้นไปที่ระบุด้วย -m ตัวเลือกแล้วอ่านของ
DB หรือ DB ที่หน้ากากใช้ถูกปิดบังแบบอ่อนด้วยสหภาพของช่วงเวลา
ของช่วงเวลาทั้งหมดที่ใช้ นั่นคือ k-mers ใด ๆ ที่มีฐานใด ๆ ใน
ช่วงเวลาที่มาสก์จะถูกละเว้นเพื่อจุดประสงค์ในการเริ่มต้นการแข่งขัน ติดตามช่วงเวลา
เป็นแทร็ก เช่น แทร็ก "ฝุ่น" ที่สร้างโดย DBdust ที่เข้ารหัสชุดของช่วงเวลา
เหนือฐานข้อมูลที่ไม่มีการตัดแต่งหรือตัดแต่ง

อย่างสม่ำเสมอ k-mers บางตัวมีตัวแทนมากเกินไปอย่างมีนัยสำคัญ (เช่น การวิ่งแบบโฮโมพอลิเมอร์)
k-mers เหล่านี้สร้างคู่ k-mer ที่ตรงกันจำนวนมากเกินไปและปล่อยทิ้งไว้โดยไม่ได้กล่าวถึง
ทำให้ daligner ล้นหน่วยความจำกายภาพที่มีอยู่ วิธีหนึ่งที่จะจัดการกับสิ่งนี้คือ
กำหนด .ไว้อย่างชัดเจน -t พารามิเตอร์ที่ยับยั้งการใช้ k-mer ใด ๆ ที่เกิดขึ้นมากกว่า
กว่า t ครั้งในบล็อกเรื่องหรือเป้าหมาย อย่างไรก็ตาม วิธีที่ดีกว่าในการจัดการ
สถานการณ์คือให้โปรแกรมเลือกค่าของ .โดยอัตโนมัติ t ที่ตรงตามที่กำหนด
ขีด จำกัด การใช้หน่วยความจำที่ระบุ (เป็น Gb) โดย -M พารามิเตอร์. โดยค่าเริ่มต้น ไดไลน์เนอร์ จะใช้
จำนวนหน่วยความจำกายภาพเป็นทางเลือกสำหรับ -M. อยากใช้น้อยบอกแค่ 8Gb
บนโหนดคลัสเตอร์ HPC 24Gb เนื่องจากคุณต้องการเรียกใช้ 3 ไดไลน์เนอร์ งานบนโหนดแล้ว
ระบุ -M8. ระบุ -M0 โดยพื้นฐานแล้วแสดงว่าคุณไม่ต้องการ ไดไลน์เนอร์ ให้กับตัวเอง
ปรับการปราบปราม k-mer เพื่อให้พอดีกับจำนวนหน่วยความจำที่กำหนด

สำหรับแต่ละหัวข้อ เป้าหมายคู่ของบล็อก พูดว่า X และ Y โปรแกรมรายงานการจัดตำแหน่งโดยที่
a-read อยู่ใน X และ b-read อยู่ใน Y และในทางกลับกัน อย่างไรก็ตาม หาก -A ตัวเลือกที่
set ("A" สำหรับ "ไม่สมมาตร") จากนั้นเพียงแค่คาบเกี่ยวกันโดยที่ a-read อยู่ใน X และ b-read คือ
ใน Y ถูกรายงาน และถ้า X = Y ก็จะรายงานเพิ่มเติมเฉพาะที่คาบเกี่ยวกันโดยที่
ดัชนี a-read น้อยกว่าดัชนี b-read ไม่ว่าในกรณีใด ถ้า -I ตั้งค่าตัวเลือกแล้ว ("ฉัน"
สำหรับ "เอกลักษณ์") ดังนั้นเมื่อ X = Y จะซ้อนทับกันระหว่างส่วนต่างๆ ของการอ่านเดียวกันจะ
ยังพบและรายงาน

การจัดตำแหน่งที่พบแต่ละรายการจะถูกบันทึกเป็น -- a[ab,ae] x bo[bb,be] -- โดยที่ a และ b คือ
ดัชนี (ใน DB ที่ตัดแต่ง) ของการอ่านที่ทับซ้อนกัน o ระบุว่า b-read เป็น
จากเส้นเดียวกันหรือตรงกันข้าม และ [ab,ae] และ [bb,be] เป็นช่วงของ a และ bo
ตามลำดับที่จัดตำแหน่ง โปรแกรมวางบันทึกการจัดตำแหน่งเหล่านี้ในไฟล์ที่มีชื่อ
อยู่ในรูปแบบ XY[C|N]#.las โดยที่ C ระบุว่า b-reads ถูกเติมเต็มและ N
ระบุว่าไม่ใช่ (ทำการเปรียบเทียบทั้งคู่) และ # คือเธรดที่ตรวจพบ
และเขียนชุดของการจัดตำแหน่งที่มีอยู่ในไฟล์ นั่นคือไฟล์
XYO#.las มีการจัดตำแหน่งที่สร้างโดยเธรด # ซึ่ง a-read มาจาก X และ
b-read มาจาก Y และในทิศทาง O. คำสั่ง ไดไลน์เนอร์ -A X Y ผลิต 2*NTHREAD
ไฟล์เธรด XY?.las และ ไดไลน์เนอร์ X Y สร้างไฟล์ 4*NTHREAD XY?.las และ YX?.las
(เว้นแต่ X=Y ซึ่งในกรณีนี้จะผลิตเฉพาะไฟล์ NTHREAD XX?.las)

โดยค่าเริ่มต้น ไดไลน์เนอร์ เปรียบเทียบการทับซ้อนกันทั้งหมดระหว่างการอ่านในฐานข้อมูลที่มากกว่า
มากกว่าค่าคัทออฟขั้นต่ำที่ตั้งไว้เมื่อ DB หรือ DB ถูกแยกออก โดยทั่วไปคือ 1 หรือ 2 Kbp อย่างไรก็ตาม,
ไปป์ไลน์การประกอบ HGAP ต้องการแก้ไขการอ่านขนาดใหญ่เท่านั้น พูด 8Kbp ขึ้นไป และดังนั้น
ต้องการเฉพาะการทับซ้อนที่ a-read เป็นหนึ่งในการอ่านขนาดใหญ่ โดยการตั้งค่า -H
พารามิเตอร์ที่จะพูดว่า N หนึ่ง alters ไดไลน์เนอร์ เพื่อให้รายงานทับซ้อนกันเฉพาะที่ a-read
มีความยาวมากกว่า N คู่เบส

แม้ว่าการตั้งค่าพารามิเตอร์เริ่มต้นจะดีสำหรับข้อมูลดิบของ Pacbio ไดไลน์เนอร์ สามารถนำมาใช้
สำหรับการค้นหาการจัดตำแหน่งอย่างมีประสิทธิภาพในการอ่านที่ถูกแก้ไขหรือการอ่านอื่นๆ ที่มีเสียงรบกวนน้อย สำหรับ
ตัวอย่าง สำหรับการทำแผนที่แอปพลิเคชันกับ .dams เราเรียกใช้

ไดไลน์เนอร์ -k20 -h60 -e. 85

และเมื่ออ่านแล้วเรามักจะเรียกใช้

ไดไลน์เนอร์ -k25 -w5 -h60 -e. 95 -s500

และการตั้งค่าเหล่านี้ทำได้เร็วมาก

ใช้ daligner ออนไลน์โดยใช้บริการ onworks.net



โปรแกรมออนไลน์ Linux และ Windows ล่าสุด