นี่คือคำสั่ง genome-music-bmr-calc-covgp ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, Windows online emulator หรือ MAC OS online emulator
โครงการ:
ชื่อ
เพลงจีโนม bmr calc-covg - ใช้ calcRoiCovg.c เพื่อนับฐานที่ครอบคลุมต่อยีนสำหรับแต่ละยีน
ให้ BAM คู่เนื้องอกปกติ
VERSION
เอกสารนี้อธิบายจีโนมเพลง bmr calc-covg เวอร์ชัน 0.04 (2016-01-01 เวลา 23:10:18)
เรื่องย่อ
จีโนม เพลง bmr calc-covg --gene-covg-dir=? --roi-file=? --reference-sequence=?
--bam-list=? --output-dir=? [--cmd-list-file=?] [--cmd-prefix=?] [--ปกติ-นาที-ความลึก=?]
[--เนื้องอก-นาที-ความลึก=?] [--นาที-mapq=?]
การใช้งานทั่วไป:
... เพลง bmr calc-covg \
--bam-รายการ input_dir/bam_list \
--output-dir output_dir/ \
--อ้างอิงลำดับ input_dir/all_sequences.fa \
--roi-ไฟล์ input_dir/all_coding_exons.tsv
เพื่อสร้างรายการคำสั่งที่จะช่วยให้การประมวลผลของคู่เนื้องอกปกติแต่ละคู่ใน
ขนานกับตัวกำหนดตารางเวลางาน LSF:
... เพลง bmr calc-covg \
--bam-รายการ input_dir/bam_list \
--output-dir output_dir/ \
--อ้างอิงลำดับ input_dir/all_sequences.fa \
--roi-ไฟล์ input_dir/all_coding_exons.tsv \
--cmd_list_file Parallelizable_commands \
--cmd_prefix bsub
ในกรณีข้างต้น คำสั่งที่พิมพ์ลงในไฟล์เอาท์พุต "parallelizable_commands" can
ให้ดำเนินการควบคู่กันไป หลังจากเสร็จสิ้น ให้รันสคริปต์นี้อีกครั้งตามที่พิมพ์ไว้ด้านล่าง
(--cmd_list_file และ --cmd_prefix ถูกลบแล้ว) เพื่อรวม Parallized
การคำนวณ:
... เพลง bmr calc-covg \
--bam-รายการ input_dir/bam_list \
--output-dir output_dir/ \
--อ้างอิงลำดับ input_dir/all_sequences.fa \
--roi-ไฟล์ input_dir/all_coding_exons.tsv
ที่จำเป็น อาร์กิวเมนต์
ยีน covg-dir ข้อความ
ไดเร็กทอรีที่ไฟล์ครอบคลุมยีนต่อตัวอย่างตั้งอยู่
ไฟล์ roi ข้อความ
รายการคั่นด้วยแท็บของ ROI [chr start stop gene_name] (ดูคำอธิบาย)
อ้างอิงลำดับ ข้อความ
เส้นทางไปยังลำดับอ้างอิงในรูปแบบ FASTA
แบมรายการ ข้อความ
รายการไฟล์ BAM ที่คั่นด้วยแท็บ [sample_name normal_bam tumor_bam] (ดูคำอธิบาย)
เอาท์พุท-dir ข้อความ
ไดเร็กทอรีที่จะเขียนไฟล์เอาต์พุตและไดเร็กทอรีย่อย
ตัวเลือก อาร์กิวเมนต์
cmd-รายการไฟล์ ข้อความ
ไฟล์สำหรับเขียนคำสั่ง calcRoiCovg ไปที่ (ดูคำอธิบาย)
cmd-คำนำหน้า ข้อความ
คำสั่งที่ส่งงานไปยังคลัสเตอร์ของคุณ (ดูคำอธิบาย)
ปกติ-นาที-ความลึก จำนวนเต็ม
ความลึกในการอ่านขั้นต่ำเพื่อพิจารณาฐาน BAM ปกติตามที่ครอบคลุม
เนื้องอก-นาที-ความลึก จำนวนเต็ม
ความลึกในการอ่านขั้นต่ำเพื่อพิจารณาฐาน BAM ของเนื้องอกตามที่ครอบคลุม
นาที-mapq จำนวนเต็ม
คุณภาพการทำแผนที่ขั้นต่ำของการอ่านเพื่อพิจารณาถึงการนับความลึกในการอ่าน
DESCRIPTION
สคริปต์นี้นับฐานที่มีความครอบคลุมเพียงพอใน ROI ของแต่ละยีนในค่าที่กำหนด
คู่ของไฟล์ BAM ปกติของเนื้องอกและจัดประเภทเป็น - AT, CG (ไม่ใช่ CpG) และ CpG
นับ นอกจากนี้ยังรวมการนับฐานเหล่านี้ใน ROI ทั้งหมดของแต่ละยีนสำหรับแต่ละตัวอย่าง
แต่ฐานที่ครอบคลุมซึ่งอยู่ใน ROI ที่ทับซ้อนกันจะไม่ถูกนับมากกว่าหนึ่งครั้งต่อ
จำนวนรวมเหล่านี้
โดยค่าเริ่มต้น สคริปต์นี้เรียกใช้เครื่องมือที่ใช้ C ชื่อ calcRoiCovg สำหรับแต่ละตัวอย่างหลังจาก
อีกครั้ง โดยใช้เวลาประมาณ 30 นาทีต่อตัวอย่างเพื่อสร้างจำนวนฐานที่ครอบคลุมต่อ ROI ถ้า
ผลลัพธ์ของ calcRoiCovg สำหรับตัวอย่างมีอยู่แล้วในไดเร็กทอรีย่อยเอาต์พุต roi_covgs
การคำนวณใหม่ถูกข้าม สิ่งนี้ทำให้คุณสามารถเรียกใช้งาน calcRoiCovg ในแบบคู่ขนานหรือ
บนเครื่องหลายเครื่อง (อ่านต่อ)
เร่งความเร็วด้วยการรันงาน calcRoiCovg แบบขนาน: หากคลัสเตอร์ประมวลผลหรือหลายตัว
เครื่องพร้อมใช้งาน เรียกใช้สคริปต์นี้สองครั้งดังนี้:
· กำหนด cmd-list-file และ cmd-prefix เพื่อสร้างไฟล์ด้วยคำสั่งที่สามารถ
ส่งไปยังคลัสเตอร์หรือเรียกใช้ด้วยตนเอง งานเหล่านี้จะเขียนจำนวนฐานต่อ ROI เป็น
ไดเรกทอรีย่อย roi_covgs
· หลังจากที่งาน calcRoiCovg แบบขนานทั้งหมดเสร็จสิ้นแล้ว ให้รันสคริปต์นี้อีกครั้งเพื่อ
รวมเข้าด้วยกันและสร้างการนับฐานต่อยีนสุดท้ายในไดเร็กทอรีย่อย gene_covgs
อย่าลืมลบอาร์กิวเมนต์ cmd-list-file และ cmd-prefix ไม่เช่นนั้นคุณจะ-
การสร้างรายการคำสั่ง
อาร์กิวเมนต์
--roi-ไฟล์
ภูมิภาคที่น่าสนใจ (ROI) ของแต่ละยีนมักจะเป็นภูมิภาคที่กำหนดเป้าหมายสำหรับ
การจัดลำดับหรือผสาน exon loci (จากการถอดเสียงหลายชุด) ของยีนด้วย 2-bp
สีข้าง (ทางแยกประกบ). ROI จากโครโมโซมเดียวกันต้องอยู่ติดกับ
กันในไฟล์นี้ ซึ่งช่วยให้โค้ดที่ใช้ C พื้นฐานทำงานได้มากขึ้น
อย่างมีประสิทธิภาพและหลีกเลี่ยงการนับซ้ำฐานที่เห็นใน ROI ที่ทับซ้อนกัน (สำหรับที่ครอบคลุมโดยรวม
นับฐาน) สำหรับการนับฐานต่อยีน ฐานที่ทับซ้อนกันจะถูกนับในแต่ละครั้ง
ปรากฏใน ROI ของยีนเดียวกัน เพื่อหลีกเลี่ยงปัญหานี้อย่าลืมรวมเข้าด้วยกัน
ROI ที่ทับซ้อนกันของยีนเดียวกัน mergeBed ของ BEDtools สามารถช่วยได้หากใช้ต่อยีน
--reference-ลำดับ
ลำดับการอ้างอิงในรูปแบบ FASTA หากไม่พบดัชนีลำดับอ้างอิง
ถัดจากไฟล์นี้ (ไฟล์ .fai) จะถูกสร้างขึ้น
--แบม-รายการ
จัดเตรียมไฟล์ที่มีชื่อตัวอย่างและตำแหน่ง BAM ปกติ/เนื้องอกสำหรับแต่ละรายการ ใช้
รูปแบบแท็บคั่น [sample_name normal_bam tumor_bam] ต่อบรรทัด เพิ่มเติม
อนุญาตให้ใช้คอลัมน์ต่างๆ เช่น ข้อมูลทางคลินิก แต่ละเว้น sample_name ต้องเหมือนกัน
เป็นชื่อตัวอย่างเนื้องอกที่ใช้ในไฟล์ MAF (คอลัมน์ที่ 16 พร้อมส่วนหัว
Tumor_Sample_Barcode)
--output-ผบ
ระบุไดเร็กทอรีเอาต์พุตที่จะสร้าง/เขียนสิ่งต่อไปนี้: roi_covgs:
ไดเรกทอรีย่อยที่มีจำนวนฐานที่ครอบคลุมต่อ ROI สำหรับแต่ละตัวอย่าง ยีน_covgs:
ไดเรกทอรีย่อยที่มีจำนวนเบสที่ครอบคลุมต่อยีนสำหรับแต่ละตัวอย่าง รวม_covgs:
ไฟล์ที่มีการครอบคลุมที่ไม่ทับซ้อนกันโดยรวมต่อตัวอย่าง
--cmd-รายการไฟล์
ระบุไฟล์ที่จะเขียนรายการงาน calcRoiCovg เหล่านี้สามารถ
กำหนดเวลาแบบขนาน และจะเขียนต่อ ROI ที่ครอบคลุมการนับฐานลงในผลลัพธ์
ไดเรกทอรีย่อย roi_covgs หาก cmd-list-file ถูกปล่อยทิ้งไว้โดยไม่ระบุ สคริปต์นี้ทำงาน
calcRoiCovg ต่อตัวอย่างทีละตัวอย่าง โดยใช้เวลาประมาณ 30 นาทีต่อตัวอย่าง แต่จะข้ามไป
ตัวอย่างที่มีเอาต์พุตอยู่ใน roi_covgs แล้ว
--cmd-คำนำหน้า
ระบุคำสั่งการส่งงานที่จะนำหน้าแต่ละคำสั่งใน cmd-list-
ไฟล์. ทำให้การส่งแบทช์ง่ายขึ้น เพียงเรียกใช้ไฟล์ cmd-list-file เป็นเชลล์
สคริปส่งงาน. cmd-prefix คือ "bsub" หากคลัสเตอร์ของคุณใช้งาน LSF
ตัวกำหนดตารางเวลาหรือ "qsub" ในแรงบิด เพิ่มอาร์กิวเมนต์ตามความจำเป็น ตัวอย่างเช่น "bsub -M 4GB"
กำหนดขีดจำกัดหน่วยความจำแบบซอฟต์ไว้ที่ 4GB
ใช้ genome-music-bmr-calc-covgp ออนไลน์โดยใช้บริการ onworks.net