bcftools - ออนไลน์ใน Cloud

นี่คือคำสั่ง bcftools ที่สามารถเรียกใช้ในผู้ให้บริการโฮสต์ฟรีของ OnWorks โดยใช้เวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS

โครงการ:

ชื่อ


samtools - ยูทิลิตี้สำหรับการจัดตำแหน่ง/แผนที่ (SAM) รูปแบบ

bcftools - ยูทิลิตี้สำหรับรูปแบบการโทรแบบไบนารี (BCF) และ VCF

เรื่องย่อ


samtools มุมมอง -bt ref_list.txt -o aln.bam aln.sam.gz

samtools เรียงลำดับ aln.bam aln.sorted

ดัชนี samtools aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools ดู aln.sorted.bam chr2:20,100,000-20,200,000

samtools ผสาน out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtoolsileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

ดัชนี bcftools in.bcf

bcftools ดู in.bcf chr2:100-200 > out.vcf

bcftools มุมมอง -Nvm0.99 in.bcf > out.vcf 2> out.afs

DESCRIPTION


Samtools คือชุดของยูทิลิตี้ที่จัดการการจัดตำแหน่งในรูปแบบ BAM นำเข้า
จากและส่งออกไปยังรูปแบบ SAM (การจัดตำแหน่งลำดับ/แผนที่) ทำการเรียงลำดับ ผสาน และ
การจัดทำดัชนีและอนุญาตให้ดึงการอ่านในภูมิภาคใด ๆ อย่างรวดเร็ว

Samtools ออกแบบมาเพื่อทำงานบนสตรีม ถือว่าไฟล์อินพุต `-' เป็นมาตรฐาน
อินพุต (stdin) และไฟล์เอาต์พุต `-' เป็นเอาต์พุตมาตรฐาน (stdout) หลายคำสั่งสามารถ
จึงใช้ร่วมกับท่อยูนิกซ์ Samtools ส่งออกคำเตือนและข้อความแสดงข้อผิดพลาดไปยัง .เสมอ
เอาต์พุตข้อผิดพลาดมาตรฐาน (stderr)

Samtools ยังสามารถเปิดไฟล์ BAM (ไม่ใช่ SAM) บนเซิร์ฟเวอร์ FTP หรือ HTTP ระยะไกลได้หาก
ชื่อไฟล์ BAM ขึ้นต้นด้วย `ftp://' หรือ `http://' Samtools ตรวจสอบการทำงานปัจจุบัน
ไดเร็กทอรีสำหรับไฟล์ดัชนีและจะดาวน์โหลดดัชนีเมื่อไม่อยู่ Samtools ไม่ได้
ดึงไฟล์การจัดตำแหน่งทั้งหมด เว้นแต่จะมีการขอให้ทำเช่นนั้น

แซมทูลส์ คำสั่ง AND OPTIONS


ดู มุมมอง samtools [-bchuHS] [-t in.refList] [-o เอาต์พุต] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l ไลบรารี่] [-r readGroup] [-R rgFile] | [ภูมิภาค1
-

แยก/พิมพ์ทั้งหมดหรือการจัดตำแหน่งย่อยในรูปแบบ SAM หรือ BAM หากไม่มีภูมิภาคใดคือ
ระบุ การจัดตำแหน่งทั้งหมดจะถูกพิมพ์ มิฉะนั้นเพียงการจัดตำแหน่ง
ทับซ้อนภูมิภาคที่ระบุจะถูกส่งออก อาจมีการจัดตำแหน่งให้
หลายครั้งหากทับซ้อนกันหลายภูมิภาค ภูมิภาคสามารถนำเสนอ
ตัวอย่างเช่น ในรูปแบบต่อไปนี้: `chr2' (ทั้ง chr2), `chr2:1000000'
(ภูมิภาคเริ่มต้นจาก 1,000,000bp) หรือ `chr2:1,000,000-2,000,000' (ภูมิภาคระหว่าง
1,000,000 และ 2,000,000bp รวมจุดสิ้นสุด) พิกัดเป็นแบบ 1

ตัวเลือก:

-b เอาต์พุตในรูปแบบ BAM

-f INT เฉพาะการจัดตำแหน่งเอาต์พุตที่มีบิตทั้งหมดใน INT อยู่ในฟิลด์ FLAG
INT สามารถอยู่ในรูปฐานสิบหกในรูปแบบของ /^0x[0-9A-F]+/ [0]

-F INT ข้ามการจัดตำแหน่งด้วยบิตที่มีอยู่ใน INT [0]

-h รวมส่วนหัวในผลลัพธ์

-H ส่งออกส่วนหัวเท่านั้น

-l STR เฉพาะเอาต์พุตที่อ่านในไลบรารี STR [null]

-o ไฟล์ ไฟล์เอาต์พุต [stdout]

-q INT ข้ามการจัดตำแหน่งด้วย MAPQ ที่เล็กกว่า INT [0]

-r STR เฉพาะเอาต์พุตที่อ่านในกลุ่มการอ่าน STR [null]

-R ไฟล์ เอาต์พุตอ่านในกลุ่มการอ่านที่ระบุไว้ใน ไฟล์ [โมฆะ]

-s ลอย เศษส่วนของเทมเพลต/คู่ไปยังตัวอย่างย่อย ส่วนจำนวนเต็มได้รับการปฏิบัติ
เป็นเมล็ดพันธุ์สำหรับเครื่องกำเนิดตัวเลขสุ่ม [-1]

-S อินพุตอยู่ใน SAM หากไม่มีบรรทัดส่วนหัว @SQ แสดงว่า `-t' ตัวเลือกที่
จำเป็นต้องใช้

-c แทนที่จะพิมพ์การจัดตำแหน่ง ให้นับเฉพาะและพิมพ์
จำนวนรวม ตัวเลือกตัวกรองทั้งหมด เช่น `-f', `-ฟ' และ `-q' เป็น
นำเข้าบัญชี.

-t ไฟล์ ไฟล์นี้คั่นด้วย TAB แต่ละบรรทัดต้องมีชื่ออ้างอิง
และความยาวของการอ้างอิง หนึ่งบรรทัดสำหรับการอ้างอิงที่ชัดเจนแต่ละรายการ
ฟิลด์เพิ่มเติมจะถูกละเว้น ไฟล์นี้ยังกำหนดลำดับของ
ลำดับอ้างอิงในการเรียงลำดับ หากคุณเรียกใช้ `samtools faidx '
ไฟล์ดัชนีผลลัพธ์ .fai ใช้ได้แบบนี้
ไฟล์

-u เอาต์พุต BAM ที่ไม่มีการบีบอัด ตัวเลือกนี้ช่วยประหยัดเวลาที่ใช้ไปกับ
การบีบอัด/คลายการบีบอัด ดังนั้น จึงนิยมใช้เมื่อเอาต์พุตเป็น
ไพพ์ไปยังคำสั่ง samtools อื่น

ดู samtools ทีวีวิว [-p chr:ตำแหน่ง] [-s STR] [-d แสดงผล] [ref.fasta]

โปรแกรมดูการจัดตำแหน่งข้อความ (ตามไลบรารี ncurses) ในตัวแสดง กด `?'
เพื่อขอความช่วยเหลือและกด `g' เพื่อตรวจสอบการจัดตำแหน่งเริ่มต้นจากภูมิภาคในรูปแบบ
เช่น `chr10:10,000,000' หรือ `=10,000,000' เมื่อดูการอ้างอิงเดียวกัน
ลำดับ.

ตัวเลือก:

-d แสดงผล เอาต์พุตเป็น (H)tml หรือ (C) urses หรือ (T)ext

-p chr:ตำแหน่ง ไปที่ตำแหน่งนี้โดยตรง

-s STR แสดงเฉพาะการอ่านจากตัวอย่างนี้หรือกลุ่มการอ่าน

เอ็มไพล์อัพ samtools mpileup [-Ebugp] [-C capQcoef] [-r reg] [-f ใน.fa] [-l รายการ] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] อิน.แบม [in2.แบม [...]]

สร้าง BCF หรือ pileup สำหรับไฟล์ BAM หนึ่งไฟล์หรือหลายไฟล์ บันทึกการจัดตำแหน่งคือ
จัดกลุ่มตามตัวระบุตัวอย่างในบรรทัดส่วนหัว @RG หากตัวระบุตัวอย่างคือ
ไม่มีไฟล์อินพุตแต่ละไฟล์ถือเป็นตัวอย่างเดียว

ในรูปแบบpilup (ไม่มี -uor-g) แต่ละบรรทัดแสดงถึงตำแหน่งจีโนม
ประกอบด้วย ชื่อโครโมโซม พิกัด ฐานอ้างอิง ฐานอ่าน อ่าน
คุณภาพและคุณสมบัติการทำแผนที่การจัดตำแหน่ง ข้อมูลเกี่ยวกับการแข่งขัน ไม่ตรงกัน
indel, strand, mapping quality และจุดเริ่มต้นและจุดสิ้นสุดของการอ่านทั้งหมดถูกเข้ารหัสที่
คอลัมน์ฐานอ่าน ที่คอลัมน์นี้ จุดหมายถึงการจับคู่กับการอ้างอิง
ยึดตามเกลียวไปข้างหน้า, เครื่องหมายจุลภาคสำหรับการจับคู่ที่เกลียวด้านหลัง, '>' หรือ
'<' สำหรับการข้ามการอ้างอิง 'ACGTN' สำหรับข้อความที่ไม่ตรงกันบนเกลียวไปข้างหน้าและ
`acgtn' สำหรับข้อความที่ไม่ตรงกันบนเกลียวย้อนกลับ รูปแบบ `\+[0-9]+[ACGTNacgtn]+'
แสดงว่ามีการแทรกระหว่างตำแหน่งอ้างอิงนี้กับตำแหน่งถัดไป
ตำแหน่งอ้างอิง ความยาวของการแทรกถูกกำหนดโดยจำนวนเต็มใน
รูปแบบ ตามด้วยลำดับที่แทรก ในทำนองเดียวกันรูปแบบ
`-[0-9]+[ACGTNacgtn]+' หมายถึงการลบออกจากข้อมูลอ้างอิง ที่ถูกลบ
ฐานจะแสดงเป็น `*' ในบรรทัดต่อไปนี้ นอกจากนี้ที่ฐานการอ่าน
คอลัมน์ สัญลักษณ์ `^' เป็นจุดเริ่มต้นของการอ่าน ASCII ของตัวละคร
การติดตาม `^' ลบ 33 ให้คุณภาพการทำแผนที่ สัญลักษณ์ `$' เป็นจุดสิ้นสุดของ
ส่วนการอ่าน

อินพุต ตัวเลือก:

-6 สมมติว่าคุณภาพอยู่ในการเข้ารหัส Illumina 1.3+ -A อย่าข้าม
คู่อ่านที่ผิดปกติในการเรียกตัวแปร

-B ปิดใช้งานการปรับความน่าจะเป็นสำหรับการคำนวณฐาน
คุณภาพการจัดตำแหน่ง (BAQ) BAQ คือความน่าจะเป็นแบบ Phred ของการอ่าน
ฐานไม่ตรง การใช้ตัวเลือกนี้ช่วยลดได้อย่างมาก
SNP เท็จที่เกิดจากการจัดแนวผิด

-b ไฟล์ รายการอินพุตไฟล์ BAM หนึ่งไฟล์ต่อบรรทัด [null]

-C INT ค่าสัมประสิทธิ์สำหรับดาวน์เกรดคุณภาพการทำแผนที่สำหรับการอ่านที่มี
ไม่ตรงกันมากเกินไป ให้การอ่านที่มีความน่าจะเป็น phred สเกล q
ของการสร้างจากตำแหน่งที่แมป คุณภาพการแมปใหม่
เป็นเรื่องเกี่ยวกับ sqrt((INT-q)/INT)*INT ค่าศูนย์ปิดการใช้งานสิ่งนี้
ฟังก์ชั่น; หากเปิดใช้งาน ค่าที่แนะนำสำหรับ BWA คือ 50 [0]

-d INT ในตำแหน่ง อ่านสูงสุด INT อ่านต่ออินพุต BAM [250]

-E การคำนวณ BAQ แบบขยาย ตัวเลือกนี้ช่วยให้เกิดความไวโดยเฉพาะอย่างยิ่งสำหรับ
MNPs แต่อาจกระทบต่อความจำเพาะเล็กน้อย

-f ไฟล์ พื้นที่ เฟดซ์ไฟล์อ้างอิง -indexed ในรูปแบบ FASTA ไฟล์สามารถ
เลือกบีบอัดโดย ฉีก. [โมฆะ]

-l ไฟล์ ไฟล์รายการเตียงหรือตำแหน่งที่มีรายการภูมิภาคหรือไซต์ที่
ควรสร้าง pileup หรือ BCF [null]

-q INT คุณภาพการแมปขั้นต่ำสำหรับการจัดตำแหน่งที่จะใช้ [0]

-Q INT คุณภาพฐานขั้นต่ำสำหรับฐานที่จะพิจารณา [13]

-r STR สร้างกองได้เฉพาะในภูมิภาค STR [ทุกไซต์]

เอาท์พุต ตัวเลือก:

-D เอาต์พุตต่อตัวอย่างความลึกในการอ่าน

-g คำนวณความน่าจะเป็นของจีโนไทป์และส่งออกในรูปแบบการเรียกไบนารี
(บีซีเอฟ).

-S อคติ P-value

-u คล้ายกับ -g ยกเว้นว่าเอาต์พุตไม่มีการบีบอัด BCF ซึ่งก็คือ
ที่ต้องการสำหรับท่อ

Options for แบบฉบับของตระกูล ความน่าจะเป็น การคำนวณ (สำหรับ -g or -ยู):

-e INT ความน่าจะเป็นของข้อผิดพลาดในการจัดลำดับการขยายช่องว่างแบบ Phred ลด INT
นำไปสู่อินเดลที่ยาวขึ้น (20)

-h INT ค่าสัมประสิทธิ์สำหรับการสร้างแบบจำลองข้อผิดพลาดของโฮโมพอลิเมอร์ ได้รับ an l-ยาว
โฮโมพอลิเมอร์รัน ข้อผิดพลาดในการจัดลำดับของอินเดลของขนาด s เป็นแบบจำลอง
as INT*s/l. [100]

-I อย่าทำการโทร INDEL

-L INT ข้ามการเรียก INDEL หากความลึกต่อตัวอย่างเฉลี่ยสูงกว่า INT.
[250]

-o INT ความน่าจะเป็นของข้อผิดพลาดในการจัดลำดับการเปิดช่องว่าง Phred-scaled ลด INT นำไปสู่
เพื่อโทรอินเดลมากขึ้น [40]

-p ใช้เกณฑ์ -m และ -F ต่อตัวอย่างเพื่อเพิ่มความไวของ
โทร. โดยค่าเริ่มต้น ตัวเลือกทั้งสองจะถูกนำไปใช้กับการอ่านที่รวบรวมจากทั้งหมด
ตัวอย่าง

-P STR รายการแพลตฟอร์มที่คั่นด้วยจุลภาค (กำหนดโดย @RG-PL) จากที่
ผู้สมัครอินเดลจะได้รับ ขอแนะนำให้เก็บ indel
ผู้สมัครจากเทคโนโลยีการจัดลำดับที่มีอัตราความผิดพลาดของอินเดลต่ำ
เช่น อิลลูมินา [ทั้งหมด]

ส่วนหัว samtools reheader

เปลี่ยนส่วนหัวใน อิน.แบม ด้วยส่วนหัวใน in.header.sam คำสั่งนี้คือ
เร็วกว่าการเปลี่ยนส่วนหัวด้วยการแปลง BAM->SAM->BAM

แมว samtools แมว [-h header.sam] [-o out.bam] [ ... ]

เชื่อมต่อ BAM พจนานุกรมลำดับของอินพุต BAM แต่ละรายการต้องเหมือนกัน
แม้ว่าคำสั่งนี้จะไม่ตรวจสอบสิ่งนี้ คำสั่งนี้ใช้กลอุบายคล้ายกับ
ส่วนหัว ซึ่งช่วยให้สามารถเชื่อมต่อ BAM ได้อย่างรวดเร็ว

ประเภท samtools sort [-nof] [-m maxMem]

จัดเรียงการจัดตำแหน่งตามพิกัดซ้ายสุด ไฟล์ .แบม จะถูกสร้างขึ้น
คำสั่งนี้อาจสร้างไฟล์ชั่วคราวด้วย .%d.แบม เมื่อทั้งหมด
ไม่สามารถใส่การจัดตำแหน่งลงในหน่วยความจำได้ (ควบคุมโดยตัวเลือก -m)

ตัวเลือก:

-o ส่งออกการจัดตำแหน่งสุดท้ายไปยังเอาต์พุตมาตรฐาน

-n เรียงตามชื่อที่อ่านมากกว่าตามพิกัดโครโมโซม

-f ใช้ เป็นเส้นทางเอาต์พุตแบบเต็มและไม่ผนวก .แบม วิภัตติ

-m INT หน่วยความจำสูงสุดที่ต้องการโดยประมาณ [500000000]

ผสาน samtools ผสาน [-nur1f] [-h inh.sam] [-R reg]
[ ... ]

รวมการจัดตำแหน่งที่จัดเรียงไว้หลายแบบ รายการอ้างอิงส่วนหัวของอินพุตทั้งหมด
ไฟล์ BAM และส่วนหัว @SQ ของ อินซำหากมีทั้งหมดต้องอ้างถึงเหมือนกัน
ชุดของลำดับอ้างอิง รายการอ้างอิงส่วนหัวและ (เว้นแต่จะถูกแทนที่โดย
-h) `@' ส่วนหัวของ in1.แบม จะถูกคัดลอกไปที่ เอ้า.แบม, และส่วนหัวของผู้อื่น
ไฟล์จะถูกละเว้น

ตัวเลือก:

-1 ใช้การบีบอัด zlib ระดับ 1 เพื่อบีบอัดเอาต์พุต

-f บังคับให้เขียนทับไฟล์เอาต์พุต หากมี

-h ไฟล์ ใช้บรรทัดของ ไฟล์ เป็นส่วนหัว `@' ที่จะคัดลอกไปที่ เอ้า.แบมแทนที่
บรรทัดส่วนหัวใด ๆ ที่มิฉะนั้นจะถูกคัดลอกจาก in1.แบม. (ไฟล์ is
จริง ๆ แล้วอยู่ในรูปแบบ SAM แม้ว่าการจัดตำแหน่งใด ๆ ก็ตามที่บันทึกอาจมีอยู่
ละเลย)

-n การจัดตำแหน่งอินพุตถูกจัดเรียงตามชื่อที่อ่านมากกว่าตามโครโมโซม
พิกัด

-R STR รวมไฟล์ในภูมิภาคที่ระบุโดย STR [โมฆะ]

-r ติดแท็ก RG ในแต่ละการจัดตำแหน่ง ค่าแท็กถูกอนุมานจาก file
ชื่อ

-u เอาต์พุต BAM ที่ไม่บีบอัด

ดัชนี ดัชนี samtools

การจัดตำแหน่งการเรียงลำดับดัชนีสำหรับการเข้าถึงแบบสุ่มอย่างรวดเร็ว ไฟล์ดัชนี .bai จะ
สร้าง

idxstat samtools idxstats

ดึงและพิมพ์สถิติในไฟล์ดัชนี ผลลัพธ์ถูกคั่นด้วย TAB ด้วย
แต่ละบรรทัดประกอบด้วยชื่อลำดับอ้างอิง ความยาวลำดับ # การอ่านที่แมป
และ # การอ่านที่ไม่ได้แมป

เฟดซ์ samtools faidx [ภูมิภาค1 [...]]

ลำดับการอ้างอิงดัชนีในรูปแบบ FASTA หรือแยกลำดับย่อยจากการทำดัชนี
ลำดับอ้างอิง หากไม่มีการระบุภูมิภาค เฟดซ์ จะจัดทำดัชนีไฟล์และ
สร้าง .fai บนดิสก์ หากระบุภูมิภาค ให้ระบุภาคต่อ
จะถูกดึงและพิมพ์ไปยัง stdout ในรูปแบบ FASTA ไฟล์อินพุตสามารถ
ถูกบีบอัดใน ราซเอฟ จัดรูปแบบ

เพื่อนร่วมทาง samtools fixmate

กรอกพิกัดเพื่อน ISIZE และจับคู่ธงที่เกี่ยวข้องจากการเรียงลำดับชื่อ
การจัดตำแหน่ง

rmdup samtools rmdup [-sS]

ลบ PCR ที่ซ้ำกันที่อาจเกิดขึ้น: หากคู่การอ่านหลายคู่มีภายนอกเหมือนกัน
พิกัดเท่านั้น รักษาคู่ที่มีคุณภาพการทำแผนที่สูงสุด ในคู่ -
จบโหมด คำสั่งนี้ เพียง ทำงานร่วมกับการวางแนว FR และต้องใช้ ISIZE is
ตั้งค่าอย่างถูกต้อง ใช้ไม่ได้กับการอ่านแบบไม่จับคู่ (เช่น ปลายทั้งสองจับคู่กับ
โครโมโซมที่แตกต่างกันหรือเด็กกำพร้าอ่าน)

ตัวเลือก:

-s ลบรายการที่ซ้ำกันสำหรับการอ่านแบบปลายด้านเดียว โดยค่าเริ่มต้น คำสั่งทำงานสำหรับ
คู่ปลายอ่านเท่านั้น

-S ปฏิบัติต่อการอ่านแบบคู่และการอ่านแบบปลายเดียว

ใจเย็น samtools สงบ [-EeubSr] [-C capQcoef]

สร้างแท็ก MD หากมีแท็ก MD อยู่แล้ว คำสั่งนี้จะให้ a
เตือนหากแท็ก MD ที่สร้างแตกต่างจากแท็กที่มีอยู่ เอาต์พุต SAM
โดยค่าเริ่มต้น

ตัวเลือก:

-A เมื่อใช้ร่วมกับ -r ตัวเลือกนี้จะเขียนทับฐานเดิม
คุณภาพ

-e แปลงฐานการอ่านเป็น = ถ้ามันเหมือนกับการอ้างอิงที่จัดแนว
ฐาน. ผู้โทร Indel ไม่รองรับฐาน = ในขณะนี้

-u เอาต์พุตที่ไม่มีการบีบอัด BAM

-b เอาต์พุตที่บีบอัด BAM

-S อินพุตคือ SAM พร้อมบรรทัดส่วนหัว

-C INT ค่าสัมประสิทธิ์เพื่อจำกัดคุณภาพการทำแผนที่ของการอ่านที่แมปไม่ดี ดู
กระเจิดกระเจิง คำสั่งสำหรับรายละเอียด [0]

-r คำนวณแท็ก BQ (ไม่มี -A) หรือคุณภาพฐานสูงสุดโดย BAQ (ด้วย -A)

-E การคำนวณ BAQ แบบขยาย ตัวเลือกนี้ซื้อขายเฉพาะสำหรับ
ความไวแม้ว่าผลจะเล็กน้อย

เป้าหมาย samtools targetcut [-Q minBaseQ] [-i ในการลงโทษ] [-0 em0] [-1 em1] [-2 em2] [-f
อ้างอิง]

คำสั่งนี้ระบุพื้นที่เป้าหมายโดยตรวจสอบความต่อเนื่องของ read
ความลึก คำนวณลำดับที่สอดคล้องกันของเป้าหมายและส่งออก SAM ด้วย
แต่ละลำดับที่สอดคล้องกับเป้าหมาย เมื่อตัวเลือก -f ใช้งานอยู่ BAQ จะเป็น
สมัครแล้ว. คำสั่งนี้คือ เพียง ออกแบบมาสำหรับการตัดโคลน fosmid จาก fosmid
การจัดลำดับพูล [Ref. Kitzman และคณะ (2010)].

ระยะ เฟส samtools [-AF] [-k len] [-b คำนำหน้า] [-q minLOD] [-Q minBaseQ]

การโทรและเฟส SNP แบบเฮเทอโรไซกัส ตัวเลือก:

-A ดร็อปอ่านด้วยเฟสคลุมเครือ

-b STR คำนำหน้าของเอาต์พุต BAM เมื่อมีการใช้ตัวเลือกนี้ การอ่านเฟส-0 จะเป็น
บันทึกไว้ในไฟล์ STR.0.bam และ phase-1 อ่านใน STR.1.แบม. ไม่ทราบเฟส
การอ่านจะถูกสุ่มให้เป็นหนึ่งในสองไฟล์ Chimeric อ่าน
ด้วยข้อผิดพลาดของสวิตช์จะถูกบันทึกไว้ใน STR.chimeric.bam [โมฆะ]

-F อย่าพยายามแก้ไขการอ่านแบบเพ้อฝัน

-k INT ความยาวสูงสุดสำหรับการวางขั้นตอนภายใน [13]

-q INT LOD ที่ปรับขนาด Phred ขั้นต่ำเพื่อเรียก heterozygote [40]

-Q INT คุณภาพฐานขั้นต่ำที่จะใช้ในการโทรแบบเฮด [13]

บีซีเอฟทูลส์ คำสั่ง AND OPTIONS


ดู บีซีทูลส์ ดู [-AbFGNQSucgv] [-D seqDict] [-l รายการLoci] [-s รายการตัวอย่าง] [-i
ช่องว่างSN Ratio] [-t มิวเรท] [-p varThres] [-m varThres] [-P ก่อน] [-1 nGroup1]
[-d ขั้นต่ำ] [-U nดัด] [-X ดัดผม] [-T ทรีโอไทป์] in.bcf [ภูมิภาค]

แปลงระหว่าง BCF และ VCF เรียกตัวเลือกตัวแปรและประมาณค่าอัลลีล
ความถี่.

Input / Output ตัวเลือก:

-A เก็บอัลลีลสำรองที่เป็นไปได้ทั้งหมดที่ไซต์ตัวแปร โดยค่าเริ่มต้น,
คำสั่ง view ทิ้งอัลลีลที่ไม่น่าจะเป็นไปได้

-b เอาต์พุตในรูปแบบ BCF ค่าเริ่มต้นคือ VCF

-D ไฟล์ พจนานุกรมลำดับ (รายชื่อโครโมโซม) สำหรับการแปลง VCF->BCF
[โมฆะ]

-F ระบุว่า PL ถูกสร้างขึ้นโดย r921 หรือก่อนหน้านั้น (การสั่งซื้อจะแตกต่างกัน)

-G ระงับข้อมูลจีโนไทป์ส่วนบุคคลทั้งหมด

-l ไฟล์ รายชื่อไซต์ที่ส่งข้อมูล [ไซต์ทั้งหมด]

-N ข้ามไซต์ที่ฟิลด์ REF ไม่ใช่ A/C/G/T

-Q ส่งออกรูปแบบความเป็นไปได้ของ QCALL

-s ไฟล์ รายการตัวอย่างที่จะใช้ คอลัมน์แรกในอินพุตให้ตัวอย่าง
ชื่อและที่สองให้ ploidy ซึ่งสามารถเป็น 1 หรือ 2 เท่านั้นเมื่อ
ไม่มีคอลัมน์ที่ 2 ตัวอย่างพลอยจะถือว่าเป็น 2 ใน
ผลลัพธ์ ลำดับของตัวอย่างจะเหมือนกับหนึ่งใน ไฟล์.
[โมฆะ]

-S อินพุตคือ VCF แทนที่จะเป็น BCF

-u เอาต์พุต BCF ที่ไม่บีบอัด (แรง -b)

ฉันทามติ/ตัวแปร การเรียกร้อง ตัวเลือก:

-c รูปแบบการโทรโดยใช้การอนุมานแบบเบย์ ตัวเลือกนี้โดยอัตโนมัติ
เรียกตัวเลือก -e.

-d ลอย เมื่อ -v ใช้งานอยู่ ให้ข้ามตำแหน่งที่เศษของตัวอย่างครอบคลุมโดย
การอ่านอยู่ด้านล่าง FLOAT [0]

-e ทำการอนุมานความเป็นไปได้สูงสุดเท่านั้น รวมถึงการประมาณไซต์
ความถี่อัลลีล การทดสอบสมดุล Hardy-Weinberg และการทดสอบ
ความเกี่ยวข้องกับ LRT

-g เรียกจีโนไทป์ต่อตัวอย่างที่ไซต์ตัวแปร (บังคับ -c)

-i ลอย อัตราส่วนของอัตราการกลายพันธุ์ INDEL-to-SNP [0.15]

-m ลอย รูปแบบใหม่สำหรับการโทรแบบหลายอัลลีลิกและแรร์-ตัวแปรที่ได้รับการปรับปรุง อื่น
ยอมรับอัลลีล ALT หาก P(chi^2) ของ LRT เกินเกณฑ์ FLOAT
พารามิเตอร์ดูแข็งแกร่งและค่าจริงมักจะไม่
ส่งผลกระทบต่อผลลัพธ์มาก คุ้มค่าในการใช้งานคือ 0.99 นี้เป็น
วิธีการโทรที่แนะนำ [0]

-p ลอย ไซต์จะถือเป็นตัวแปรถ้า P(ref|D)

-P STR สเปกตรัมความถี่อัลลีลก่อนหน้าหรือเริ่มต้น ถ้า STR ทำได้ เต็ม, คอนดิชั่น2,
แบน หรือไฟล์ที่ประกอบด้วยเอาต์พุตข้อผิดพลาดจากตัวแปรก่อนหน้า
เรียกเรียกใช้

-t ลอย อัตราการกลายพันธุ์ที่ปรับขนาดสำหรับการเรียกตัวแปร [0.001]

-T STR เปิดใช้งานการโทรแบบคู่/ทรีโอ สำหรับการโทรแบบสามคน ตัวเลือก -s มักจะ
จำเป็นต้องใช้เพื่อกำหนดค่าสมาชิกทั้งสามคนและการสั่งซื้อของพวกเขา
ในไฟล์ที่ให้มากับตัวเลือก -s, ตัวอย่างแรกต้องเป็น
ลูกคนที่สองคือพ่อและคนที่สามคือแม่ ที่ถูกต้อง
ค่าของ STR คือ 'คู่', 'trioauto', 'trioxd' และ 'trioxs' โดยที่
'pair' เรียกความแตกต่างระหว่างตัวอย่างอินพุตสองตัวและ 'trioxd'
(`trioxs') ระบุว่าอินพุตมาจากโครโมโซม X ที่ไม่ใช่ PAR
ภูมิภาคและเด็กเป็นเพศหญิง (ชาย) [โมฆะ]

-v ไซต์ตัวแปรเอาต์พุตเท่านั้น (force -c)

ตรงกันข้าม การเรียกร้อง และ สมาคม ทดสอบ ตัวเลือก:

-1 INT จำนวนกลุ่มตัวอย่างที่ 1 ตัวเลือกนี้ใช้สำหรับหาร
ตัวอย่างออกเป็นสองกลุ่มสำหรับการโทร SNP ความคมชัดหรือการทดสอบการเชื่อมโยง
เมื่อใช้ตัวเลือกนี้ VCF INFO ต่อไปนี้จะถูกส่งออก:
PC2, PCHI2 และ QCHI2 [0]

-U INT จำนวนการเรียงสับเปลี่ยนสำหรับการทดสอบความสัมพันธ์ (มีผลเฉพาะกับ -1)
[0]

-X ลอย ทำการเรียงสับเปลี่ยนสำหรับ P(chi^2) เท่านั้น -U)
[0.01]

ดัชนี บีซีทูลส์ ดัชนี in.bcf

ดัชนีเรียงลำดับ BCF สำหรับการเข้าถึงแบบสุ่ม

แมว บีซีทูลส์ แมว in1.bcf [in2.bcf [...-

เชื่อมไฟล์ BCF ไฟล์อินพุตจะต้องถูกจัดเรียงและมี
ตัวอย่างที่เหมือนกันที่ปรากฏในลำดับเดียวกัน

SAM FORMAT


รูปแบบการจัดแนว/แผนที่ (SAM) ที่คั่นด้วย TAB นอกเหนือจากบรรทัดส่วนหัวซึ่ง
เริ่มต้นด้วยสัญลักษณ์ `@' แต่ละบรรทัดการจัดตำแหน่งประกอบด้วย:

┌─────┬─────────────────────────────────────────────────────────────────────────────────────────────────────── ────────────────────────┐
Colสนามรายละเอียด
├─────┼─────────────────────────────────────────────────────────────────────────────────────────────────────── ────────────────────────┤
│ 1 │ QNAME │ เทมเพลตข้อความค้นหา/คู่ NAME │
│ 2 │ ธง │ ธงระดับบิต │
│ 3 │ RNAME │ ลำดับอ้างอิง NAME │
│ 4 │ POS │ ตำแหน่งซ้ายสุดบนฐาน 1 / พิกัดของลำดับที่ตัด │
│ 5 │ MAPQ │ คุณภาพการทำแผนที่ (Phred-scaled) │
│ 6 │ CIAGR │ สตริงซิการ์แบบขยาย │
│ 7 │ MRNM │ คู่อ้างอิงลำดับ NaMe (`=' ถ้าเหมือนกับ RNAME) │
│ 8 │ MPOS │ ตำแหน่งคู่ตาม 1
│ 9 │ TLEN │ เทมเพลตที่สรุป LENGth (ขนาดแทรก) │
│10 │ SEQ │ แบบสอบถาม SEQuence ในสาระเดียวกันกับข้อมูลอ้างอิง │
│11 │ QUAL │ คุณภาพแบบสอบถาม (ASCII-33 ให้คุณภาพฐาน Phred) │
│12+ │ OPT │ ตัวแปร OPTional ฟิลด์ในรูปแบบ TAG:VTYPE:VALUE │
└─────┴─────────────────────────────────────────────────────────────────────────────────────────────────────── ────────────────────────┘

แต่ละบิตในฟิลด์ FLAG ถูกกำหนดเป็น:

┌────────┬─────────────────────────────────────────── ────────────────┐
ธงChrรายละเอียด
├────────┼─────────────────────────────────────────── ────────────────┤
│0x0001 │ p │ การอ่านจะถูกจับคู่ตามลำดับ │
│0x0002 │ P │ การอ่านถูกจับคู่ในคู่ที่เหมาะสม │
│0x0004 │ u │ ลำดับการสืบค้นเองไม่ได้ถูกแมป │
│0x0008 │ U │ ไม่มีการแมปคู่ครอง │
│0x0010 │ r │ สาระของข้อความค้นหา (1 สำหรับการย้อนกลับ) │
│0x0020 │ R │ เกลียวคู่ │
│0x0040 │ 1 │ การอ่านเป็นการอ่านครั้งแรกในคู่ │
│0x0080 │ 2 │ การอ่านคือการอ่านครั้งที่สองในคู่ │
│0x0100 │ s │ การจัดตำแหน่งไม่ใช่ตำแหน่งหลัก │
│0x0200 │ f │ การอ่านล้มเหลวในการตรวจสอบคุณภาพของแพลตฟอร์ม/ผู้ขาย │
│0x0400 │ d │ การอ่านอาจเป็น PCR หรือสำเนาแบบออปติคัล │
└────────┴─────────────────────────────────────────── ────────────────┘
โดยที่คอลัมน์ที่สองให้การแสดงสตริงของฟิลด์ FLAG

VCF FORMAT


Variant Call Format (VCF) เป็นรูปแบบ TAB-delimited โดยแต่ละสายข้อมูลประกอบด้วย
ฟิลด์ต่อไปนี้:

┌─────┬────────────────────────────────────────────────────────────────────────────────────────────────────────... ────────────────────────────┐
Colสนามรายละเอียด
├─────┼────────────────────────────────────────────────────────────────────────────────────────────────────────... ────────────────────────────┤
│ 1 │ CHROM │ ชื่อโครโมโซม │
│ 2 │ POS │ ตำแหน่งซ้ายสุดของตัวแปร │
│ 3 │ ID │ ตัวระบุตัวแปรที่ไม่ซ้ำกัน │
│ 4 │ REF │ อัลลีลอ้างอิง │
│ 5 │ ALT │ อัลลีลสำรอง คั่นด้วยเครื่องหมายจุลภาค │
│ 6 │ QUAL │ ตัวแปร/ค่าอ้างอิง QUALity │
│ 7 │ ตัวกรอง │ ตัวกรองที่ใช้ │
│ 8 │ INFO │ ข้อมูลที่เกี่ยวข้องกับตัวแปร คั่นด้วยเครื่องหมายอัฒภาค │
│ 9 │ รูปแบบ │ รูปแบบของฟิลด์จีโนไทป์ คั่นด้วยเครื่องหมายทวิภาค (ไม่บังคับ) │
│10+ │ ตัวอย่าง │ ตัวอย่างจีโนไทป์และข้อมูลต่อตัวอย่าง (ไม่บังคับ) │
└─────┴────────────────────────────────────────────────────────────────────────────────────────────────────────... ────────────────────────────┘

ตารางต่อไปนี้ให้ ข้อมูล แท็กที่ใช้โดย samtools และ bcftools

┌────────────────────┬─────────────────────────────── ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────... ─────────────────────┐
แท็กรูปแบบรายละเอียด
├────────────────────┼─────────────────────────────── ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────... ─────────────────────┤
└────────────────────┴─────────────────────────────── ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────... ─────────────────────┘

ตัวอย่าง


o นำเข้า SAM ไปยัง BAM เมื่อ @ตร มีบรรทัดอยู่ในส่วนหัว:

samtools view -bS aln.sam > aln.bam

If @ตร ไม่มีบรรทัด:

samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam

ที่ไหน ref.fa.fai ถูกสร้างขึ้นโดยอัตโนมัติโดย เฟดซ์ คำสั่ง

o แนบ RG แท็กขณะรวมการจัดตำแหน่งที่จัดเรียง:

perl -e 'print
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools ผสาน -rh rg.txt merged.bam ga.bam 454.bam

ค่าใน a RG แท็กถูกกำหนดโดยชื่อไฟล์ที่อ่านมาจาก ในเรื่องนี้
ตัวอย่าง ใน ผสาน.bam, อ่านจาก กา.แบม จะถูกแนบ RG:Z:gaในขณะที่อ่านจาก
454.แบม จะถูกแนบ RG:Z:454.

o เรียก SNP และ INDEL แบบสั้นสำหรับบุคคลเดี่ยว:

samtools mpileup -ugf ref.fa aln.bam | bcftools มุมมอง -bvcg -> var.raw.bcf
bcftools มุมมอง var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

พื้นที่ -D ตัวเลือกของ varFilter ควบคุมความลึกในการอ่านสูงสุด ซึ่งควรปรับเป็น
ประมาณสองเท่าของความลึกในการอ่านเฉลี่ย อาจพิจารณาเพิ่ม -C50 ไปยัง เอ็มไพล์อัพ ถ้าการทำแผนที่
คุณภาพถูกประเมินสูงเกินไปสำหรับการอ่านที่มีเนื้อหาไม่ตรงกันมากเกินไป กำลังใช้ตัวเลือกนี้
มักจะช่วย BWA-สั้น แต่อาจไม่ใช่ผู้ทำแผนที่รายอื่น

o สร้างลำดับฉันทามติสำหรับบุคคลที่ซ้ำซ้อน:

samtools mpileup -uf ref.fa aln.bam | bcftools มุมมอง -cg - | vcfutils.pl vcf2fq >
cns.fq

o เรียกการกลายพันธุ์ของโซมาติกจากตัวอย่างคู่หนึ่ง:

samtools mpileup -DSuf ref.fa aln.bam | bcftools ดู -bvcgT คู่ -> var.bcf

ในฟิลด์ข้อมูลเอาต์พุต CLR ให้อัตราส่วน Phred-log ระหว่างความน่าจะเป็นโดย
ปฏิบัติต่อตัวอย่างทั้งสองอย่างเป็นอิสระต่อกัน และความน่าจะเป็นโดยกำหนดให้จีโนไทป์เป็น
จะเหมือนกัน นี้ CLR เป็นคะแนนที่วัดความมั่นใจของโซมาติกได้อย่างมีประสิทธิภาพ
โทร. ยิ่งสูงยิ่งดี

o Call de novo และการกลายพันธุ์ของโซมาติกจากทั้งสามครอบครัว:

samtools mpileup -DSuf ref.fa aln.bam | bcftools view -bvcgT คู่ -s ตัวอย่าง.txt - >
var.bcf

เนื้อไม่มีมัน ตัวอย่าง.txt ควรประกอบด้วยสามบรรทัดที่ระบุสมาชิกและลำดับของ
ตัวอย่าง (ตามลำดับ ลูก-พ่อ-แม่) ในทำนองเดียวกัน CLR ให้ Phred-log
อัตราส่วนความน่าจะเป็นที่มีและไม่มีข้อจำกัดทั้งสาม CGU มีแนวโน้มมากที่สุด
การกำหนดค่าจีโนไทป์โดยไม่มีข้อจำกัดทั้งสาม และ CGT ให้โอกาสมากที่สุด
การกำหนดค่าจีโนไทป์ที่เป็นไปตามข้อจำกัดทั้งสาม

o ระยะที่หนึ่งบุคคล:

samtools สงบ -AEur aln.bam ref.fa | samtools เฟส -b คำนำหน้า -> phase.out

พื้นที่ ใจเย็น คำสั่งใช้เพื่อลด heterozygotes เท็จรอบ ๆ INDELs

o เรียก SNP และอินเดลสั้นสำหรับบุคคลหลายราย:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools มุมมอง -bcvg -> var.raw.bcf
bcftools มุมมอง var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

บุคคลจะถูกระบุจาก SM แท็กใน @อาร์จี บรรทัดส่วนหัว บุคคลสามารถ
รวมไว้ในไฟล์การจัดตำแหน่งเดียว บุคคลหนึ่งสามารถแยกออกเป็นหลายไฟล์ได้
พื้นที่ -P ตัวเลือกระบุว่าผู้สมัคร indel ควรรวบรวมจากกลุ่มการอ่านเท่านั้น
กับ @RG-PL ตั้งแท็กเป็น อิลลูมินา. รวบรวมผู้สมัคร indel จากการอ่านตามลำดับ
โดยเทคโนโลยีแบบอินเดลอาจส่งผลต่อประสิทธิภาพของการโทรแบบอินเดล

โปรดทราบว่ามีรูปแบบการโทรใหม่ที่สามารถเรียกใช้โดย

bcftools มุมมอง -m0.99 ...

ซึ่งแก้ไขข้อ จำกัด บางอย่างที่รุนแรงของวิธีการเริ่มต้น

สำหรับการกรอง ผลลัพธ์ที่ดีที่สุดดูเหมือนจะทำได้โดยการใช้ . ก่อน SnpGap กรองและ
แล้วนำวิธีการแมชชีนเลิร์นนิงมาประยุกต์ใช้

vcf-คำอธิบายประกอบ -f SnpGap=n
ไส้กรอง vcf ...

ทั้งสองสามารถพบได้ใน vcftools และ htslib แพ็คเกจ (ลิงค์ด้านล่าง)

o สืบหาสเปกตรัมความถี่อัลลีล (AFS) ในรายการไซต์จากบุคคลหลายราย:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools ดู -bl sites.list all.bcf > sites.bcf
bcftools ดู -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools ดู -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools ดู -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

ที่ไหน เว็บไซต์.list มีรายชื่อไซต์ที่มีแต่ละบรรทัดประกอบด้วยการอ้างอิง
ชื่อลำดับและตำแหน่ง ต่อไปนี้ บีซีทูลส์ คำสั่งประมาณ AFS โดย EM

o Dump BAQ ใช้การจัดตำแหน่งสำหรับผู้โทร SNP รายอื่น:

samtools สงบ -bAr aln.bam > aln.baq.bam

มันเพิ่มและแก้ไข NM และ MD แท็กในเวลาเดียวกัน NS ใจเย็น คำสั่งก็มา
กับ -C ตัวเลือกเช่นเดียวกับหนึ่งใน กระเจิดกระเจิง และ เอ็มไพล์อัพ. สมัครถ้ามันช่วยได้

ข้อ จำกัด


o คำที่ไม่อยู่ในแนวเดียวกันที่ใช้ใน bam_import.c, bam_endian.h, bam.c และ bam_aux.c

o Samtools paired-end rmdup ไม่ทำงานสำหรับการอ่านที่ไม่จับคู่ (เช่น เด็กกำพร้าอ่านหรือสิ้นสุด
จับคู่กับโครโมโซมต่างๆ) หากเป็นปัญหา โปรดใช้ Picard's
MarkDuplicate ซึ่งจัดการกรณีเหล่านี้ได้อย่างถูกต้อง แม้ว่าจะช้ากว่าเล็กน้อย

ใช้ bcftools ออนไลน์โดยใช้บริการ onworks.net



โปรแกรมออนไลน์ Linux และ Windows ล่าสุด