Tiếng AnhTiếng PhápTiếng Tây Ban Nha

Ad


Biểu tượng yêu thích OnWorks

bwa - Trực tuyến trên đám mây

Chạy bwa trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks qua Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình giả lập trực tuyến MAC OS

Đây là lệnh bwa có thể được chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS

CHƯƠNG TRÌNH:

TÊN


bwa - Công cụ căn chỉnh Burrows-Wheeler

SYNOPSIS


bwa chỉ số ref.fa

bwa mem ref.fa read.fq> aln-se.sam

bwa mem ref.fa read1.fq read2.fq> aln-pe.sam

bwa aln ref.fa short_read.fq> aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq> aln-se.sam

bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq> aln-pe.sam

bwa bwasw ref.fa long_read.fq> aln.sam

MÔ TẢ


BWA là một gói phần mềm để ánh xạ các chuỗi phân kỳ thấp với một tham chiếu lớn
bộ gen, chẳng hạn như bộ gen người. Nó bao gồm ba thuật toán: BWA-backtrack, BWA-SW
và BWA-MEM. Thuật toán đầu tiên được thiết kế cho trình tự Illumina đọc lên đến 100bp,
trong khi hai phần còn lại cho các chuỗi dài hơn dao động từ 70bp đến 1Mbp. BWA-MEM và BWA-SW chia sẻ
các tính năng tương tự như hỗ trợ đọc lâu và căn chỉnh phân tách, nhưng BWA-MEM, là
mới nhất, thường được đề xuất cho các truy vấn chất lượng cao vì nó nhanh hơn và hơn thế nữa
chính xác. BWA-MEM cũng có hiệu suất tốt hơn BWA-backtrack cho 70-100bp Illumina
đọc.

Đối với tất cả các thuật toán, trước tiên BWA cần xây dựng chỉ số FM cho bộ gen tham chiếu
(Các chỉ số chỉ huy). Các thuật toán căn chỉnh được gọi với các lệnh con khác nhau:
tất cả/giống nhau/mẫu cho BWA-backtrack, tuyệt vời cho BWA-SW và mem cho thuật toán BWA-MEM.

HÀNG LỰA CHỌN


chỉ số BWA chỉ số [-p tiếp đầu ngữ] [-a loại thuật toán] db.fa

Lập chỉ mục các chuỗi cơ sở dữ liệu ở định dạng FASTA.

TÙY CHỌN:

-p STR Tiền tố của cơ sở dữ liệu đầu ra [giống như tên tệp db]

-a STR Thuật toán xây dựng chỉ số BWT. BWA triển khai hai thuật toán cho
Xây dựng BWT: isbtsw. Thuật toán đầu tiên nhanh hơn một chút
cho cơ sở dữ liệu nhỏ nhưng yêu cầu RAM lớn và không hoạt động cho cơ sở dữ liệu
với tổng chiều dài hơn 2GB. Thuật toán thứ hai được điều chỉnh từ
mã nguồn BWT-SW. Về lý thuyết, nó hoạt động với cơ sở dữ liệu với hàng nghìn tỷ
của bazơ. Khi tùy chọn này không được chỉ định, thuật toán thích hợp
sẽ được chọn tự động.

mem BWA mem [-aCHjMpP] [-t nChủ đề] [-k minSeedLen] [-w ban nhạcWidth] [-d zTrả xe] [-r
Tỷ lệ chia hạt giống] [-c maxOcc] [-D chuỗibóng] [-m maxMateSW] [-W minSeedMatch] [-A
trận đấu] [-B mmHình phạt] [-O khoảng trốngMởBút] [-E khoảng cáchExtPen] [-L kẹpBút] [-U
hủy ghép nối] [-R dòng RG] [-H Đường truyền HD] [-v mức độ dài dòng] db.prefix read.fq [bạn tình.fq]

Căn chỉnh chuỗi truy vấn 70bp-1Mbp với thuật toán BWA-MEM. Tóm lại, thuật toán
hoạt động bằng cách sắp xếp căn chỉnh với các đối sánh chính xác tối đa (MEM) và sau đó mở rộng
hạt giống với thuật toán Smith-Waterman affine-gap (SW).

If bạn tình.fq tệp không có và tùy chọn -p chưa được đặt, lệnh này liên quan đến đầu vào
đọc là một đầu. Nếu như bạn tình.fq hiện tại, lệnh này giả định i-th đã đọc trong
read.fqi-th đã đọc trong bạn tình.fq tạo thành một cặp đọc. Nếu như -p Được sử dụng,
lệnh giả sử 2i-th và (2i+1) -th được đọc trong read.fq tạo thành một cặp đọc
(tập tin đầu vào như vậy được cho là xen kẽ). Trong trường hợp này, bạn tình.fq bị bỏ qua. Trong
chế độ kết thúc được ghép nối, mem lệnh sẽ suy ra hướng đọc và chèn
phân phối kích thước từ một loạt các lần đọc.

Thuật toán BWA-MEM thực hiện căn chỉnh cục bộ. Nó có thể tạo ra nhiều
căn chỉnh cho phần khác nhau của chuỗi truy vấn. Đây là một tính năng quan trọng đối với
chuỗi dài. Tuy nhiên, một số công cụ như markDuplicates của Picard không hoạt động
với sự liên kết tách rời. Người ta có thể cân nhắc để sử dụng tùy chọn -M để gắn cờ các lần truy cập phân tách ngắn hơn
là thứ yếu.

TIẾNG VIỆT TÙY CHỌN:

-t INT Số lượng chủ đề [1]

-k INT Chiều dài hạt tối thiểu. Đối sánh ngắn hơn INT sẽ bị bỏ lỡ. Các
tốc độ căn chỉnh thường không nhạy cảm với giá trị này trừ khi nó
lệch đáng kể so với 20. [19]

-w INT Chiều rộng băng tần. Về cơ bản, khoảng trống dài hơn INT sẽ không được tìm thấy. Ghi chú
rằng độ dài khoảng cách tối đa cũng bị ảnh hưởng bởi ma trận cho điểm và
độ dài lần truy cập, không chỉ được xác định bởi tùy chọn này. [100]

-d INT Giọt chữ X ra ngoài đường chéo (Z-droppoff). Dừng gia hạn khi chênh lệch
giữa điểm tốt nhất và điểm mở rộng hiện tại là trên |i-j|*A+INT,
Ở đâu ij là các vị trí hiện tại của truy vấn và tham chiếu,
tương ứng, và A là điểm phù hợp. Z-dropoff tương tự như
X-drop của BLAST ngoại trừ việc nó không phạt những khoảng trống ở một trong các
trình tự trong căn chỉnh. Z-dropoff không chỉ tránh không cần thiết
mở rộng, nhưng cũng làm giảm căn chỉnh kém bên trong một liên kết tốt dài.
[100]

-r PHAO NỔI Kích hoạt gieo hạt lại cho một MEM lâu hơn minSeedLen*PHAO NỔI. Đây là một chìa khóa
tham số heuristic để điều chỉnh hiệu suất. Giá trị lớn hơn mang lại ít hơn
hạt giống, dẫn đến tốc độ căn chỉnh nhanh hơn nhưng độ chính xác thấp hơn. [1.5]

-c INT Bỏ một MEM nếu nó có nhiều hơn INT sự xuất hiện trong bộ gen. Đây là
tham số vô cảm. [500]

-D INT Thả chuỗi ngắn hơn PHAO NỔI phần nhỏ của chuỗi chồng chéo dài nhất
[0.5]

-m INT Thực hiện nhiều nhất INT vòng mate-SW [50]

-W INT Thả một chuỗi nếu số lượng bazơ trong hạt nhỏ hơn INT. Điều này
tùy chọn chủ yếu được sử dụng cho các nội dung / lần đọc dài hơn. Khi tích cực, nó cũng
ảnh hưởng đến quá trình lọc hạt. [0]

-P Trong chế độ kết thúc ghép nối, thực hiện SW chỉ để giải cứu các lần truy cập bị thiếu nhưng không
cố gắng tìm các lượt truy cập phù hợp với một cặp thích hợp.

KIẾM TÙY CHỌN:

-A INT Điểm phù hợp. [1]

-B INT Hình phạt không phù hợp. Tỷ lệ lỗi trình tự xấp xỉ: {.75 *
NS[-đăng nhập(4) * B / A]}. [4]

-O INT [, INT]
Khoảng trống hình phạt mở. Nếu hai số được chỉ định, đầu tiên là hình phạt
mở phần xóa và lần thứ hai để mở phần chèn. [6]

-E INT [, INT]
Gap hình phạt gia hạn. Nếu hai số được chỉ định, số đầu tiên là
hình phạt của việc kéo dài một lần xóa và thứ hai cho việc kéo dài một phần chèn. MỘT
khoảng cách độ dài k chi phí O + k * E (tức là -O là để mở độ dài bằng XNUMX
khoảng cach). [1]

-L INT [, INT]
Cắt hình phạt. Khi thực hiện tiện ích mở rộng SW, BWA-MEM theo dõi
điểm tốt nhất khi kết thúc truy vấn. Nếu điểm này lớn hơn
điểm SW tốt nhất trừ đi hình phạt cắt, cắt sẽ không
đã áp dụng. Lưu ý rằng trong trường hợp này, thẻ SAM AS báo cáo SW tốt nhất
ghi bàn; cắt bớt hình phạt không được suy luận. Nếu hai số được cung cấp,
đầu tiên là cắt 5'-end và thứ hai là cắt 3'-end. [5]

-U INT Hình phạt cho một cặp đọc không được ghép nối. BWA-MEM cho điểm một cặp đọc chưa được ghép nối
dưới dạng điểmĐọc1 + điểmĐọc2-INT và ghi bàn được ghép nối thành
scoreRead1 + scoreRead2-insertPenalty. Nó so sánh hai điểm số này với
xác định xem chúng ta có nên bắt buộc ghép nối hay không. Giá trị lớn hơn dẫn đến nhiều
đọc tích cực cặp. [17]

ĐẦU RA ĐẦU VÀO TÙY CHỌN:

-p Ghép nối thông minh. Nếu hai lần đọc liền kề có cùng tên, chúng
được coi là tạo thành một cặp đọc. Bằng cách này, các lần đọc một đầu và một đầu được ghép nối
có thể được trộn trong một luồng FASTA / Q duy nhất.

-R STR Hoàn thành dòng tiêu đề nhóm đã đọc. '\ t' có thể được sử dụng trong STR và sẽ
được chuyển đổi thành TAB trong SAM đầu ra. ID nhóm đã đọc sẽ được đính kèm
cho mỗi lần đọc trong đầu ra. Một ví dụ là '@RG \ tID: foo \ tSM: bar'. [vô giá trị]

-H ARG Nếu ARG bắt đầu bằng @, nó được hiểu là một chuỗi và được chèn
vào tiêu đề SAM đầu ra; nếu không, ARG được hiểu là một tệp có
tất cả các dòng bắt đầu bằng @ trong tệp được chèn vào tiêu đề SAM.
[vô giá trị]

-T INT Không căn chỉnh đầu ra với điểm thấp hơn INT. Tùy chọn này ảnh hưởng đến
đầu ra và đôi khi cờ SAM 2. [30]

-j Coi các contigs ALT là một phần của assembly chính (tức là bỏ qua
db.prefix.alt nộp).

-h INT [, INT2]
Nếu một truy vấn không có nhiều hơn INT lượt truy cập có điểm cao hơn 80%
tốt nhất, xuất tất cả chúng trong thẻ XA. Nếu như INT2 được chỉ định, BWA-MEM
đầu ra lên đến INT2 lần truy cập nếu danh sách chứa lần truy cập đến một liên kết ALT.
[5,200]

-a Xuất ra tất cả các căn chỉnh được tìm thấy cho các lần đọc một đầu hoặc một đầu không được ghép nối.
Những căn chỉnh này sẽ được gắn cờ là những căn chỉnh phụ.

-C Nối thêm bình luận FASTA / Q vào đầu ra SAM. Tùy chọn này có thể được sử dụng để
chuyển thông tin meta đã đọc (ví dụ: mã vạch) đến đầu ra SAM. Ghi chú
rằng nhận xét FASTA / Q (chuỗi sau dấu cách trong dòng tiêu đề)
phải phù hợp với thông số SAM (ví dụ: BC: Z: CGTAC). Nhận xét không đúng định dạng dẫn đến
đầu ra SAM không chính xác.

-Y Sử dụng thao tác CIGAR cắt mềm để căn chỉnh bổ sung. Qua
mặc định, BWA-MEM sử dụng cắt mềm cho căn chỉnh chính và cứng
cắt xén cho các liên kết bổ sung.

-M Đánh dấu các lần truy cập tách ngắn hơn là thứ yếu (để tương thích với Picard).

-v INT Kiểm soát mức độ dài dòng của đầu ra. Tùy chọn này chưa được hoàn thành
được hỗ trợ trong suốt BWA. Lý tưởng nhất là giá trị 0 để tắt tất cả đầu ra
sang stderr; 1 chỉ dành cho lỗi đầu ra; 2 đối với các cảnh báo và lỗi; 3 cho
tất cả các tin nhắn bình thường; 4 hoặc cao hơn để gỡ lỗi. Khi tùy chọn này có
giá trị 4, đầu ra không phải là SAM. [3]

-I FLOAT [, FLOAT [, INT [, INT]]]
Chỉ định giá trị trung bình, độ lệch chuẩn (10% giá trị trung bình nếu không có), tối đa (4
sigma từ giá trị trung bình nếu không có) và min (4 sigma nếu không có) của phần chèn
phân bố kích thước. Chỉ áp dụng cho hướng FR. Theo mặc định,
BWA-MEM suy ra những con số này và các định hướng cặp được cung cấp đủ
đọc. [suy ra]

tất cả bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-l SeedLen] [-t nThrds] [-cRN] [-M misMsc] [-O GapOsc] [-E GapEsc]
[-q trimQual] >

Tìm tọa độ SA của các lần đọc đầu vào. Tối đa maxSeedDiff sự khác biệt là
được phép đầu tiên hạt giốngLen thứ tự và tối đa maxDiff sự khác biệt là
được phép trong toàn bộ chuỗi.

TÙY CHỌN:

-n NUM Khoảng cách chỉnh sửa tối đa nếu giá trị là INT hoặc phần bị thiếu
căn chỉnh cho tỷ lệ lỗi cơ bản đồng nhất 2% nếu FLOAT. Trong trường hợp thứ hai,
khoảng cách chỉnh sửa tối đa được tự động chọn cho các lần đọc khác nhau
độ dài. [0.04]

-o INT Số lượng khe hở tối đa mở ra [1]

-e INT Số phần mở rộng khoảng cách tối đa, -1 cho chế độ k-chênh lệch (không cho phép
khoảng cách dài) [-1]

-d INT Không cho phép xóa quá lâu trong INT bp về phía 3'-end [16]

-i INT Không cho phép indel trong INT bp về cuối [5]

-l INT Lấy dãy con INT đầu tiên làm hạt giống. Nếu INT lớn hơn truy vấn
trình tự, gieo hạt sẽ bị vô hiệu hóa. Đối với các bài đọc dài, tùy chọn này là
thường dao động từ 25 đến 35 cho `-k 2 '. [inf]

-k INT Khoảng cách chỉnh sửa tối đa trong hạt giống [2]

-t INT Số luồng (chế độ đa luồng) [1]

-M INT Hình phạt không phù hợp. BWA sẽ không tìm kiếm các lượt truy cập không tối ưu với điểm số
thấp hơn (bestScore-misMsc). [3]

-O INT Khoảng trống phạt đền [11]

-E INT Hình phạt gia hạn khoảng trống [4]

-R INT Tiến hành căn chỉnh dưới mức tối ưu nếu không có nhiều hơn INT bằng nhau
những bản nhạc hay nhất. Tùy chọn này chỉ ảnh hưởng đến ánh xạ đầu cuối được ghép nối. Tăng điều này
ngưỡng giúp cải thiện độ chính xác của việc ghép nối với chi phí là tốc độ,
đặc biệt là đối với các bài đọc ngắn (~ 32bp).

-c Truy vấn ngược nhưng không bổ sung cho nó, điều này cần thiết để căn chỉnh trong
không gian màu. (Đã tắt kể từ 0.6.x)

-N Tắt tìm kiếm lặp đi lặp lại. Tất cả các lần truy cập không quá maxDiff sự khác biệt
sẽ được tìm thấy. Chế độ này chậm hơn nhiều so với mặc định.

-q INT Tham số để đọc cắt tỉa. BWA cắt bớt một phần đọc xuống
argmax_x {\ sum_ {i = x + 1} ^ l (INT-q_i)} nếu q_l
chiều dài. [0]

-I Đầu vào ở định dạng đọc Illumina 1.3+ (chất lượng bằng ASCII-64).

-B INT Chiều dài của mã vạch bắt đầu từ đầu 5 '. Khi nào INT là tích cực,
mã vạch của mỗi lần đọc sẽ được cắt bớt trước khi ánh xạ và sẽ được ghi
tại BC Thẻ SAM. Đối với các lần đọc đầu cuối được ghép nối, mã vạch từ cả hai đầu là
nối. [0]

-b Chỉ định tệp trình tự đọc đầu vào là định dạng BAM. Đối với kết thúc ghép nối
dữ liệu, hai đầu trong một cặp phải được nhóm lại với nhau và các tùy chọn -1 or -2
thường được áp dụng để chỉ định phần cuối nào nên được ánh xạ. Đặc trưng
các dòng lệnh để ánh xạ dữ liệu kết thúc cặp ở định dạng BAM là:

bwa aln ref.fa -b1 read.bam> 1.sai
bwa aln ref.fa -b2 read.bam> 2.sai
bwa sampe ref.fa 1.sai 2.sai read.bam reading.bam> aln.sam

-0 Thời Gian -b được chỉ định, chỉ sử dụng các lần đọc một đầu trong ánh xạ.

-1 Thời Gian -b được chỉ định, chỉ sử dụng lần đọc đầu tiên trong một cặp đọc trong ánh xạ
(bỏ qua lần đọc một đầu và lần đọc thứ hai).

-2 Thời Gian -b được chỉ định, chỉ sử dụng lần đọc thứ hai trong một cặp đọc trong ánh xạ.

giống nhau bwa samse [-n maxOcc] >

Tạo căn chỉnh ở định dạng SAM cho phép đọc một đầu. Số lần truy cập lặp đi lặp lại sẽ
được chọn ngẫu nhiên.

TÙY CHỌN:

-n INT Số lượng căn chỉnh tối đa để xuất ra trong thẻ XA cho các lần đọc được ghép nối
đúng. Nếu một lần đọc có nhiều hơn lần truy cập INT, thẻ XA sẽ không
bằng văn bản. [3]

-r STR Chỉ định nhóm đã đọc ở định dạng như `@RG \ tID: foo \ tSM: bar '. [vô giá trị]

mẫu bwa sampe [-a maxInsSize] [-o maxOcc] [-n maxHitPairs] [-N maxHitDis] [-P]
>

Tạo căn chỉnh ở định dạng SAM cho các lần đọc đầu cuối được ghép nối. Các cặp đọc lặp đi lặp lại
sẽ được đặt ngẫu nhiên.

TÙY CHỌN:

-a INT Kích thước chèn tối đa cho một cặp đọc được coi là được ánh xạ đúng cách.
Kể từ 0.4.5, tùy chọn này chỉ được sử dụng khi không có đủ tốt
căn chỉnh để suy ra sự phân bố của các kích thước chèn. [500]

-o INT Số lần đọc tối đa để ghép nối. Một bài đọc với nhiều lần xuất hiện hơn
sẽ được coi là một lần đọc một đầu. Giảm thông số này giúp nhanh hơn
ghép nối. [100000]

-P Tải toàn bộ chỉ số FM vào bộ nhớ để giảm hoạt động của đĩa (không gian cơ sở
chỉ đọc). Với tùy chọn này, yêu cầu ít nhất 1.25N byte bộ nhớ,
với N là chiều dài của bộ gen.

-n INT Số lượng căn chỉnh tối đa để xuất ra trong thẻ XA cho các lần đọc được ghép nối
đúng. Nếu một lần đọc có nhiều hơn lần truy cập INT, thẻ XA sẽ không được ghi.
[3]

-N INT Số lượng căn chỉnh tối đa để xuất trong thẻ XA để đọc không phù hợp
cặp (không bao gồm singleleton). Nếu một lần đọc có nhiều hơn lần truy cập INT, thẻ XA
sẽ không được viết. [10]

-r STR Chỉ định nhóm đã đọc ở định dạng như `@RG \ tID: foo \ tSM: bar '. [vô giá trị]

tuyệt vời bwa bwasw [-a matchScore] [-b mmPen] [-q GapOpenPen] [-r GapExtPen] [-t nThreads]
[-w bandWidth] [-T thres] [-s hspIntv] [-z zBest] [-N nHspRev] [-c thresCoef]
[mate.fq]

Căn chỉnh các chuỗi truy vấn trong trong.fq tập tin. Khi nào bạn đời.fq có mặt, thực hiện được ghép nối-
căn chỉnh cuối. Chế độ kết thúc ghép nối chỉ hoạt động đối với các lần đọc chèn ngắn Illumina
các thư viện. Trong chế độ kết thúc ghép nối, BWA-SW vẫn có thể xuất ra các căn chỉnh phân chia nhưng
tất cả chúng đều được đánh dấu là không được ghép nối đúng cách; vị trí người bạn đời sẽ không được viết
nếu người bạn đời có nhiều lượt truy cập cục bộ.

TÙY CHỌN:

-a INT Điểm của một trận đấu [1]

-b INT Hình phạt không phù hợp [3]

-q INT Khoảng trống phạt đền [5]

-r INT Gap hình phạt gia hạn. Hình phạt đối với khe hở tiếp giáp có kích thước k là
q + k * r. [2]

-t INT Số luồng trong chế độ đa luồng [1]

-w INT Chiều rộng dải trong căn chỉnh theo dải [33]

-T INT Ngưỡng điểm tối thiểu chia cho [37]

-c PHAO NỔI Hệ số điều chỉnh ngưỡng theo độ dài truy vấn. Đưa ra một
truy vấn dài, ngưỡng cho một lần truy cập được giữ lại là
a * max {T, c * log (l)}. [5.5]

-z INT Z-tốt nhất heuristics. -Z cao hơn làm tăng độ chính xác với chi phí của tốc độ. [1]

-s INT Kích thước khoảng SA tối đa để bắt đầu một hạt giống. Tăng -s cao hơn
độ chính xác với chi phí của tốc độ. [3]

-N INT Số lượng hạt tối thiểu hỗ trợ việc căn chỉnh kết quả để bỏ qua
căn chỉnh ngược. [5]

SAM NHIỆM VỤ FORMAT


Đầu ra của `aln ' lệnh là nhị phân và được thiết kế chỉ để sử dụng BWA. BWA xuất ra
căn chỉnh cuối cùng ở định dạng SAM (Căn chỉnh trình tự / Bản đồ). Mỗi dòng bao gồm:

┌────┬────────┬────────────────────────────────────── ────────────────────────┐
cổ áoPhầnMô tả
├────┼────────┼────────────────────────────────────── ────────────────────────┤
│ 1 │ QNAME │ Truy vấn (cặp) TÊN │
│ 2 │ CỜ │ CỜ theo chiều dọc │
│ 3 │ RNAME │ Chuỗi tham chiếu TÊN │
│ 4 │ POS │ Vị trí / tọa độ ngoài cùng bên trái dựa trên 1 của chuỗi bị cắt │
│ 5 │ MAPQ │ Chất lượng MAPping (theo tỷ lệ) │
│ 6 │ CIAGR │ chuỗi CIGAR mở rộng │
│ 7 │ MRNM │ Mate Chuỗi tham chiếu NaMe (`= 'nếu giống RNAME) │
│ 8 │ MPOS │ Mate POSistion dựa trên 1 │
│ 9 │ ISIZE │ KÍCH THƯỚC chèn suy ra │
│10 │ SEQ │ truy vấn SEQuence trên cùng một sợi với tham chiếu │
│11 │ QUAL │ truy vấn QUALity (ASCII-33 cung cấp chất lượng cơ sở Phred) │
Các trường tùy chọn │12 │ OPT │ có định dạng TAG: VTYPE: VALUE │
└────┴────────┴────────────────────────────────────── ────────────────────────┘

Mỗi bit trong trường CỜ được định nghĩa là:

┌────┬─────────┬───────────────────────────────────── ────┐
BCFlagMô tả
├────┼─────────┼───────────────────────────────────── ────┤
│ p │ 0x0001 │ số đọc được ghép nối theo trình tự │
│ P │ 0x0002 │ số đọc được ánh xạ trong một cặp thích hợp │
│ u │ 0x0004 │ bản thân chuỗi truy vấn không được ánh xạ │
│ U │ 0x0008 │ người bạn đời không có ánh xạ │
│ r │ 0x0010 │ chuỗi của truy vấn (1 cho ngược lại) │
│ R │ 0x0020 │ sợi của người bạn đời │
│ 1 │ 0x0040 │ lần đọc là lần đọc đầu tiên trong một cặp │
│ 2 │ 0x0080 │ lần đọc là lần đọc thứ hai trong một cặp │
│ s │ 0x0100 │ căn chỉnh không phải là chính │
│ f │ 0x0200 │ QC lỗi │
Bản sao │ d │ 0x0400 │ quang học hoặc PCR │
│ S │ 0x0800 │ căn chỉnh bổ sung │
└────┴─────────┴───────────────────────────────────── ────┘

Vui lòng kiểm trahttp://samtools.sourceforge.net> cho đặc điểm kỹ thuật định dạng và
các công cụ để xử lý sau khi căn chỉnh.

BWA tạo các trường tùy chọn sau. Các thẻ bắt đầu bằng `X 'là dành riêng cho BWA.

┌────┬───────────────────────────────────────── ──────┐
NhãnÝ nghĩa
├────┼───────────────────────────────────────── ──────┤
NM │ Chỉnh sửa khoảng cách │
MD │ Vị trí / căn cứ không khớp │
AS │ Điểm căn chỉnh │
BC │ Chuỗi mã vạch │
SA │ Căn chỉnh bổ sung │
├────┼───────────────────────────────────────── ──────┤
X0 │ Số lượng bài hát hay nhất │
X1 │ Số lần truy cập dưới mức tối ưu được tìm thấy bởi BWA │
XN │ Số lượng cơ sở không rõ ràng trong tham chiếu │
XM │ Số lượng không khớp trong căn chỉnh │
XO │ Số lượng khe hở │
XG │ Số lượng khoảng cách mở rộng │
XT │ Loại: Duy nhất / Lặp lại / N / Mate-sw │
XA │ Lượt truy cập thay thế; định dạng: / (chr, pos, CIGAR, NM;) * / │
├────┼───────────────────────────────────────── ──────┤
XS │ Điểm căn chỉnh dưới mức tối ưu │
XF │ Hỗ trợ từ căn chỉnh tiến / lùi │
XE │ Số lượng hạt giống hỗ trợ │
└────┴───────────────────────────────────────── ──────┘

Lưu ý rằng XO và XG được tạo bởi tìm kiếm BWT trong khi chuỗi CIGAR bởi Smith-Waterman
sự liên kết. Hai thẻ này có thể không nhất quán với chuỗi CIGAR. Đây không phải là một lỗi.

GHI CHÚ ON RÚT GỌN-ĐỌC NHIỆM VỤ


Alignment tính chính xác
Khi quá trình gieo hạt bị tắt, BWA đảm bảo sẽ tìm thấy sự liên kết chứa tối đa maxDiff
sự khác biệt bao gồm maxGapO khoảng trống mở ra mà không xảy ra bên trong nIndelEnd bp đối với
một trong hai phần cuối của truy vấn. Khoảng trống dài hơn có thể được tìm thấy nếu maxGapE là tích cực, nhưng nó không phải
đảm bảo tìm thấy tất cả các lần truy cập. Khi kích hoạt gieo hạt, BWA yêu cầu thêm rằng
hạt giốngLen dãy con chứa không nhiều hơn maxSeedDiff sự khác biệt

Khi căn chỉnh có ga bị vô hiệu hóa, BWA dự kiến ​​sẽ tạo ra căn chỉnh giống như Eland
phiên bản 1, chương trình căn chỉnh Illumina. Tuy nhiên, khi BWA thay đổi `N 'trong cơ sở dữ liệu
trình tự đến các nucleotide ngẫu nhiên, các lần truy cập vào các trình tự ngẫu nhiên này cũng sẽ được tính. Như một
do đó, BWA có thể đánh dấu một lần truy cập duy nhất là một lần lặp lại, nếu các chuỗi ngẫu nhiên xảy ra
giống với các trình tự sẽ không có trong cơ sở dữ liệu.

Theo mặc định, nếu lần truy cập tốt nhất không có tính lặp lại cao (được kiểm soát bởi -R), BWA cũng tìm thấy
tất cả các lần truy cập chứa thêm một lần truy cập không khớp nữa; nếu không, BWA chỉ tìm thấy tất cả các lần truy cập tốt nhất như nhau. Cơ sở
chất lượng KHÔNG được xem xét khi đánh giá lượt truy cập. Trong chế độ kết thúc ghép nối, BWA ghép nối tất cả các lần truy cập
tìm thấy rồi. Nó tiếp tục thực hiện căn chỉnh Smith-Waterman cho các lần đọc chưa được ánh xạ để giải cứu các lần đọc
với tỷ lệ sai sót cao và cho các cặp dị thường chất lượng cao để khắc phục sự liên kết tiềm năng
lỗi.

Ước tính Chèn Kích thước máy phân phát
BWA ước tính phân phối kích thước chèn trên mỗi cặp đọc 256 * 1024. Nó lần đầu tiên thu thập
các cặp lần đọc có cả hai đầu được ánh xạ với chất lượng một đầu 20 trở lên và sau đó
tính toán trung vị (Q2), phần tư thấp hơn và cao hơn (Q1 và Q3). Nó ước tính giá trị trung bình và
phương sai của phân bố kích thước chèn từ các cặp có kích thước chèn nằm trong
khoảng thời gian [Q1-2 (Q3-Q1), Q3 + 2 (Q3-Q1)]. Khoảng cách tối đa x cho một cặp được coi là
được ghép nối đúng cách (cờ SAM 0x2) được tính bằng cách giải phương trình Phi ((x-mu) / sigma) = x / L * p0,
trong đó mu là giá trị trung bình, sigma là sai số chuẩn của phân bố kích thước chèn, L là
chiều dài của bộ gen, p0 là trước của cặp dị thường và Phi () là tiêu chuẩn
chức năng phân phối tích lũy. Để lập bản đồ, các lần đọc chèn ngắn Illumina cho con người
genome, x cách giá trị trung bình khoảng 6-7 sigma. Phần tư, giá trị trung bình, phương sai và x sẽ là
được in ra đầu ra lỗi tiêu chuẩn.

Bộ nhớ Yêu cầu
Với thuật toán bwtsw, cần có bộ nhớ 5GB để lập chỉ mục bộ gen người hoàn chỉnh
trình tự. Đối với các bài đọc ngắn, tất cả lệnh sử dụng bộ nhớ ~ 3.2GB và mẫu lệnh sử dụng
~ 5.4 GB.

Tốc độ
Việc lập chỉ mục trình tự bộ gen người mất 3 giờ với thuật toán bwtsw. Lập chỉ mục nhỏ hơn
bộ gen với thuật toán IS nhanh hơn, nhưng yêu cầu nhiều bộ nhớ hơn.

Tốc độ căn chỉnh phần lớn được xác định bởi tỷ lệ lỗi của chuỗi truy vấn (r).
Thứ nhất, BWA chạy nhanh hơn nhiều đối với các lượt truy cập gần hoàn hảo so với các lượt truy cập có nhiều điểm khác biệt,
và nó ngừng tìm kiếm một lần truy cập có l + 2 chênh lệch nếu một lần truy cập chênh lệch l được tìm thấy. Cái này
có nghĩa là BWA sẽ rất chậm nếu r cao vì trong trường hợp này BWA phải truy cập các lần truy cập với
nhiều điểm khác biệt và việc tìm kiếm những lần truy cập này rất tốn kém. Thứ hai, sự liên kết
thuật toán đằng sau làm cho tốc độ nhạy cảm với [k log (N) / m], trong đó k là giá trị lớn nhất cho phép
sự khác biệt, N là kích thước của cơ sở dữ liệu và m chiều dài của một truy vấn. Trong thực tế, chúng tôi chọn k
wrt r và do đó r là yếu tố hàng đầu. Tôi không khuyên bạn nên sử dụng BWA trên dữ liệu
với r> 0.02.

Ghép nối chậm hơn đối với các lần đọc ngắn hơn. Điều này chủ yếu là do các bài đọc ngắn hơn có nhiều
các lần truy cập giả và chuyển đổi tọa độ SA sang tọa độ nhiễm sắc thể là rất tốn kém.

THAY ĐỔI IN BWA-0.6


Kể từ phiên bản 0.6, BWA đã có thể hoạt động với bộ gen tham chiếu dài hơn 4GB.
Tính năng này giúp nó có thể tích hợp bộ gen bổ sung thuận và nghịch trong
một chỉ số FM, giúp tăng tốc cả BWA-short và BWA-SW. Như một sự cân bằng, BWA sử dụng nhiều hơn
bộ nhớ vì nó phải giữ tất cả các vị trí và xếp hạng ở dạng số nguyên 64 bit, lớn hơn gấp đôi
hơn số nguyên 32 bit được sử dụng trong các phiên bản trước.

BWA-SW mới nhất cũng hoạt động cho các lần đọc đầu cuối được ghép nối dài hơn 100bp. So với BWA-
ngắn gọn, BWA-SW có xu hướng chính xác hơn cho các lần đọc rất độc đáo và mạnh mẽ hơn để
INDEL tương đối dài và các biến thể cấu trúc. Tuy nhiên, BWA-short thường có
sức mạnh để phân biệt lần truy cập tối ưu với nhiều lần truy cập dưới mức tối ưu. Sự lựa chọn của ánh xạ
thuật toán có thể phụ thuộc vào ứng dụng.

Sử dụng bwa trực tuyến bằng các dịch vụ onworks.net


Máy chủ & Máy trạm miễn phí

Tải xuống ứng dụng Windows & Linux

Lệnh Linux

Ad