영어프랑스어스페인어

Ad


온웍스 파비콘

bwa - 클라우드에서의 온라인

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 공급자에서 bwa 실행

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 bwa 명령입니다.

프로그램:

이름


bwa - Burrows-Wheeler 정렬 도구

개요


bwa 인덱스 ref.fa

bwa mem ref.fa reads.fq > aln-se.sam

bwa mem ref.fa read1.fq read2.fq > aln-pe.sam

bwa aln ref.fa short_read.fq > aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam

bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

bwa bwasw ref.fa long_read.fq > aln.sam

기술


BWA는 대규모 참조에 대해 발산이 적은 시퀀스를 매핑하기 위한 소프트웨어 패키지입니다.
인간 게놈과 같은 게놈. BWA-역추적, BWA-SW의 세 가지 알고리즘으로 구성됩니다.
및 BWA-MEM. 첫 번째 알고리즘은 최대 100bp의 Illumina 시퀀스 판독을 위해 설계되었으며,
더 긴 시퀀스의 나머지 두 개는 70bp에서 1Mbp 범위였습니다. BWA-MEM 및 BWA-SW 공유
긴 읽기 지원 및 분할 정렬과 같은 유사한 기능이지만 BWA-MEM은
최신, 일반적으로 더 빠르고 더 많은 고품질 쿼리에 권장됩니다.
정확한. BWA-MEM은 또한 70-100bp Illumina용 BWA-backtrack보다 우수한 성능을 제공합니다.
읽습니다.

모든 알고리즘에 대해 BWA는 먼저 참조 게놈에 대한 FM 인덱스를 구성해야 합니다.
( 색인 명령). 정렬 알고리즘은 다른 하위 명령으로 호출됩니다.
ALN/삼세/Sampe BWA 역추적의 경우, 으악 BWA-SW 및 (MEM) BWA-MEM 알고리즘의 경우.

명령 옵션


색인 Bwa 색인 [-p 접두사] [-a 알고리즘 유형] db.fa

FASTA 형식의 인덱스 데이터베이스 시퀀스.

옵션:

-p STR 출력 데이터베이스의 접두사 [db 파일 이름과 동일]

-a STR BWT 지수 구성 알고리즘. BWA는 두 가지 알고리즘을 구현합니다.
BWT 건설: isㅋㅋㅋ. 첫 번째 알고리즘은 조금 더 빠릅니다.
작은 데이터베이스용이지만 큰 RAM이 필요하고 데이터베이스용으로는 작동하지 않음
총 길이가 2GB보다 긴 경우. 두 번째 알고리즘은
BWT-SW 소스 코드. 이론상으로는 수조 달러의 데이터베이스와 함께 작동합니다.
기지의. 이 옵션을 지정하지 않으면 적절한 알고리즘이
자동으로 선택됩니다.

(MEM) Bwa (MEM) [-aCHjMpP] [-t nThread] [-k minSeedLen] [-w 대역폭] [-d z하차] [-r
시드분할비율] [-c 최대Occ] [-D 체인섀도우] [-m maxMateSW] [-W minSeedMatch] [-A
매치스코어] [-B mm페널티] [-O 갭오픈펜] [-E gapExtPen] [-L 클립펜] [-U
페어링 해제] [-R RG라인] [-H HD라인] [-v 장황한 수준] db.접두사 reads.fq [mates.fq]

70bp-1Mbp 쿼리 시퀀스를 BWA-MEM 알고리즘과 정렬합니다. 간단히 말해서, 알고리즘
MEM(Maximal Exact Match)으로 정렬을 시드한 다음 확장하여 작동합니다.
affine-gap Smith-Waterman 알고리즘(SW)을 사용한 시드.

If mates.fq 파일이 없고 옵션 -p 설정되지 않은 경우 이 명령은 입력을 고려합니다.
읽기는 단일 끝입니다. 만약에 mates.fq 이 명령은 다음을 가정합니다. i-번째 읽기
reads.fq 그리고 i-번째 읽기 mates.fq 읽기 쌍을 구성합니다. 만약에 -p 이 사용되면
명령은 2i-th 및 (2i+1) 번째 읽기 reads.fq 읽기 쌍을 구성
(이러한 입력 파일은 인터리빙되었다고 합니다). 이 경우, mates.fq 무시됩니다. ~ 안에
페어드 엔드 모드, (MEM) 명령은 읽기 방향과 삽입을 유추합니다.
읽기 배치의 크기 분포.

BWA-MEM 알고리즘은 로컬 정렬을 수행합니다. 여러 기본을 생성할 수 있습니다.
쿼리 시퀀스의 다른 부분에 대한 정렬. 이것은 다음을 위한 중요한 기능입니다.
긴 시퀀스. 그러나 Picard의 markDuplicates와 같은 일부 도구는 작동하지 않습니다.
분할 정렬 포함. 옵션 사용을 고려할 수 있습니다. -M 더 짧은 스플릿 히트 플래그 지정
보조로.

연산 옵션:

-t INT 스레드 수 [1]

-k INT 최소 시드 길이. 다음보다 짧은 일치 INT 놓칠 것입니다. 그만큼
정렬 속도는 일반적으로 이 값에 민감하지 않습니다.
20에서 크게 벗어납니다. [19]

-w INT 밴드 폭. 기본적으로 간격이 INT 찾을 수 없습니다. 메모
최대 갭 길이는 스코어링 매트릭스의 영향을 받고
이 옵션에 의해서만 결정되는 것이 아니라 적중 길이입니다. [100]

-d INT 비대각선 X 드롭오프(Z 드롭오프). 차이가 나면 확장 중지
최고와 현재 확장 점수 사이가 위 |i-j|*A+INT,
어디에 ij 쿼리 및 참조의 현재 위치,
각각 A 일치 점수입니다. Z-dropoff는 다음과 유사합니다.
BLAST의 X-dropoff는
정렬의 시퀀스. Z-dropoff는 불필요한 것을 피할 뿐만 아니라
연장할 뿐만 아니라 길고 양호한 정렬 내부의 잘못된 정렬도 줄입니다.
[100]

-r 흙손 다음보다 긴 MEM에 대한 트리거 다시 시드 minSeedLen*흙손. 이것은 열쇠입니다
성능 조정을 위한 휴리스틱 매개변수. 더 큰 값은 더 적은 수를 생성합니다.
정렬 속도는 빨라지지만 정확도는 낮아집니다. [1.5]

-c INT 이상이 있는 경우 MEM을 폐기하십시오. INT 게놈에서 발생. 이것은
민감하지 않은 매개변수 [500]

-D INT 다음보다 짧은 드롭 체인 흙손 가장 긴 겹치는 사슬의 일부
[0.5]

-m INT 최대 수행 INT mate-SW 라운드 [50]

-W INT 씨앗의 염기 수가 다음보다 작으면 사슬을 떨어뜨립니다. INT. 이
옵션은 주로 더 긴 contigs/reads에 사용됩니다. 긍정적일 때, 그것은 또한
종자 필터링에 영향을 미칩니다. [0]

-P 페어드엔드 모드에서 SW를 수행하여 누락된 히트만 구출하고 그렇지 않습니다.
적절한 쌍에 맞는 히트를 찾으십시오.

점수 옵션:

-A INT 일치하는 점수. [1]

-B INT 불일치 페널티. 시퀀스 오류율은 대략 {.75 *입니다.
특급[-기록(4) * B/A]}. [4]

-O 정수[, 정수]
갭 오픈 페널티. 두 개의 숫자가 지정되면 첫 번째가 패널티입니다.
삭제를 여는 것과 삽입을 여는 것입니다. [6]

-E 정수[, 정수]
간격 확장 페널티. 두 개의 숫자가 지정된 경우 첫 번째는
삭제 연장에 대한 페널티와 삽입 연장에 대한 두 번째 페널티. ㅏ
길이 k의 간격 비용 O + k*E(즉 -O 제로 길이를 여는 것입니다
갭). [1]

-L 정수[, 정수]
클리핑 페널티. SW 확장을 수행할 때 BWA-MEM은 다음을 추적합니다.
쿼리 끝에 도달하는 최고의 점수. 이 점수보다 크면
최고의 SW 점수에서 클리핑 페널티를 뺀 값은 클리핑되지 않습니다.
적용된. 이 경우 SAM AS 태그는 최상의 SW를 보고합니다.
점수; 클리핑 페널티는 차감되지 않습니다. 두 개의 숫자가 제공되는 경우,
첫 번째는 5' 말단 클리핑이고 두 번째는 3' 말단 클리핑입니다. [5]

-U INT 페어링되지 않은 읽기 쌍에 대한 페널티. BWA-MEM은 페어링되지 않은 읽기 쌍에 점수를 매깁니다.
scoreRead1+scoreRead2-로INT 다음과 같이 짝을 이룬 점수를 얻습니다.
scoreRead1+scoreRead2-insertPenalty. 이 두 점수를 다음과 비교합니다.
페어링을 강제할지 여부를 결정합니다. 더 큰 값은 더 많은 결과를 가져옵니다.
공격적인 읽기 쌍. [17]

입출력 옵션:

-p 스마트 페어링. 인접한 두 읽기의 이름이 같으면
읽기 쌍을 형성하는 것으로 간주됩니다. 이렇게 하면 페어드 엔드 및 싱글 엔드 읽기
단일 FASTA/Q 스트림에서 혼합될 수 있습니다.

-R STR 읽기 그룹 헤더 행을 완료하십시오. '\t'는 다음에서 사용할 수 있습니다. STR 그리고 될 것이다
출력 SAM에서 TAB으로 변환됩니다. 읽기 그룹 ID가 첨부됩니다.
출력의 모든 읽기에. 예를 들면 '@RG\tID:foo\tSM:bar'입니다. [없는]

-H ARG ARG가 @로 시작하면 문자열로 해석되어 삽입됩니다.
출력 SAM 헤더로; 그렇지 않으면 ARG는 다음이 포함된 파일로 해석됩니다.
SAM 헤더에 삽입된 파일에서 @로 시작하는 모든 줄.
[없는]

-T INT 점수가 다음보다 낮은 정렬을 출력하지 않음 INT. 이 옵션은
출력 및 때때로 SAM 플래그 2. [30]

-j ALT contig를 기본 어셈블리의 일부로 취급합니다(즉,
db.prefix.alt 파일).

-h 정수[,INT2]
쿼리가 이하인 경우 INT 80% 이상의 점수로 적중
베스트 히트, 모두 XA 태그에 출력합니다. 만약에 INT2 지정됨, BWA-MEM
최대 출력 INT2 목록에 ALT contig에 대한 적중이 포함되어 있으면 적중합니다.
[5,200]

-a 단일 엔드 또는 페어링되지 않은 페어드 엔드 읽기에 대해 발견된 모든 정렬을 출력합니다.
이러한 정렬은 보조 정렬로 표시됩니다.

-C SAM 출력에 추가 FASTA/Q 주석을 추가합니다. 이 옵션은 다음에 사용할 수 있습니다.
읽은 메타 정보(예: 바코드)를 SAM 출력으로 전송합니다. 메모
FASTA/Q 주석(헤더 라인에서 공백 뒤의 문자열)
SAM 사양(예: BC:Z:CGTAC)을 준수해야 합니다. 형식이 잘못된 댓글로 이어짐
잘못된 SAM 출력.

-Y 보충 정렬을 위해 소프트 클리핑 CIGAR 작업을 사용합니다. 에 의해
기본적으로 BWA-MEM은 기본 정렬에 소프트 클리핑을 사용하고 하드
보충 정렬을 위한 클리핑.

-M 더 짧은 분할 히트를 보조로 표시합니다(Picard 호환성을 위해).

-v INT 출력의 자세한 수준을 제어합니다. 이 옵션은 완전히
BWA 전체에서 지원됩니다. 이상적으로는 모든 출력을 비활성화하기 위한 값 0
stderr로; 1 오류 출력 전용; 2 경고 및 오류; 3
모든 일반 메시지; 디버깅을 위해 4 이상. 이 옵션이 걸릴 때
값 4, 출력은 SAM이 아닙니다. [삼]

-I FLOAT[,FLOAT[,INT[,INT]]]
평균, 표준 편차(없으면 평균의 10%), 최대(4
없는 경우 평균의 시그마) 및 삽입물의 최소값(없는 경우 4 시그마)
크기 분포. FR 오리엔테이션에만 적용됩니다. 기본적으로,
BWA-MEM은 이러한 숫자와 충분히 주어진 쌍 방향을 추론합니다.
읽습니다. [추론]

ALN bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-l seedLen] [-t nThrds] [-cRN] [-M misMsc] [-O gapOsc] [-E gapEsc]
[-q trimQual] >

입력 읽기의 SA 좌표를 찾습니다. 최고 최대 시드 차이 차이점은
처음에 허용 시드렌 하위 시퀀스 및 최대값 최대 차이 차이점은
전체 시퀀스에서 허용됩니다.

옵션:

-n NUM 값이 INT인 경우 최대 편집 거리 또는 누락 부분
FLOAT인 경우 정렬에 2% 균일한 기본 오류율이 주어집니다. 후자의 경우,
다른 읽기에 대해 최대 편집 거리가 자동으로 선택됩니다.
길이. [0.04]

-o INT 틈이 열리는 최대 수 [1]

-e INT 간격 확장의 최대 수, k-차이 모드의 경우 -1(허용하지 않음)
긴 간격) [-1]

-d INT INT bp 내에서 3' 말단을 향한 긴 삭제를 허용하지 않음[16]

-i INT 끝을 향한 INT bp 내의 삽입 삭제를 허용하지 않음[5]

-l INT 첫 번째 INT 하위 시퀀스를 시드로 가져옵니다. INT가 쿼리보다 큰 경우
시딩이 비활성화됩니다. 긴 읽기의 경우 이 옵션은
일반적으로 `-k 25'의 경우 35에서 2 사이입니다. [INF]

-k INT 시드의 최대 편집 거리[2]

-t INT 스레드 수(멀티 스레딩 모드) [1]

-M INT 불일치 페널티. BWA는 점수가 있는 최적이 아닌 히트를 검색하지 않습니다.
(bestScore-misMsc)보다 낮습니다. [삼]

-O INT 갭 오픈 패널티 [11]

-E INT 간격 확장 패널티 [4]

-R INT 동일하게 INT 이하인 경우 최적이 아닌 정렬을 진행합니다.
최고의 히트작. 이 옵션은 쌍방향 매핑에만 영향을 미칩니다. 이것을 증가
임계값은 속도를 희생하여 페어링 정확도를 개선하는 데 도움이 됩니다.
특히 짧은 읽기(~32bp)의 경우.

-c 쿼리를 뒤집지만 보완하지는 않습니다. 이는 정렬에 필요합니다.
색 공간. (0.6.x부터 비활성화됨)

-N 반복 검색을 비활성화합니다. 이하의 모든 히트 최대 차이 차이
찾을 수 있습니다. 이 모드는 기본값보다 훨씬 느립니다.

-q INT 읽기 트리밍을 위한 매개변수입니다. BWA는 읽기를 다음으로 트리밍합니다.
argmax_x{\sum_{i=x+1}^l(INT-q_i)} if q_l
길이. [0]

-I 입력은 Illumina 1.3+ 읽기 형식입니다(품질은 ASCII-64와 같음).

-B INT 5'-end에서 시작하는 바코드의 길이. 언제 INT 긍정적이고,
각 읽기의 바코드는 매핑 전에 트리밍되고 기록됩니다.
BC SAM 태그. 페어드 엔드 읽기의 경우 양쪽 끝의 바코드는 다음과 같습니다.
연결. [0]

-b 입력 읽기 시퀀스 파일을 BAM 형식으로 지정합니다. 페어드엔드용
데이터, 쌍의 두 끝은 함께 그룹화해야 하며 옵션 -1 or -2
일반적으로 매핑해야 하는 끝을 지정하는 데 적용됩니다. 전형적인
BAM 형식의 페어 엔드 데이터 매핑을 위한 명령줄은 다음과 같습니다.

bwa aln ref.fa -b1 reads.bam > 1.sai
bwa aln ref.fa -b2 reads.bam > 2.sai
bwa sampe ref.fa 1.sai 2.sai reads.bam reads.bam > aln.sam

-0 인셀덤 공식 판매점인 -b 가 지정되면 매핑에서 단일 종단 읽기만 사용합니다.

-1 인셀덤 공식 판매점인 -b 이 지정되면 매핑에서 읽기 쌍의 첫 번째 읽기만 사용합니다.
(단일 엔드 읽기 및 두 번째 읽기 건너뛰기).

-2 인셀덤 공식 판매점인 -b 지정되면 매핑의 읽기 쌍에서 두 번째 읽기만 사용합니다.

삼세 bwa samse [-n maxOcc] >

단일 엔드 읽기가 주어진 SAM 형식으로 정렬을 생성합니다. 반복적 타격은
무작위로 선택됩니다.

옵션:

-n INT 읽기 쌍을 위해 XA 태그에서 출력할 최대 정렬 수
제대로. 읽기에 INT 적중보다 많은 경우 XA 태그는
쓴. [삼]

-r STR `@RG\tID:foo\tSM:bar'와 같은 형식으로 읽기 그룹을 지정하십시오. [없는]

Sampe bwa sampe [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>

페어드 엔드 읽기가 주어진 SAM 형식으로 정렬을 생성합니다. 반복 읽기 쌍
무작위로 배치됩니다.

옵션:

-a INT 올바르게 매핑된 것으로 간주되는 읽기 쌍의 최대 삽입 크기.
0.4.5 이후로 이 옵션은 충분한 양품이 없을 때만 사용됩니다.
삽입 크기의 분포를 추론하기 위한 정렬. [500]

-o INT 페어링을 위한 읽기의 최대 발생. 발생 횟수가 더 많은 읽기
싱글 엔드 읽기로 처리됩니다. 이 매개변수를 줄이면 더 빨라집니다.
편성. [100000]

-P 전체 FM 인덱스를 메모리에 로드하여 디스크 작업을 줄입니다(기본 공간
읽기 전용). 이 옵션을 사용하면 최소 1.25N 바이트의 메모리가 필요합니다.
여기서 N은 게놈의 길이입니다.

-n INT 읽기 쌍을 위해 XA 태그에서 출력할 최대 정렬 수
제대로. 읽기에 INT 적중보다 많은 경우 XA 태그가 기록되지 않습니다.
[3]

-N INT 일치하지 않는 읽기에 대해 XA 태그에서 출력할 최대 정렬 수
쌍(싱글톤 제외). 읽기에 INT 적중보다 많은 경우 XA 태그
작성되지 않습니다. [10]

-r STR `@RG\tID:foo\tSM:bar'와 같은 형식으로 읽기 그룹을 지정하십시오. [없는]

으악 bwa bwasw [-a matchScore] [-b mmPen] [-q gapOpenPen] [-r gapExtPen] [-t nThreads]
[-w 대역폭] [-T 임계값] [-s hspIntv] [-z zBest] [-N nHspRev] [-c 임계값]
[mate.fq]

쿼리 시퀀스를 in.fq 파일. 언제 mate.fq 존재하는 경우 쌍을 이룬다.
끝 정렬. 페어드 엔드 모드는 Illumina short-insert 읽기에만 작동합니다.
도서관. 페어드 엔드 모드에서 BWA-SW는 여전히 분할 정렬을 출력할 수 있지만
모두 제대로 페어링되지 않은 것으로 표시됩니다. 메이트 위치는 기록되지 않습니다
메이트에 여러 개의 로컬 히트가 있는 경우.

옵션:

-a INT 경기 점수 [1]

-b INT 불일치 패널티 [3]

-q INT 갭 오픈 패널티 [5]

-r INT 간격 확장 페널티. 크기 k의 연속 간격에 대한 페널티는 다음과 같습니다.
q+k*r. [2]

-t INT 다중 스레딩 모드의 스레드 수[1]

-w INT 줄무늬 정렬의 대역폭 [33]

-T INT 최소 점수 임계값을 [37]로 나눈 값

-c 흙손 쿼리 길이에 따른 임계값 조정 계수입니다. 주어진
l-long 쿼리에서 유지되는 적중의 임계값은
a*max{T,c*log(l)}. [5.5]

-z INT Z-최고 휴리스틱. -z가 높을수록 정확도는 높아지지만 속도는 저하됩니다. [1]

-s INT 시드를 시작하기 위한 최대 SA 간격 크기입니다. 높은 -s 증가
속도를 희생한 정확성. [삼]

-N INT 건너뛸 결과 정렬을 지원하는 최소 시드 수
역 정렬. [5]

SAM 조정 FORMAT


의 출력 'aln' 명령은 바이너리이며 BWA 전용으로 설계되었습니다. BWA는
SAM(Sequence Alignment/Map) 형식의 최종 정렬. 각 줄은 다음으로 구성됩니다.

┌────┬───────┬────────────────────────────────────────────────────────┐
분야상품 설명
├────┼───────┼────────────────────────────────────────────────────────┤
│ 1 │ QNAME │ 쿼리(쌍) NAME │
│ 2 │ FLAG │ 비트별 FLAG │
│ 3 │ RNAME │ 참조 서열 NAME │
│ 4 │ POS │ 1부터 왼쪽 끝 POSition/클리핑 시퀀스의 좌표 │
│ 5 │ MAPQ │ MAPping 품질(Phred-scaled) │
│ 6 │ CIAGR │ 확장 CIGAR 문자열 │
│ 7 │ MRNM │ 메이트 참조 시퀀스 이름(RNAME과 동일한 경우 `=') │
│ 8 │ MPOS │ 1 기반 Mate POSistion │
│ 9 │ ISIZE │ 추론된 삽입 SIZE │
│10 │ SEQ │ 참조와 동일한 가닥의 SEQuence 쿼리 │
│11 │ QUAL │ 쿼리 QUALity(ASCII-33은 Phred 기본 품질 제공) │
│12 │ OPT │ 가변 TAG:VTYPE:VALUE │ 형식의 OPTional 필드
└────┴───────┴────────────────────────────────────────────────────────┘

FLAG 필드의 각 비트는 다음과 같이 정의됩니다.

┌────┬────────┬────────────────────────────────── ────┐
Chr플래그상품 설명
├────┼────────┼────────────────────────────────── ────┤
│ p │ 0x0001 │ 읽기는 시퀀싱에서 쌍을 이룹니다 │
│ P │ 0x0002 │ 읽기가 적절한 쌍으로 매핑됨 │
│ u │ 0x0004 │ 쿼리 시퀀스 자체가 매핑되지 않음 │
│ U │ 0x0008 │ 메이트가 매핑되지 않음 │
│ r │ 0x0010 │ 쿼리 가닥(역방향의 경우 1) │
│ R │ 0x0020 │ 짝의 가닥 │
│ 1 │ 0x0040 │ 읽기는 한 쌍의 첫 번째 읽기입니다. │
│ 2 │ 0x0080 │ 읽기는 한 쌍의 두 번째 읽기입니다. │
│ s │ 0x0100 │ 정렬이 기본이 아님 │
│ f │ 0x0200 │ QC 실패 │
│ d │ 0x0400 │ 광학 또는 PCR 복제 │
│ S │ 0x0800 │ 보조정렬 │
└────┴────────┴────────────────────────────────── ────┘

확인해주세요http://samtools.sourceforge.net> 형식 사양 및
정렬 후처리를 위한 도구.

BWA는 다음 선택적 필드를 생성합니다. `X'로 시작하는 태그는 BWA에만 적용됩니다.

┌────┬─────────────────────────────────────────── ──────┐
꼬리표의미
├────┼─────────────────────────────────────────── ──────┤
NM │ 거리 편집 │
MD │ 위치/베이스 불일치 │
AS │ 정렬 점수 │
BC │ 바코드 시퀀스 │
SA │ 보충 정렬 │
├────┼─────────────────────────────────────────── ──────┤
X0 │ 베스트 히트 수 │
X1 │ BWA에서 찾은 최적이 아닌 히트 수 │
XN │ 참조의 모호한 염기 수 │
XM │ 정렬의 불일치 수 │
XO │ 열린 틈의 수 │
XG │ 간격 확장 수 │
XT │ 유형: 고유/반복/N/Mate-sw │
XA │ 대체 안타; 형식: /(chr,pos,CIGAR,NM;)*/ │
├────┼─────────────────────────────────────────── ──────┤
XS │ 최적이 아닌 정렬 점수 │
XF │ 정방향/역방향 정렬 지원 │
XE │ 지원 종자 수 │
└────┴─────────────────────────────────────────── ──────┘

XO 및 XG는 BWT 검색에 의해 생성되고 CIGAR 문자열은 Smith-Waterman에 의해 생성됩니다.
조정. 이 두 태그는 CIGAR 문자열과 일치하지 않을 수 있습니다. 이것은 버그가 아닙니다.

노트 ON 짧은 읽기 조정


조정 정확성
시드가 비활성화되면 BWA는 최대값을 포함하는 정렬을 찾도록 보장합니다. 최대 차이
다음을 포함한 차이점 최대 간격O 내에서 발생하지 않는 틈이 열립니다. nIndelEnd bp 쪽으로
쿼리의 양쪽 끝. 다음과 같은 경우 더 긴 간격이 발견될 수 있습니다. maxGapE 긍정적이지만 그렇지 않다.
모든 히트를 찾을 수 있습니다. 시드가 활성화되면 BWA는 추가로 첫 번째
시드렌 하위 시퀀스는 다음을 포함하지 않습니다. 최대 시드 차이 차이점.

간격 정렬이 비활성화되면 BWA는 Eland와 동일한 정렬을 생성할 것으로 예상됩니다.
버전 1, Illumina 정렬 프로그램. 그러나 BWA가 데이터베이스에서 `N'을 변경함에 따라
임의의 뉴클레오티드에 대한 시퀀스, 이러한 임의의 시퀀스에 대한 적중도 계산됩니다. 로
결과적으로 BWA는 임의의 시퀀스가 ​​발생하는 경우 고유한 히트를 반복으로 표시할 수 있습니다.
데이터베이스에서 고유해야 하는 시퀀스와 동일합니다.

기본적으로 최고의 적중이 반복적이지 않은 경우(-R로 제어) BWA는 다음을 찾습니다.
모든 히트에는 하나 이상의 불일치가 포함됩니다. 그렇지 않으면 BWA는 모든 동일하게 가장 좋은 히트만 찾습니다. 베이스
조회수를 평가할 때 품질은 고려되지 않습니다. 페어드 엔드 모드에서 BWA는 모든 히트를 페어링합니다.
그것은 찾았다. 매핑되지 않은 읽기에 대해 Smith-Waterman 정렬을 수행하여 읽기를 복구합니다.
오류율이 높고 잠재적인 정렬을 수정하기 위한 고품질 변칙 쌍
오류.

추정 끼워 넣다 크기 콘텐츠 배급
BWA는 256*1024 읽기 쌍당 삽입 크기 분포를 추정합니다. 먼저 수집
양 끝이 단일 끝 품질 20 이상으로 매핑된 읽기 쌍
중앙값(Q2), 하위 및 상위 사분위수(Q1 및 Q3)를 계산합니다. 그것은 평균을 추정하고
인서트 크기가 다음 범위 내에 있는 쌍의 인서트 크기 분포 분산
간격 [Q1-2(Q3-Q1), Q3+2(Q3-Q1)]. 다음으로 간주되는 쌍의 최대 거리 x
적절하게 페어링된(SAM 플래그 0x2) 방정식 Phi((x-mu)/sigma)=x/L*p0을 풀어서 계산합니다.
여기서 mu는 평균, sigma는 삽입 크기 분포의 표준 오차, L은
게놈의 길이, p0는 비정상적인 쌍보다 우선하고 Phi()는 표준입니다.
누적 분포 함수. Illumina 짧은 삽입 읽기를 사람에게 매핑하기 위해
게놈, x는 평균에서 약 6-7 시그마 떨어져 있습니다. 사분위수, 평균, 분산 및 x는
표준 오류 출력으로 인쇄됩니다.

메모리 요구 사항
bwtsw 알고리즘을 사용하면 전체 인간 게놈을 인덱싱하는 데 5GB 메모리가 필요합니다.
시퀀스. 짧은 읽기의 경우, ALN 명령은 ~3.2GB 메모리를 사용하고 Sampe 명령 사용
~5.4GB.

속도
인간 게놈 시퀀스를 인덱싱하는 데 bwtsw 알고리즘을 사용하면 3시간이 걸립니다. 더 작게 인덱싱
IS 알고리즘을 사용하는 게놈은 더 빠르지만 더 많은 메모리가 필요합니다.

정렬 속도는 쿼리 시퀀스(r)의 오류율에 의해 크게 결정됩니다.
첫째, BWA는 차이가 많은 적중보다 거의 완벽한 적중에서 훨씬 빠르게 실행됩니다.
l-차이 적중이 발견되면 차이가 2+XNUMX인 적중 검색을 중지합니다. 이것
r이 높으면 BWA가 매우 느려질 것임을 의미합니다. 이 경우 BWA는
많은 차이점이 있으며 이러한 히트를 찾는 것은 비용이 많이 듭니다. 두 번째, 정렬
뒤의 알고리즘은 속도를 [k log(N)/m]에 민감하게 만듭니다. 여기서 k는 허용되는 최대값입니다.
차이점, N은 데이터베이스 크기, m은 쿼리 길이입니다. 실제로는 k를 선택합니다.
wrt r 및 따라서 r이 주요 요소입니다. 데이터에 BWA를 사용하는 것을 권장하지 않습니다.
r>0.02.

더 짧은 읽기의 경우 페어링이 더 느립니다. 이것은 주로 짧은 읽기가 더 많은 것을 가지고 있기 때문입니다.
가짜 적중 및 SA 좌표를 염색체 좌표로 변환하는 데 비용이 많이 듭니다.

변경 IN BWA-0.6


버전 0.6부터 BWA는 4GB보다 긴 참조 게놈으로 작업할 수 있었습니다.
이 기능을 통해 정방향 및 역방향 보완 게놈을 통합할 수 있습니다.
BWA-Short 및 BWA-SW 모두 속도를 높이는 하나의 FM 인덱스. 트레이드 오프로 BWA는 더 많은 것을 사용합니다.
모든 위치와 순위를 두 배 더 큰 64비트 정수로 유지해야 하기 때문에 메모리
이전 버전에서 사용된 32비트 정수보다

최신 BWA-SW는 100bp보다 긴 페어드 엔드 읽기에도 작동합니다. BWA-에 비해
짧은 BWA-SW는 매우 고유한 읽기에 대해 더 정확하고
상대적으로 긴 INDEL 및 구조 변형. 그럼에도 불구하고 BWA-short는 일반적으로 더 높습니다.
많은 차선의 안타로부터 최적의 안타를 구별하는 능력. 매핑의 선택
알고리즘은 애플리케이션에 따라 다를 수 있습니다.

onworks.net 서비스를 사용하여 온라인에서 bwa 사용


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad