영어프랑스어스페인어

Ad


온웍스 파비콘

bcftools - 클라우드에서의 온라인

Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터를 통해 OnWorks 무료 호스팅 제공업체에서 bcftools 실행

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 bcftools 명령입니다.

프로그램:

이름


samtools - 시퀀스 정렬/맵(SAM) 형식용 유틸리티

bcftools - BCF(Binary Call Format) 및 VCF용 유틸리티

개요


samtools 보기 -bt ref_list.txt -o aln.bam aln.sam.gz

samtools 정렬 aln.bam aln.sorted

samtools 인덱스 aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools 보기 aln.sorted.bam chr2:20,100,000-20,200,000

samtools 병합 out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

samtools 파일업 -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools 색인 in.bcf

bcftools 보기 in.bcf chr2:100-200 > out.vcf

bcftools 보기 -Nvm0.99 in.bcf > out.vcf 2> out.afs

기술


Samtools는 BAM 형식의 정렬을 조작하는 유틸리티 세트입니다. 그것은 수입
SAM(Sequence Alignment/Map) 형식으로 내보내고 정렬, 병합 및
인덱싱하고 모든 지역에서 신속하게 읽기를 검색할 수 있습니다.

Samtools는 스트림에서 작동하도록 설계되었습니다. 입력 파일 `-'을 기준으로 간주합니다.
입력(stdin) 및 표준 출력(stdout)으로 출력 파일 `-'. 여러 명령이 가능합니다.
따라서 Unix 파이프와 결합됩니다. Samtools는 항상 경고 및 오류 메시지를
표준 오류 출력(stderr).

Samtools는 또한 원격 FTP 또는 HTTP 서버에서 BAM(SAM 아님) 파일을 열 수 있습니다.
BAM 파일 이름은 `ftp://' 또는 `http://'로 시작합니다. Samtools는 현재 작업을 확인합니다.
색인 파일의 디렉토리에 저장하고 부재 시 색인을 다운로드합니다. Samtools는
요청하지 않는 한 전체 정렬 파일을 검색합니다.

샘툴스 명령 옵션


전망 samtools 보기 [-bchuHS] [-t in.refList] [-o 출력] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l 라이브러리] [-r readGroup] [-R rgFile] | [지역1
[...]]

SAM 또는 BAM 형식으로 전체 또는 하위 정렬을 추출/인쇄합니다. 지역이 없는 경우
지정하면 모든 정렬이 인쇄됩니다. 그렇지 않으면 정렬만
지정된 영역이 겹치면 출력됩니다. 정렬이 주어질 수 있습니다.
여러 지역이 겹치는 경우 여러 번. 지역을 제시할 수 있으며,
예를 들어, 다음 형식: `chr2' (전체 chr2), `chr2:1000000'
(1,000,000bp에서 시작하는 영역) 또는 `chr2:1,000,000-2,000,000'(사이 영역
끝점을 포함하여 1,000,000 및 2,000,000bp). 좌표는 1부터 시작합니다.

옵션:

-b BAM 형식으로 출력합니다.

-f INT FLAG 필드에 있는 INT의 모든 비트가 있는 출력 정렬만.
INT는 /^0x[0-9A-F]+/ [0] 형식의 XNUMX진수일 수 있습니다.

-F INT INT [0]에 있는 비트로 정렬 건너뛰기

-h 출력에 헤더를 포함합니다.

-H 헤더만 출력합니다.

-l STR 라이브러리 STR의 출력 읽기만 [null]

-o FILE 출력 파일 [stdout]

-q INT INT [0]보다 작은 MAPQ로 정렬 건너뛰기

-r STR 읽기 그룹 STR의 출력 읽기만 [null]

-R FILE 다음에 나열된 읽기 그룹의 출력 읽기 FILE [없는]

-s 흙손 서브샘플링할 템플릿/쌍의 비율 정수 부분이 처리됩니다.
난수 생성기의 시드로 [-1]

-S 입력은 SAM에 있습니다. @SQ 헤더 행이 없으면 `-t' 옵션은
이 필요합니다.

-c 정렬을 인쇄하는 대신 정렬만 세고 인쇄하십시오.
총 수. 다음과 같은 모든 필터 옵션 `-에프', `-F'`-q' 있음
고려.

-t FILE 이 파일은 TAB으로 구분됩니다. 각 행에는 참조 이름이 포함되어야 합니다.
참조의 길이, 각각의 개별 참조에 대해 한 줄;
추가 필드는 무시됩니다. 이 파일은 또한
정렬의 참조 시퀀스. `samtools faidx를 실행하면 ',
결과 색인 파일 .파이 이렇게 사용할 수 있습니다
파일.

-u 압축되지 않은 BAM을 출력합니다. 이 옵션을 사용하면 시간을 절약할 수 있습니다.
압축/압축 해제하므로 출력이 다음과 같을 때 선호됩니다.
다른 samtools 명령으로 연결됩니다.

티뷰 샘툴즈 티뷰 [-p 문자:위치] [-s STR] [-d 디스플레이] [참조파스타]

텍스트 정렬 뷰어(ncurses 라이브러리 기반). 뷰어에서 `?'를 누릅니다.
도움말을 보려면 'g'를 눌러 형식의 영역에서 정렬 시작을 확인하십시오.
같은 참조를 볼 때 `chr10:10,000,000' 또는 `=10,000,000'
순서.

옵션 :

-d 디스플레이 (H)tml 또는 (C)urses 또는 (T)ext로 출력

-p 문자:위치 이 위치로 바로 이동

-s STR 이 샘플 또는 읽기 그룹의 읽기만 표시

mpileup 샘툴즈 mpileup [-EBugp] [-C capQcoef] [-r 등록 번호] [-f 인파] [-l 명부] [-M
capMapQ] [-Q minBaseQ] [-q 최소맵Q] 인밤 [인투밤 [...]]

하나 또는 여러 BAM 파일에 대해 BCF 또는 파일업을 생성합니다. 정렬 기록은
@RG 헤더 라인의 샘플 식별자별로 그룹화됩니다. 샘플 식별자가
없으면 각 입력 파일은 하나의 샘플로 간주됩니다.

파일업 형식으로(없이 -uor-g), 각 라인은 게놈 위치를 나타내고,
염색체 이름, 좌표, 참조 염기, 읽기 염기, 읽기로 구성
품질 및 정렬 매핑 품질. 일치, 불일치에 대한 정보,
인델, 스트랜드, 매핑 품질, 읽기 시작 및 끝은 모두 다음 위치에 인코딩됩니다.
읽기 기본 열. 이 열에서 점은 참조와 일치함을 나타냅니다.
정방향 가닥의 기본, 역방향 가닥의 일치를 위한 쉼표, '>' 또는
참조 건너뛰기의 경우 '<', 정방향 가닥의 불일치에 대한 'ACGTN' 및
반전 가닥의 불일치에 대한 'acgtn'. 패턴 `\+[0-9]+[ACGTAcgtn]+'
이 참조 위치와 다음 위치 사이에 삽입이 있음을 나타냅니다.
참조 위치. 삽입 길이는 다음의 정수로 지정됩니다.
패턴 다음에 삽입된 시퀀스가 ​​옵니다. 마찬가지로 패턴
'-[0-9]+[ACGTAcgtn]+'는 참조에서 삭제를 나타냅니다. 삭제된
베이스는 다음 행에서 `*'로 표시됩니다. 또한 읽기 기반에서
열에서 `^' 기호는 읽기 시작을 표시합니다. 문자의 ASCII
다음 `^' 빼기 33은 매핑 품질을 제공합니다. `$' 기호는 끝을 표시합니다.
읽기 세그먼트.

입력 옵션 :

-6 품질이 Illumina 1.3+ 인코딩에 있다고 가정합니다. -A 건너뛰지 마세요
변형 호출에서 비정상적인 읽기 쌍.

-B 기본 계산을 위한 확률적 재정렬 비활성화
정렬 품질(BAQ). BAQ는 읽기의 Phred 스케일 확률입니다.
베이스가 잘못 정렬되었습니다. 이 옵션을 적용하면 크게 감소하는 데 도움이 됩니다.
오정렬로 인한 잘못된 SNP.

-b FILE 입력 BAM 파일 목록, 한 줄에 하나의 파일 [null]

-C INT 다음을 포함하는 읽기에 대한 매핑 품질 다운그레이드 계수
과도한 불일치. phred-scaled 확률 q로 읽기가 주어지면
매핑된 위치에서 생성되는 새로운 매핑 품질
sqrt((INT-q)/INT)*INT에 관한 것입니다. XNUMX 값은 이것을 비활성화합니다.
기능; 활성화된 경우 BWA의 권장 값은 50입니다. [0]

-d INT 위치에서 최대로 읽으십시오 INT 입력 BAM당 읽습니다. [250]

-E 확장된 BAQ 계산. 이 옵션은 특히 감도를 높이는 데 도움이 됩니다.
MNP이지만 특이성을 약간 손상시킬 수 있습니다.

-f FILE XNUMXD덴탈의 faidx- FASTA 형식의 색인 참조 파일. 파일은
선택적으로 압축 라지프. [없는]

-l FILE 지역 또는 사이트 목록을 포함하는 BED 또는 위치 목록 파일
파일업 또는 BCF가 생성되어야 함[null]

-q INT 사용할 정렬에 대한 최소 매핑 품질 [0]

-Q INT 베이스를 고려하기 위한 최소 베이스 품질 [13]

-r STR 영역에서만 파일업 생성 STR [모든 사이트]

산출 옵션 :

-D 샘플당 출력 읽기 깊이

-g 유전자형 가능성을 계산하고 이진 호출 형식으로 출력
(BCF).

-S 샘플당 출력 Phred-scaled strand bias P-value

-u 유사하게 -g 출력이 압축되지 않은 BCF라는 점을 제외하면
배관용으로 선호됩니다.

옵션 for 유전자형 있을 수 있는 일 계산 (에 대한 -g or -유):

-e INT Phred-scaled 갭 확장 시퀀싱 오류 확률. 감소 INT
더 긴 인델로 이어집니다. [20]

-h INT 호모폴리머 오차를 모델링하기 위한 계수. 주어진 l-긴
호모폴리머 실행, 인델 크기의 시퀀싱 오류 s 모델이다
as INT*s/l. [100]

-I INDEL 호출을 수행하지 않음

-L INT 샘플당 평균 깊이가 초과하는 경우 INDEL 호출 건너뛰기 INT.
[250]

-o INT Phred-scaled gap open 시퀀싱 오류 확률. 감소 INT 연결
더 많은 indel 호출에. [40]

-p 샘플당 -m 및 -F 임계값을 적용하여 감도를 높입니다.
부름. 기본적으로 두 옵션 모두 풀링된 모든 읽기에 적용됩니다.
견본.

-P STR 쉼표로 구분된 플랫폼 목록( @RG-PL) 어떤에서
indel 후보를 얻습니다. indel을 수집하는 것이 좋습니다
삽입결실 오류율이 낮은 시퀀싱 기술 후보
일루미나와 같은. [모두]

리헤더 샘툴즈 리헤더

헤더를 교체하십시오. 인밤 헤더가 있는 in.header.sam. 이 명령은
헤더를 BAM->SAM->BAM 변환으로 교체하는 것보다 훨씬 빠릅니다.

방법 samtools 고양이 [-h header.sam] [-o out.bam] [ ... ]

BAM을 연결합니다. 각 입력 BAM의 시퀀스 사전은 동일해야 하며,
이 명령은 이것을 확인하지 않지만. 이 명령은 다음과 유사한 트릭을 사용합니다.
리헤더 빠른 BAM 연결이 가능합니다.

종류 samtools 정렬 [-nof] [-m maxMem]

가장 왼쪽 좌표로 정렬을 정렬합니다. 파일 .bam 생성됩니다.
이 명령은 임시 파일을 만들 수도 있습니다. .%d.bam 때 전체
정렬을 메모리에 맞출 수 없습니다(-m 옵션으로 제어).

옵션:

-o 최종 정렬을 표준 출력으로 출력합니다.

-n 염색체 좌표가 아닌 읽기 이름별로 정렬

-f 전체 출력 경로로 사용하고 추가하지 않음 .bam 접미사.

-m INT 필요한 최대 메모리 정도. [500000000]

병합 samtools 병합 [-nur1f] [-h inh.sam] [-R reg]
[...]

정렬된 여러 정렬을 병합합니다. 모든 입력의 헤더 참조 목록
BAM 파일 및 @SQ 헤더의 inh.sam, 있는 경우 모두 동일한 것을 참조해야 합니다.
참조 시퀀스 집합입니다. 헤더 참조 목록 및 (재정의하지 않는 한)
-h) `@' 헤더 인투밤 에 복사됩니다 아웃밤및 기타 헤더
파일은 무시됩니다.

옵션:

-1 zlib 압축 수준 1을 사용하여 출력 압축

-f 출력 파일이 있는 경우 강제로 덮어씁니다.

-h FILE 라인을 사용 FILE 복사할 `@' 헤더로 아웃밤, 대체
그렇지 않으면 복사될 모든 헤더 행 인투밤. (FILE is
포함할 수 있는 모든 정렬 레코드는
무시됩니다.)

-n 입력 정렬은 염색체가 아닌 읽기 이름으로 정렬됩니다.
좌표

-R STR 로 표시된 지정된 지역의 파일 병합 STR [없는]

-r 각 정렬에 RG 태그를 부착합니다. 태그 값은 파일에서 유추됩니다.
이름.

-u 압축되지 않은 BAM 출력

색인 샘툴즈 인덱스

빠른 랜덤 액세스를 위한 인덱스 정렬 정렬. 인덱스 파일 .bai 될거야
만들었습니다.

idxstats 샘툴즈 idxstats

색인 파일에서 통계를 검색하고 인쇄합니다. 출력은 TAB으로 구분됩니다.
참조 시퀀스 이름, 시퀀스 길이, # 매핑된 읽기로 구성된 각 줄
및 # 매핑되지 않은 읽기.

faidx samtools faidx [지역1 [...]]

FASTA 형식의 인덱스 참조 시퀀스 또는 인덱스에서 하위 시퀀스 추출
참조 시퀀스. 지역을 지정하지 않으면 faidx 파일을 색인화하고
만들 .파이 디스크에. 영역이 지정된 경우 하위 시퀀스
검색되어 FASTA 형식으로 stdout에 인쇄됩니다. 입력 파일은
에 압축된다 라즈프 형식입니다.

고정 친구 샘툴즈 픽스메이트

이름 정렬에서 메이트 좌표, ISIZE 및 메이트 관련 플래그를 채웁니다.
조정.

rmdup samtools rmdup [-sS]

잠재적인 PCR 중복 제거: 여러 읽기 쌍이 동일한 외부
좌표, 매핑 품질이 가장 높은 쌍만 유지합니다. 쌍으로-
종료 모드, 이 명령 FR 방향으로 작동하며 ISIZE가 필요합니다.
올바르게 설정하십시오. 페어링되지 않은 읽기에는 작동하지 않습니다(예:
다른 염색체 또는 고아 읽기).

옵션:

-s 단일 종단 읽기를 위해 중복을 제거하십시오. 기본적으로 이 명령은 다음에 대해 작동합니다.
페어드 엔드 읽기 전용.

-S 페어드 엔드 읽기 및 단일 엔드 읽기를 처리합니다.

진정 samtools calmd [-EeubSr] [-C capQcoef]

MD 태그를 생성합니다. MD 태그가 이미 있는 경우 이 명령은
생성된 MD 태그가 기존 태그와 다른 경우 경고. 출력 SAM
기본적으로

옵션:

-A 와 함께 사용하는 경우 -r 이 옵션은 원래 베이스를 덮어씁니다.
품질.

-e 정렬된 참조와 동일한 경우 읽기 기준을 =로 변환합니다.
베이스. Indel 호출자는 현재 = 기반을 지원하지 않습니다.

-u 압축되지 않은 BAM 출력

-b 출력 압축 BAM

-S 입력은 헤더 행이 있는 SAM입니다.

-C INT 잘못 매핑된 읽기의 매핑 품질을 제한하는 계수입니다. 참조
쌓다 자세한 내용은 명령입니다. [0]

-r BQ 태그(-A 없이) 또는 BAQ(-A 포함)로 캡 기본 품질을 계산합니다.

-E 확장 BAQ 계산. 이 옵션은 다음에 대한 특이성을 교환합니다.
민감하지만 효과는 미미합니다.

타겟컷 samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
참조]

이 명령은 읽기의 연속성을 검사하여 대상 영역을 식별합니다.
깊이, 대상의 반수체 컨센서스 시퀀스를 계산하고 SAM을 출력합니다.
대상에 해당하는 각 시퀀스. 언제 옵션 -f 사용 중이면 BAQ는
적용된. 이 명령은 fosmid에서 fosmid 클론을 절단하도록 설계
풀 시퀀싱[Ref. Kitzmanet al. (2010)].

samtools 단계 [-AF] [-k len] [-b 접두사] [-q minLOD] [-Q minBaseQ]

호출 및 위상 이형 SNP. 옵션:

-A 모호한 단계로 읽기를 삭제합니다.

-b STR BAM 출력의 접두사입니다. 이 옵션을 사용하는 경우 0단계 판독이 수행됩니다.
파일에 저장 STR.0.bam 및 1단계 읽기 STR.1.밤. 알 수 없는 단계
읽기는 두 파일 중 하나에 무작위로 할당됩니다. 키메라 읽기
스위치 오류가 있는 파일은 다음 위치에 저장됩니다. STR.chimeric.bam. [없는]

-F 키메라 읽기를 수정하려고 시도하지 마십시오.

-k INT 로컬 페이징의 최대 길이. [13]

-q INT 이형 접합체를 호출하기 위한 최소 Phred-scaled LOD. [40]

-Q INT het 호출에 사용되는 최소 기본 품질입니다. [13]

BCFTOOLS 명령 옵션


전망 bcftools 전망 [-AbFGNQSucgv] [-D seqDict] [-l 목록Loci] [-s 목록샘플] [-i
간격SNP 비율] [-t mutRate] [-p varThres] [-m varThres] [-P 이전에] [-1 n그룹1]
[-d minFrac] [-U nPerm] [-X 파마Thres] [-T 트리오 유형] in.bcf [지방]

BCF와 VCF 간 변환, 변형 후보 호출 및 대립유전자 추정
주파수.

입력 / 출력 옵션 :

-A 변형 사이트에서 가능한 모든 대체 대립유전자를 유지합니다. 기본적으로,
view 명령은 있을 법하지 않은 대립 유전자를 버립니다.

-b BCF 형식으로 출력합니다. 기본값은 VCF입니다.

-D FILE VCF->BCF 변환을 위한 시퀀스 사전(염색체 이름 목록)
[없는]

-F PL이 r921 이전에 생성되었음을 나타냅니다(순서가 다름).

-G 모든 개별 유전자형 정보를 억제합니다.

-l FILE 정보가 출력되는 사이트 목록 [모든 사이트]

-N REF 필드가 A/C/G/T가 아닌 사이트 건너뛰기

-Q QCALL 우도 형식 출력

-s FILE 사용할 샘플 목록입니다. 입력의 첫 번째 열은 샘플을 제공합니다.
이름과 두 번째는 계략을 제공하며 1 또는 2만 될 수 있습니다.
두 번째 열이 없으면 샘플 계략은 2로 가정합니다.
출력, 샘플 순서는 의 순서와 동일합니다. FILE.
[없는]

-S 입력은 BCF 대신 VCF입니다.

-u 압축되지 않은 BCF 출력(force -b).

합의/변형 호출 옵션 :

-c 베이지안 추론을 사용하여 변형을 호출합니다. 이 옵션은 자동으로
옵션을 호출합니다 -e.

-d 흙손 인셀덤 공식 판매점인 -v 가 사용 중이면 샘플의 일부가
읽기는 FLOAT 미만입니다. [0]

-e 사이트 추정을 포함하여 최대 우도 추론만 수행합니다.
대립 유전자 빈도, Hardy-Weinberg 평형 테스트 및 테스트
LRT와의 제휴.

-g 변형 사이트에서 샘플별 유전자형 호출(force -c)

-i 흙손 INDEL-to-SNP 돌연변이 비율 [0.15]

-m 흙손 개선된 다중 대립유전자 및 희귀 변이 호출을 위한 새로운 모델. 또 다른
LRT의 P(chi^2)가 FLOAT 임계값을 초과하면 ALT 대립유전자가 허용됩니다.
매개변수는 견고해 보이지만 실제 값은 일반적으로 그렇지 않습니다.
결과에 많은 영향을 미칩니다. 사용하기 좋은 값은 0.99입니다. 이것이
권장하는 호출 방법. [0]

-p 흙손 사이트는 P(ref|D)인 경우 변형으로 간주됩니다.

-P STR 이전 또는 초기 대립 유전자 주파수 스펙트럼. STR이 될 수 있는 경우 가득 찬, 조건2,
플랫 또는 이전 변형의 오류 출력으로 구성된 파일
실행을 호출합니다.

-t 흙손 변형 호출에 대한 조정된 변이 비율 [0.001]

-T STR 페어/트리오 통화를 활성화합니다. 트리오 호출의 경우 옵션 -s 일반적으로
트리오 구성원과 순서를 구성하는 데 적용해야 했습니다.
옵션에 제공된 파일에서 -s, 첫 번째 샘플은
아이, 두 번째는 아버지, 세 번째는 어머니. 유효한
~의 가치 STR `pair', `trioauto', `trioxd' 및 `trioxs'입니다. 여기서
`pair'는 두 입력 샘플 간의 차이를 호출하고 `trioxd'는
(`trioxs')는 입력이 PAR이 아닌 X 염색체에서 온 것임을 지정합니다.
지역이고 아이는 여성(남성)입니다. [없는]

-v 변형 사이트만 출력(force -c)

대조 호출 협회 Test 옵션 :

-1 INT 그룹 1 샘플 수. 이 옵션은 분할에 사용됩니다.
대조 SNP 호출 또는 연관 테스트를 위해 샘플을 두 그룹으로 나눕니다.
이 옵션을 사용하면 다음 VCF INFO가 출력됩니다.
PC2, PCHI2 및 QCHI2. [0]

-U INT 연관성 테스트를 위한 순열 수( -1)
[0]

-X 흙손 P(chi^2)에 대한 순열만 수행 -U)
[0.01]

색인 bcftools 색인 in.bcf

랜덤 액세스를 위해 인덱스 정렬된 BCF.

방법 bcftools 방법 in1.bcf [in2.bcf [...]]]

BCF 파일을 연결합니다. 입력 파일은 정렬되어야 하며
동일한 샘플이 동일한 순서로 나타납니다.

SAM FORMAT


SAM(Sequence Alignment/Map) 형식은 TAB으로 구분됩니다. 헤더 라인과는 별개로,
'@' 기호로 시작되며 각 정렬 라인은 다음으로 구성됩니다.

┌────┬───────┬────────────────────────────────────────────────────────┐
분야상품 설명
├────┼───────┼────────────────────────────────────────────────────────┤
│ 1 │ QNAME │ 쿼리 템플릿/쌍 NAME │
│ 2 │ FLAG │ 비트별 FLAG │
│ 3 │ RNAME │ 참조 서열 NAME │
│ 4 │ POS │ 1부터 왼쪽 끝 POSition/클리핑 시퀀스의 좌표 │
│ 5 │ MAPQ │ MAPping 품질(Phred-scaled) │
│ 6 │ CIAGR │ 확장 CIGAR 문자열 │
│ 7 │ MRNM │ 메이트 참조 시퀀스 이름(RNAME과 동일한 경우 `=') │
│ 8 │ MPOS │ 1 기반 Mate POSistion │
│ 9 │ TLEN │ 추론된 템플릿 LENgth(삽입 크기) │
│10 │ SEQ │ 참조와 동일한 가닥의 SEQuence 쿼리 │
│11 │ QUAL │ 쿼리 QUALity(ASCII-33은 Phred 기본 품질 제공) │
│12+ │ OPT │ 가변 TAG:VTYPE:VALUE │ 형식의 OPTional 필드
└────┴───────┴────────────────────────────────────────────────────────┘

FLAG 필드의 각 비트는 다음과 같이 정의됩니다.

┌───────┬─────┬────────────────────────────────────────────────┐
플래그Chr상품 설명
├───────┼─────┼────────────────────────────────────────────────┤
│0x0001 │ p │ 읽기는 시퀀싱에서 쌍을 이룹니다 │
│0x0002 │ P │ 읽기가 적절한 쌍으로 매핑됨 │
│0x0004 │ u │ 쿼리 시퀀스 자체가 매핑되지 않음 │
│0x0008 │ U │ 메이트가 매핑되지 않음 │
│0x0010 │ r │ 쿼리 가닥(역방향의 경우 1) │
│0x0020 │ R │ 짝의 가닥 │
│0x0040 │ 1 │ 읽기는 한 쌍의 첫 번째 읽기입니다. │
│0x0080 │ 2 │ 읽기는 한 쌍의 두 번째 읽기입니다. │
│0x0100 │ s │ 정렬이 기본이 아님 │
│0x0200 │ f │ 읽기 실패 플랫폼/공급업체 품질 검사 │
│0x0400 │ d │ 읽기는 PCR 또는 광학 복제입니다 │
└───────┴─────┴────────────────────────────────────────────────┘
여기서 두 번째 열은 FLAG 필드의 문자열 표현을 제공합니다.

VCF FORMAT


VCF(Variant Call Format)는 각 데이터 라인이 TAB으로 구분된 형식으로 다음과 같이 구성됩니다.
다음 필드:

┌────┬────────┬───────────────────────────────────────────────────────────┐
분야상품 설명
├────┼────────┼───────────────────────────────────────────────────────────┤
│ 1 │ CHROM │ CHROMosome 이름 │
│ 2 │ POS │ 변형의 가장 왼쪽 위치 │
│ 3 │ ID │ 고유 변형 ​​IDentifier │
│ 4 │ REF │ REFerence 대립유전자 │
│ 5 │ ALT │ 쉼표로 구분된 ALTernate 대립유전자 │
│ 6 │ QUAL │ 변형/참조 QUALity │
│ 7 │ FILTER │ FILTer 적용 │
│ 8 │ INFO │ 세미콜론으로 구분된 변형 관련 정보 │
│ 9 │ FORMAT │ 콜론으로 구분된 유전자형 필드의 FORMAT(선택 사항) │
│10+ │ SAMPLE │ SAMPLE 유전자형 및 샘플별 정보(선택사항) │
└────┴────────┴───────────────────────────────────────────────────────────┘

다음 표는 정보 samtools 및 bcftools에서 사용하는 태그입니다.

┌──────┬──────────┬───────────────────────────────────────────────────────────────────────────────────────── ─────┐
꼬리표형성상품 설명
├──────┼──────────┼───────────────────────────────────────────────────────────────────────────────────────── ─────┤
└──────┴──────────┴───────────────────────────────────────────────────────────────────────────────────────── ─────┘

사용 예


o 다음과 같은 경우 SAM을 BAM으로 가져옵니다. @SQ 행이 헤더에 있습니다.

samtools 보기 -bS aln.sam > aln.bam

If @SQ 줄이 없습니다:

samtools faidx ref.fa
samtools 보기 -bt ref.fa.fai aln.sam > aln.bam

어디에 심판.fa.fai 에 의해 자동으로 생성됩니다. faidx 명령.

o 부착 RG 정렬된 정렬을 병합하는 동안 태그:

펄 -e '프린트
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools 병합 -rh rg.txt merged.bam ga.bam 454.bam

의 값 RG 태그는 읽은 파일 이름에 의해 결정됩니다. 이에
예를 들어 merged.bam, 에서 읽음 가밤 부착됩니다 RG:Z:가, 에서 읽는 동안
454.밤 부착됩니다 RG:Z:454.

o 한 이배체 개체에 대해 SNP 및 짧은 INDEL 호출:

samtools mpileup -ugf ref.fa aln.bam | bcftools 보기 -bvcg -> var.raw.bcf
bcftools 보기 var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

XNUMXD덴탈의 -D varFilter의 옵션은 최대 읽기 깊이를 제어합니다.
평균 읽기 깊이의 약 두 배. 추가하는 것을 고려할 수 있습니다. - C50mpileup 매핑하는 경우
과도한 불일치를 포함하는 읽기의 경우 품질이 과대 평가됩니다. 이 옵션 적용
보통 도움이 된다 BWA-짧은 그러나 다른 매퍼는 그렇지 않을 수 있습니다.

o 한 이배체 개체에 대한 컨센서스 서열 생성:

samtools mpileup -uf ref.fa aln.bam | bcftools 보기 -cg - | vcfutils.pl vcf2fq >
cns.fq

o 한 쌍의 샘플에서 체세포 돌연변이를 호출합니다.

samtools mpileup -DSuf ref.fa aln.bam | bcftools 보기 -bvcgT 쌍 -> var.bcf

출력 INFO 필드에서 CLR 가능성 사이의 Phred-log 비율을 다음과 같이 제공합니다.
두 샘플을 독립적으로 처리하고 유전자형이
똑같다. 이것 CLR 체세포의 자신감을 효과적으로 측정하는 점수입니다.
전화. 높을수록 좋습니다.

o 가족 트리오의 Call de novo 및 체세포 돌연변이:

samtools mpileup -DSuf ref.fa aln.bam | bcftools 보기 -bvcgT 쌍 -s samples.txt - >
var.bcf

입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 샘플.txt 구성원과 순서를 지정하는 세 줄로 구성되어야 합니다.
샘플(아빠-엄마 순). 비슷하게, CLR Phred-log 제공
trio 제약 조건이 있거나 없는 가능성 비율. CGU 가능성을 가장 많이 보여줍니다
트리오 제약이 없는 유전자형 구성 및 CGT 가능성이 가장 높다
트리오 제약 조건을 충족하는 유전자형 구성.

o XNUMX단계 개인:

samtools calmd -AEur aln.bam ref.fa | samtools 단계 -b 접두사 -> phase.out

XNUMXD덴탈의 진정 명령은 INDEL 주변의 거짓 이형접합체를 줄이는 데 사용됩니다.

o 다수의 이배체 개체에 대해 SNP 및 짧은 인델 호출:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools 보기 -bcvg -> var.raw.bcf
bcftools 보기 var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

개인은 SM 태그 @RG 헤더 라인. 개인은 다음과 같을 수 있습니다.
하나의 정렬 파일에 풀링됨; 한 개인을 여러 파일로 분리할 수도 있습니다.
XNUMXD덴탈의 -P 옵션은 indel 후보가 읽기 그룹에서만 수집되어야 함을 지정합니다.
와 더불어 @RG-PL 로 설정된 태그 일루미나. 시퀀싱된 읽기에서 삽입 삭제 후보 수집
indel-prone 기술에 의해 indel 호출의 성능에 영향을 미칠 수 있습니다.

다음에 의해 호출될 수 있는 새로운 호출 모델이 있음에 유의하십시오.

bcftools 보기 -m0.99 ...

이는 기본 방법의 몇 가지 심각한 제한 사항을 수정합니다.

필터링의 경우 먼저 다음을 적용하면 최상의 결과를 얻을 수 있습니다. SnpGap 필터
그런 다음 기계 학습 접근 방식을 적용합니다.

vcf-주석 -f SnpGap=n
vcf 필터 ...

둘 다 다음에서 찾을 수 있습니다. vcftoolshtslib 패키지(아래 링크).

o 여러 개인의 사이트 목록에서 대립유전자 주파수 스펙트럼(AFS)을 도출합니다.

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools 보기 -bl 사이트.목록 all.bcf > 사이트.bcf
bcftools 보기 -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools 보기 -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools 보기 -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......

어디에 사이트 목록 참조로 구성된 각 줄이 있는 사이트 목록을 포함합니다.
시퀀스 이름 및 위치. 다음과 같은 bcftools 명령은 EM으로 AFS를 추정합니다.

o 다른 SNP 호출자에 대한 BAQ 적용 정렬 덤프:

samtools calmd -bAr aln.bam > aln.baq.bam

추가 및 수정합니다. NMMD 동시에 태그를 지정합니다. 그만큼 진정 명령도 온다
와 더불어 -C 옵션, 에 있는 것과 동일 쌓다mpileup. 도움이 된다면 신청하세요.

제한 사항


o bam_import.c, bam_endian.h, bam.c 및 bam_aux.c에서 사용된 정렬되지 않은 단어.

o Samtools paired-end rmdup은 페어링되지 않은 읽기(예: 고아 읽기 또는 종료)에 대해 작동하지 않습니다.
다른 염색체에 매핑됨). 이것이 우려되는 경우 Picard의
약간 느리지만 이러한 경우를 올바르게 처리하는 MarkDuplicate.

onworks.net 서비스를 사용하여 온라인에서 bcftools 사용


무료 서버 및 워크스테이션

Windows 및 Linux 앱 다운로드

Linux 명령

Ad