vcftools - 클라우드의 온라인

이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 vcftools 명령입니다.

프로그램:

이름


vcftools - VCF 파일 분석

개요


vcftools [옵션]

기술


vcftools 프로그램은 명령줄에서 실행됩니다. 인터페이스는 PLINK에서 영감을 얻었으며,
따라서 해당 패키지의 사용자에게 대체로 친숙해야 합니다. 명령은 다음 형식을 취합니다.

vcftools --vcf file1.vcf -chr 20 --freq

위의 명령은 vcftools에게 file1.vcf 파일을 읽고 다음 위치에서 사이트를 추출하도록 지시합니다.
20번 염색체를 분리하고 각 부위의 대립유전자 빈도를 계산합니다. 결과 대립 유전자
주파수 추정치는 출력 파일 out.freq에 저장됩니다. 위의 예에서와 같이,
vcftools의 출력은 주로 출력 파일로 전송됩니다.
화면을 표시합니다.

일부 명령은 최신 버전의 vcftools에서만 사용할 수 있습니다. 얻기 위해
최신 버전의 경우 에 설명된 대로 SVN을 사용하여 최신 코드를 체크아웃해야 합니다.
홈 페이지.

또한 배수체 유전자형은 현재 지원되지 않습니다.

Basic 옵션
-VCF
이 옵션은 처리할 VCF 파일을 정의합니다. 파일의 압축을 풀어야 합니다
vcftools와 함께 사용하기 전에. vcftools는 VCF 형식 v4.0의 파일을 예상합니다.
사양은 여기에서 찾을 수 있습니다.

-gzvcf
이 옵션은 --vcf 옵션 대신 사용하여 압축된(gzipped) 파일을 읽을 수 있습니다.
VCF 파일을 직접. 이 옵션은 큰
파일.

--밖
이 옵션은 vcftools에 의해 생성된 모든 파일의 출력 파일 이름 접두사를 정의합니다.
예를 들어 output_filename으로 설정하면 모든 출력 파일은
output_filename.*** 형식입니다. 이 옵션을 생략하면 모든 출력 파일이
접두사 'out.'이 있습니다.

사이트 필터 옵션
-CHR
염색체 식별자가 일치하는 사이트만 처리

-from-bp

---bp
이러한 옵션은 처리될 사이트의 물리적 범위를 정의합니다. 외부 사이트
이 범위에서 제외됩니다. 이 옵션은 다음과 함께만 사용할 수 있습니다.
-CHR.

-SNP
ID가 일치하는 SNP를 포함합니다. 이 명령은 순서대로 여러 번 사용할 수 있습니다.
둘 이상의 SNP를 포함합니다.

--snps
파일에 제공된 SNP 목록을 포함합니다. 파일에는 SNP ID 목록이 포함되어야 하며,
한 줄에 하나의 ID로.

--들어오지 못하게 하다
파일에 제공된 SNP 목록을 제외합니다. 파일에는 SNP ID 목록이 포함되어야 하며,
한 줄에 하나의 ID로.

--위치
위치 목록을 기반으로 사이트 세트를 포함합니다. 입력의 각 라인
파일에는 (탭으로 구분된) 염색체와 위치가 포함되어야 합니다. 파일은
헤더 라인이 있습니다. 목록에 포함되지 않은 사이트는 제외됩니다.

--침대

--제외 침대
BED 파일을 기반으로 사이트 집합을 포함하거나 제외합니다. 처음 XNUMX개만
열(chrom, chromStart 및 chromEnd)이 필요합니다. BED 파일에는 다음이 있어야 합니다.
헤더 라인.

-실패한 필터링

--제거 필터링

--필터링 유지
이러한 옵션은 FILTER 플래그를 기반으로 사이트를 필터링하는 데 사용됩니다. NS
첫 번째 옵션은 FILTER 플래그가 있는 모든 사이트를 제거합니다. 두 번째 옵션은 다음과 같이 사용할 수 있습니다.
특정 필터 플래그가 있는 사이트를 제외합니다. 세 번째 옵션을 사용하여 선택할 수 있습니다.
특정 필터 플래그를 기반으로 사이트. 두 번째 및 세 번째 옵션은
여러 FILTER를 지정하기 위해 여러 번 사용됩니다. --keep-filtered 옵션은
--remove-filtered 옵션 전에 적용됩니다.

-MINQ
품질이 이 임계값보다 높은 사이트만 포함합니다.

--최소 평균DP

-max-meandp
이러한 옵션에 의해 정의된 임계값 내에 평균 깊이가 있는 사이트를 포함합니다.

-MAF

-MAX-MAF
지정된 범위 내에서 Minor Allele Frequency가 있는 사이트만 포함합니다.

--비-ref-af

-max-non-ref-af
지정된 범위 내에서 비참조 대립유전자 빈도가 있는 사이트만 포함합니다.

--색조
다음으로 정의된 정확한 테스트를 사용하여 Hardy-Weinberg Equilibrium에 대한 사이트를 평가합니다.
Wigginton, Cutler 및 Abecasis (2005). 임계값 미만의 p-값을 갖는 사이트
이 옵션에 의해 정의된 것은 HWE 외부로 간주되어 제외됩니다.

--제노
누락된 데이터의 비율을 기준으로 사이트를 제외합니다(다음 사이로 정의됨
0 및 1).

--최소 대립유전자

--최대 대립 유전자
지정된 범위 내에 다수의 대립유전자가 있는 사이트만 포함합니다. 을위한
예를 들어 이중 대립 유전자 사이트만 포함하려면 다음을 사용할 수 있습니다.

vcftools --vcf file1.vcf--min-alleles 2-max-alleles 2

--마스크

-- 마스크 반전

--마스크-최소
FASTA와 같은 파일을 기반으로 사이트를 포함합니다. 제공된 파일에는
염색체의 각 위치에 대한 정수(0에서 9 사이)의 시퀀스
해당 위치의 사이트를 필터링할지 여부를 지정합니다. 예제 마스크 파일
다음과 같이 보일 것입니다.

>1
0000011111222 ...

이 예에서 VCF 파일의 사이트는
염색체 1의 시작은 유지되는 반면 위치 6 이후의 사이트는 유지됩니다.
필터링되었습니다. 사이트 필터링 여부를 결정하는 임계값 정수는
--mask-min 옵션을 사용하여 설정하며 기본값은 0입니다.
마스크 파일은 VCF 파일과 같은 순서로 정렬되어야 합니다. --mask 옵션
사용할 마스크 파일을 지정하는 데 사용되는 반면 --invert-mask 옵션은
적용하기 전에 반전될 마스크 파일을 지정하는 데 사용됩니다.

개인 필터
--indv
분석에 보관할 개인을 지정합니다. 이 옵션은 여러 번 사용할 수 있습니다.
여러 개인을 지정하는 시간.

--유지하다
후속 분석에 포함할 개인 목록이 포함된 파일을 제공합니다.
VCF 헤더라인에 정의된 각 개별 ID는
별도의 줄.

--제거-indv
분석에서 제거할 개인을 지정합니다. 이 옵션을 사용할 수 있습니다
여러 개인을 지정하려면 여러 번. --indv 옵션도 있는 경우
지정된 경우 --remove-indv 옵션보다 --indv 옵션이 먼저 실행됩니다.

--제거하다
후속 분석에서 제외할 개인 목록이 포함된 파일을 제공합니다.
VCF 헤더라인에 정의된 각 개별 ID는
별도의 줄. --keep 및 --remove 옵션을 모두 사용하는 경우
--keep 옵션은 --remove 옵션보다 먼저 실행됩니다.

-Mon-indv-meandp

-max-indv-meandp
개인별로 평균 적용 범위를 계산합니다. 를 가진 개인만
이 옵션에 의해 지정된 범위 내의 적용 범위는 후속
복수.

--정신
각 개인에 대한 최소 통화 속도 임계값을 지정합니다.

--단계적
먼저 단계화되지 않은 모든 유전자형을 가진 모든 개인을 제외하고 이후에
단계화되지 않은 유전자형이 있는 모든 부위를 제외합니다. 따라서 나머지 데이터는
단계적 데이터만 해당됩니다.

유전자형 필터
--제거-필터링-geno-all

-프레임 필터링 게노
첫 번째 옵션은 FILTER 플래그가 있는 모든 유전자형을 제거합니다. 두 번째 옵션은
특정 필터 플래그가 있는 유전자형을 제외하는 데 사용됩니다.

-MINGQ
이 옵션에 의해 지정된 임계값 미만의 품질을 가진 모든 유전자형을 제외합니다.
(지큐).

-Mindp
이 옵션에 의해 지정된 것보다 아래에 시퀀싱 깊이가 있는 모든 유전자형을 제외합니다.
(DP)

산출 통계
--주파수

--카운트

--주파수2

--카운트2
사이트별 주파수 정보를 출력합니다. --freq는 a의 대립유전자 빈도를 출력합니다.
접미사가 '.frq'인 파일입니다. --counts 옵션은 다음과 유사한 파일을 출력합니다.
접미사 '.frq.count', 각 사이트의 원시 대립 유전자 수를 포함합니다. --freq2
및 --count2 옵션은 출력 파일에서 대립 유전자 정보를 억제하는 데 사용됩니다. 에
이 경우 주파수/카운트의 순서는 VCF 파일의 번호에 따라 다릅니다.

--깊이
개인별 평균 깊이를 포함하는 파일을 생성합니다. 이 파일에는 접미사가 있습니다.
'.심도'.

--사이트 깊이

--사이트 평균 깊이
사이트당 깊이가 포함된 파일을 생성합니다. --site-depth 옵션은 다음을 출력합니다.
개인에 걸쳐 합산된 각 사이트의 깊이. 이 파일에는 '.ldepth' 접미사가 있습니다.
마찬가지로 --site-mean-depth는 각 사이트의 평균 깊이를 출력하고,
출력 파일에는 '.ldepth.mean' 접미사가 있습니다.

--제노 깊이
각 유전자형에 대한 깊이를 포함하는 (매우 큰) 파일을 생성합니다.
VCF 파일. 누락된 항목에는 -1 값이 지정됩니다. 파일에는 접미사가 있습니다.
'.g깊이'.

--사이트 품질
QUAL 열에 있는 사이트별 SNP 품질을 포함하는 파일을 생성합니다.
VCF 파일의 이 파일에는 '.lqual' 접미사가 있습니다.

--헷 개인별로 이형접합의 측정값을 계산합니다. 구체적으로,
근친 교배 계수 F는 다음 방법을 사용하여 각 개인에 대해 추정됩니다.
순간. 결과 파일에는 '.het' 접미사가 있습니다.

--튼튼한
Hardy-Weinberg Equilibrium test(정의된 대로)에서 각 사이트에 대한 p-값을 보고합니다.
Wigginton, Cutler 및 Abecasis (2005)). 결과 파일(접미사 '.hwe' 포함)
또한 관찰된 수의 동형 접합체 및 이형 접합체 및
HWE에서 해당하는 예상 숫자.

--잃어버린
개인별 및 사이트별 누락을 보고하는 두 개의 파일 생성
기초. 두 파일에는 각각 '.imiss' 및 '.lmiss' 접미사가 있습니다.

-HAP-R2

-Geno-R2

--ld-창

--ld-창-bp

-MIN-R2
이러한 옵션은 연결 불균형(LD) 통계를 다음과 같이 보고하는 데 사용됩니다.
r2 통계로 요약됩니다. --hap-r2 옵션은 vcftools에 다음을 출력하도록 알립니다.
단계적 일배체형을 사용하여 r2 통계를 보고하는 파일입니다. 이것은 전통적인
인구 유전학 문헌에서 종종 보고되는 LD의 측정. 단계적일 경우
haplotypes를 사용할 수 없는 경우 --geno-r2 옵션을 사용할 수 있습니다.
0, 1 및 2로 인코딩된 유전자형 간의 제곱 상관 계수
각 개인의 비참조 대립유전자의 수를 나타냅니다. 이것은 동일하다
PLINK에서 보고한 LD 측정값으로. haplotype 버전은 다음이 포함된 파일을 출력합니다.
접미사 '.hap.ld', 유전자형 버전은 접미사가 있는 파일을 출력합니다.
'.geno.ld'. haplotype 버전은 --phased 옵션을 의미합니다.

--ld-window 옵션은 다음 계산을 위한 최대 SNP 분리를 정의합니다.
LD. 마찬가지로 --ld-window-bp 옵션을 사용하여 최대 물리적
LD 계산에 포함된 SNP의 분리. 마지막으로 --min-r2는
LD 통계가 보고되지 않는 r2의 최소값.

--SNPdnity
이 옵션으로 정의된 크기의 빈에서 SNP의 수와 밀도를 계산합니다.
결과 출력 파일에는 '.snpden' 접미사가 있습니다.

-TSTV
다음으로 정의된 크기의 빈에서 전환/전환 비율을 계산합니다.
옵션. 결과 출력 파일에는 '.TsTv' 접미사가 있습니다. 요약도
접미사가 '.TsTv.summary'인 파일에 제공됩니다.

--FILTER-요약
각 FILTER 범주에 대한 SNP 및 Ts/Tv 비율의 요약을 생성합니다.
출력 파일에는 '.FILTER.summary' 접미사가 있습니다.

--필터링된 사이트
필터링 후 유지되거나 제거된 사이트를 나열하는 두 개의 파일을 만듭니다. NS
접미사가 '.kept.sites'인 첫 번째 파일은 필터 후 vcftools에서 보관하는 사이트를 나열합니다.
적용되었습니다. 접미사가 '.removed.sites'인 두 번째 파일은 사이트를 나열합니다.
적용된 필터에 의해 제거됩니다.

--싱글톤
이 옵션은 싱글톤의 위치를 ​​자세히 설명하는 파일을 생성하고
이 파일은 진정한 싱글톤과 개인 데이터를 모두 보고합니다.
이중톤(즉, 소수 대립유전자가 한 개인에게만 발생하는 SNP 및
그 개인은 그 대립 유전자에 대해 동형 접합체입니다). 출력 파일에는 접미사가 있습니다.
'싱글톤'.

--사이트 파이

--윈도우 파이
이러한 옵션은 뉴클레오티드 다양성 수준을 추정하는 데 사용됩니다. 첫 번째 옵션
사이트별로 이 작업을 수행하며 출력 파일에는 '.sites.pi' 접미사가 있습니다. NS
두 번째 옵션은 창 크기를 사용하여 창의 뉴클레오티드 다양성을 계산합니다.
옵션 인수에 정의되어 있습니다. 이 옵션의 출력에는 접미사가 있습니다.
'.windowed.pi'. 창 버전에는 단계별 데이터가 필요하므로 이를 사용합니다.
옵션은 --phased 옵션을 의미합니다.

산출 in 기타 형식
-O12 이 옵션은 유전자형을 큰 매트릭스로 출력합니다. XNUMX개의 파일이 생성됩니다. NS
첫째, 접미사 '.012'를 사용하여 별도의 각 개인의 유전자형을 포함합니다.
선. 유전자형은 0, 1 및 2로 표시되며, 여기서 숫자는 다음을 나타냅니다.
비참조 대립유전자의 수. 누락된 유전자형은 -1로 표시됩니다. NS
두 번째 파일, 접미사 '.012.indv'가 포함된 주 파일에 포함된 개인 정보
파일. 접미사 '.012.pos'가 포함된 세 번째 파일은 에 포함된 사이트 위치를 자세히 설명합니다.
메인 파일.

--돌리다
이 옵션은 IMPUTE 참조 패널 형식의 단계별 일배체형을 출력합니다. IMPUTE로
단계적 데이터가 필요하며 이 옵션을 사용하면 --phased도 의미합니다. 무단계
따라서 개인과 유전자형은 제외됩니다. 이중 대립 유전자 사이트만
출력에 포함됩니다. 이 옵션을 사용하면 세 개의 파일이 생성됩니다. 임퓨트
haplotype 파일에는 '.impute.hap' 접미사가 있고 IMPUTE 범례 파일에는
접미사 '.impute.hap.legend'. 접미사 '.impute.hap.indv'가 있는 세 번째 파일,
이 파일은 아니지만 haplotype 파일에 포함된 개인을 자세히 설명합니다.
IMPUTE에 필요합니다.

-ldhat

-Ldhat-geno
이 옵션은 LDhat 형식으로 데이터를 출력합니다. 이러한 옵션을 사용하려면 다음이 필요합니다.
--chr 옵션을 사용합니다. --ldhat 옵션은 단계적 데이터만 출력하므로
또한 단계화되지 않은 개인 및 유전자형으로 이어지는 단계적을 의미합니다.
제외 된. 또는 --ldhat-geno 옵션은 모든 데이터를 다음과 같이 처리합니다.
비위상이므로 LDhat 파일을 유전자형/비위상 형식으로 출력합니다. 어느 쪽이든
이 경우 접미사 '.ldhat.sites' 및 '.ldhat.locs'가 포함된 두 개의 파일이 생성됩니다.
이는 각각 LDhat 'sites' 및 'locs' 입력 파일에 해당합니다.

--비글-GL
이 옵션은 BEAGLE에 입력하기 위한 유전자형 우도 정보를 출력합니다.
프로그램. 이 옵션을 사용하려면 VCF 파일에 FORMAT GL 태그가 있어야 합니다.
일반적으로 GATK와 같은 SNP 호출자에 의해 출력됩니다. 이 옵션을 사용하려면
--chr 옵션을 통해 지정되는 염색체. 결과 출력 파일(
접미사 '.BEAGLE.GL')은 이대립유전자 부위에 대한 유전자형 가능성을 포함하며 다음과 같습니다.
'like=' 인수를 통해 BEAGLE에 입력하기에 적합합니다.

--플링크
이 옵션은 유전자형 데이터를 PLINK PED 형식으로 출력합니다. 두 개의 파일이 생성되고,
접미사 '.ped' 및 '.map'. bi-allelic loci만 출력됩니다.
이러한 파일에 대한 자세한 내용은 PLINK 설명서에서 찾을 수 있습니다.

참고: 이 옵션은 대규모 데이터세트에서 매우 느릴 수 있습니다. --chr 옵션을 사용하여
데이터 세트를 나누는 것이 좋습니다.

-Plink-ted
위의 --plink 옵션은 대규모 데이터 세트에서 매우 느릴 수 있습니다. 대안
PLINK 조옮김 형식으로 출력하는 것이 훨씬 빠를 수 있습니다.
이것은 두 개의 파일을 생성하는 --plink-tped 옵션을 사용하여 달성할 수 있습니다.
접미사 '.tped' 및 '.tfam'.

--재코드
--recode 옵션은 다음을 포함하는 입력 VCF 파일에서 VCF 파일을 생성하는 데 사용됩니다.
사용자가 지정한 옵션을 적용했습니다. 출력 파일에는 접미사가 있습니다.
'.recode.vcf'.

기본적으로 INFO 필드는 INFO 값으로 출력 파일에서 제거됩니다.
레코딩에 의해 무효화될 수 있습니다(예: 전체 깊이가
개인이 제거된 경우 다시 계산됨). 이 기본 기능은
--keep-INFO를 사용하여 재정의 옵션, 여기서 정의
출력 파일에 보관할 INFO 키입니다. --keep-INFO 플래그는 여러 번 사용할 수 있습니다.
타임스. 또는 --keep-INFO-all 옵션을 사용하여 모든 INFO를 유지할 수 있습니다.
입력란에 입력 할 수 있습니다.

그 외
--extract-FORMAT-정보
지정된 VCF 파일의 유전자형 필드에서 정보를 추출합니다.
형식 식별자. 예를 들어 '--extract-FORMAT-info GT' 옵션을 사용하면
모든 GT(즉, 유전자형) 항목을 추출합니다. 결과 출력 파일에는
접미사 '. .체재'.

--정보를 얻다
이 옵션은 VCF 파일의 INFO 필드에서 정보를 추출하는 데 사용됩니다. NS
인수는 추출할 INFO 태그를 지정하고 옵션은
여러 INFO 항목을 추출하기 위해 여러 번 사용됩니다. 결과 파일,
접미사 '.INFO'가 있는 탭으로 구분된 필수 INFO 정보 포함
테이블. 예를 들어 NS 및 DB 플래그를 추출하려면 다음 명령을 사용합니다.

vcftools --vcf file1.vcf --get-info ns-get-info db

VCF 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에 비교 옵션
파일 비교 옵션은 현재 유동적이며 버그가 있을 수 있습니다. 만약 너라면
버그를 찾으면 신고해 주세요. 유전자형 수준 필터는 다음에서 지원되지 않습니다.
옵션을 제공합니다.

--차이

-Gzdiff
--vcf 옵션으로 지정된 파일과 비교할 VCF 파일을 선택합니다.
각각에 공통/고유한 사이트 및 개인을 설명하는 두 개의 파일을 출력합니다.
파일. 이 파일에는 '.diff.sites_in_files' 접미사가 있으며
각각 '.diff.indv_in_files'. --gzdiff 버전을 사용하여 읽을 수 있습니다.
압축된 VCF 파일.

-디프 사이드-디스코언스
--diff 옵션과 함께 사용하여 사이트의 불일치를 계산합니다.
사이트 기준. 결과 출력 파일에는 '.diff.sites' 접미사가 있습니다.

-diff-indv-discordance
--diff 옵션과 함께 사용하여 per-에 대한 불일치를 계산합니다.
개인 기준. 결과 출력 파일에는 '.diff.indv' 접미사가 있습니다.

-diff-discordance-matrix
불일치 행렬을 계산하기 위해 --diff 옵션과 함께 사용됩니다. 이것
옵션은 에 존재하는 일치하는 대립 유전자가 있는 이중 대립 유전자 좌에서만 작동합니다.
두 파일 모두. 결과 출력 파일에는 '.diff.discordance.matrix' 접미사가 있습니다.

-diff-switch-error
--diff 옵션과 함께 사용하여 위상 오류를 계산합니다.
(특히 '스위치 오류'). 이 옵션은 다음을 설명하는 두 개의 출력 파일을 생성합니다.
사이트 간 스위치 오류 및 개인별 평균 스위치 오류.
이 두 파일에는 '.diff.switch' 및 '.diff.indv.switch' 접미사가 있습니다.
각각.

옵션 여전히 in 개발
다음 옵션은 아직 확정되지 않았으며 버그를 포함할 가능성이 있으며 가능성이 있습니다.
미래에 변화하기 위해.

-FST

-gzfst
두 번째 파일이 다음으로 지정되는 VCF 파일 쌍에 대한 FST를 계산합니다.
옵션. FST는 현재 에 설명된 공식을 사용하여 계산됩니다.
Phase I HapMap 논문의 보충 자료. 현재는 pairwise FST만
향후 변경될 가능성이 높지만 계산이 지원됩니다. NS
--gzfst 옵션을 사용하여 압축된 VCF 파일을 읽을 수 있습니다.

--LROH 장기간의 동형 접합을 식별합니다.

--관련성
개별 관련성 통계를 출력합니다.

onworks.net 서비스를 사용하여 온라인으로 vcftools 사용



최신 Linux 및 Windows 온라인 프로그램