vcftools - クラウドでオンライン

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド vcftools です。

プログラム:

NAME


vcftools - VCF ファイルを分析する

SYNOPSIS


vcfツール [OPTIONS]

DESCRIPTION


vcftools プログラムはコマンド ラインから実行されます。 インターフェイスは PLINK からインスピレーションを受けており、
そのため、そのパッケージのユーザーにはよく知られているはずです。 コマンドは次の形式を取ります。

vcftools --vcf file1.vcf --chr 20 --freq

上記のコマンドは、vcftools に file1.vcf ファイルを読み取り、サイトを抽出するように指示します。
20番染色体を調べ、各部位の対立遺伝子頻度を計算します。 結果として生じる対立遺伝子
周波数推定値は出力ファイル out.freq に保存されます。 上の例のように、
vcftools からの出力は、
を選択して、後処理画面に進みます。

一部のコマンドは、vcftools の最新バージョンでのみ使用できる場合があることに注意してください。 入手するには
最新バージョンの場合は、「」で説明されているように、SVN を使用して最新のコードをチェックアウトする必要があります。
ホームページ。

また、倍数体の遺伝子型は現在サポートされていないことにも注意してください。

Basic オプション
--vcf
このオプションは、処理する VCF ファイルを定義します。 ファイルを解凍する必要がある
vcftools を使用する前に。 vcftools は、VCF 形式 v4.0 のファイルを想定しています。
その仕様はここでご覧いただけます。

--gzvcf
このオプションは、--vcf オプションの代わりに使用して、圧縮 (gzip 圧縮) を読み取ることができます。
VCF ファイルを直接。 このオプションは、大規模な環境で使用すると非常に遅くなる可能性があることに注意してください。
ファイル。

- アウト
このオプションは、vcftools によって生成されるすべてのファイルの出力ファイル名のプレフィックスを定義します。
たとえば、次の場合がoutput_filenameに設定されている場合、すべての出力ファイルは
Output_filename.*** の形式。 このオプションを省略した場合、すべての出力ファイルは
接頭辞「out.」が付きます。

Site フィルタ オプション
--chr
一致する染色体識別子を持つサイトのみを処理します

--from-bp

--to-bp
これらのオプションは、処理されるサイトの物理的な範囲を定義します。 外部のサイト
この範囲のものは除外されます。 これらのオプションは、以下と組み合わせてのみ使用できます。
--chr.

--snp
一致する ID を持つ SNP を含めます。 このコマンドは順番に複数回使用できます。
複数の SNP を含める。

--snps
ファイルに指定された SNP のリストを含めます。 ファイルには SNP ID のリストが含まれている必要があります。
XNUMX 行に XNUMX つの ID を指定します。

-除外する
ファイルに指定された SNP のリストを除外します。 ファイルには SNP ID のリストが含まれている必要があります。
XNUMX 行に XNUMX つの ID を指定します。

--位置
ポジションのリストに基づいて一連のサイトを含めます。 入力の各行
ファイルには、(タブで区切られた)染色体と位置が含まれている必要があります。 ファイルは、
ヘッダー行があります。 リストに含まれていないサイトは除外されます。

- ベッド

--ベッドを除く
BED ファイルに基づいて、一連のサイトを含めるか除外します。 最初のXNUMXつだけ
列 (chrom、chromStart、および chromEnd) が必要です。 BED ファイルには
ヘッダー行。

--フィルター処理されたすべてを削除

--remove-filtered

--keep-filtered
これらのオプションは、FILTER フラグに基づいてサイトをフィルタリングするために使用されます。 の
最初のオプションは、FILTER フラグを持つすべてのサイトを削除します。 XNUMX 番目のオプションは次の目的で使用できます。
特定のフィルター フラグを持つサイトを除外します。 XNUMX 番目のオプションを使用して選択できます。
特定のフィルター フラグに基づいてサイトを検索します。 XNUMX 番目と XNUMX 番目のオプションは次のとおりです。
複数の FILTER を指定するために複数回使用されます。 --keep-filtered オプションは次のとおりです。
--remove-filtered オプションの前に適用されます。

--minQ
このしきい値を超える品質を持つサイトのみを含めます。

--min-meanDP

--最大平均DP
これらのオプションで定義されたしきい値内の平均深度を持つサイトが含まれます。

--maf

--マックスマフ
指定された範囲内のマイナー対立遺伝子頻度を持つサイトのみを含めます。

--non-ref-af

--max-non-ref-af
指定された範囲内の非参照対立遺伝子頻度を持つサイトのみを含めます。

-色相
で定義されているとおり、厳密検定を使用してハーディ・ワインバーグ平衡の部位を評価します。
ウィギントン、カトラー、アベカシス (2005)。 p値が閾値を下回るサイト
このオプションで定義されたものは HWE の対象外とみなされ、除外されます。

--ジェノ
欠損データの割合に基づいてサイトを除外します (以下の範囲内であると定義されます)。
0と1)

--min-対立遺伝子

--max-対立遺伝子
指定された範囲内の対立遺伝子数を持つサイトのみを含めます。 ために
たとえば、両対立遺伝子部位のみを含めるには、次のように使用できます。

vcftools --vcf file1.vcf --min-alleles 2 --max-alleles 2

- マスク

--反転マスク

--マスク分
FASTA のようなファイルに基づいてサイトを含めます。 提供されたファイルには、
染色体上の各位置の整数 (0 から 9 の間) のシーケンス。
その位置にあるサイトをフィルタリングするかどうかを指定します。 マスクファイルの例
次のようになります:

>1
0000011111222 ...

この例では、VCF ファイル内のサイトは、
染色体 1 の先頭は維持されますが、6 位以降の部位は維持されます。
除外された。 サイトがフィルタリングされるかどうかを決定する整数のしきい値は次のとおりです。
--mask-min オプションを使用して設定します。デフォルトは 0 です。
マスク ファイルは VCF ファイルと同じ順序で並べ替える必要があります。 --mask オプション
は使用するマスク ファイルを指定するために使用されますが、 --invert-mask オプションは
適用前に反転されるマスク ファイルを指定するために使用されます。

個々の フィルタ
--indv
分析に残す個人を指定します。 このオプションは複数使用できます
複数の個人を指定する場合に使用します。

- 保つ
その後の分析に含める個人のリストを含むファイルを提供します。
個々の ID (VCF ヘッダーラインで定義されている) は、
別の行。

--remove-indv
分析から除外する個人を指定します。 このオプションは使用できます
複数の個人を指定するには、複数回使用します。 --indv オプションも指定されている場合
指定すると、--remove-indv オプションの前に --indv オプションが実行されます。

- 削除する
その後の分析で除外する個人のリストを含むファイルを提供します。
個々の ID (VCF ヘッダーラインで定義されている) は、
別の行。 --keep オプションと --remove オプションの両方が使用されている場合、
--keep オプションは、--remove オプションの前に実行されます。

--mon-indv-meanDP

--max-indv-meanDP
個人ごとに平均適用範囲を計算します。 を持つ個人のみ
これらのオプションで指定された範囲内のカバレッジは、後続のオプションに含まれます。
分析します。

- マインド
各個人の最小通話レートのしきい値を指定します。

--段階的
まず段階化されていないすべての遺伝子型を持つすべての個体を除外し、その後
未段階の遺伝子型を持つすべてのサイトを除外します。 したがって、残りのデータは次のようになります。
段階的なデータのみ。

遺伝子型 フィルタ
--remove-filtered-geno-all

--remove-filtered-geno
最初のオプションは、FILTER フラグを持つすべての遺伝子型を削除します。 XNUMX 番目のオプションは次のとおりです
特定のフィルター フラグを使用して遺伝子型を除外するために使用されます。

--minGQ
このオプションで指定されたしきい値を下回る品質を持つすべての遺伝子型を除外します
(GQ)。

--minDP
このオプションで指定したシーケンス深度よりも低いすべての遺伝子型を除外します。
(DP)

出力 統計
--頻度

--カウント

--freq2

--counts2
サイトごとの周波数情報を出力します。 --freq は対立遺伝子の頻度を出力します。
拡張子「.frq」が付いたファイル。 --counts オプションは、次のような同様のファイルを出力します。
接尾辞「.frq.count」には、各サイトの生の対立遺伝子数が含まれます。 --freq2
および --count2 オプションは、出力ファイル内の対立遺伝子情報を抑制するために使用されます。 の
この場合、周波数/カウントの順序は VCF ファイル内の番号付けによって決まります。

- 深さ
個人ごとの平均深度を含むファイルを生成します。 このファイルには接尾辞が付いています
「.i Depth」。

-- サイトの深さ

-- サイト平均深度
サイトごとの深さを含むファイルを生成します。 --site- Depth オプションは、
各サイトの深さを個人全体で合計したもの。 このファイルには「.l Depth」という接尾辞が付いています。
同様に、 --site-mean- Depth は各サイトの平均深度を出力します。
出力ファイルには接尾辞「.l Depth.mean」が付きます。

--遺伝子の深さ
各遺伝子型の深さを含む (おそらく非常に大きな) ファイルを生成します。
VCF ファイル。 欠落しているエントリには値 -1 が与えられます。 ファイルには接尾辞が付いています
「.g深さ」。

--サイトの品質
QUAL 列にあるように、サイトごとの SNP 品質を含むファイルを生成します。
VCF ファイルの。 このファイルには「.lqual」という接尾辞が付いています。

--ヘット 個人ごとにヘテロ接合性の尺度を計算します。 具体的には、
近親交配係数 F は、次の方法を使用して各個体について推定されます。
瞬間。 結果のファイルには「.het」という接尾辞が付きます。

--丈夫な
Hardy-Weinberg 平衡検定 (定義どおり) から各サイトの p 値をレポートします。
ウィギントン、カトラー、アベカシス著 (2005))。 結果のファイル (接尾辞「.hwe」付き)
ホモ接合体とヘテロ接合体の観察数も含まれています。
HWE での対応する期待される数値。

- ない
個人ごとおよびサイトごとに欠落を報告する XNUMX つのファイルを生成します
基礎。 XNUMX つのファイルにはそれぞれ「.imiss」と「.lmiss」というサフィックスが付いています。

--hap-r2

--geno-r2

--ld-ウィンドウ

--ld-ウィンドウ-bp

--min-r2
これらのオプションは、連鎖不均衡 (LD) 統計をレポートするために使用されます。
r2 統計によって要約されます。 --hap-r2 オプションは、vcftools に、
段階的ハプロタイプを使用して r2 統計を報告するファイル。 これは伝統的なものです
集団遺伝学の文献でよく報告される LD の尺度。 段階的に行う場合
ハプロタイプが利用できない場合は、 --geno-r2 オプションを使用できます。
0、1、2 としてエンコードされた遺伝子型間の二乗相関係数
各個体の非参照対立遺伝子の数を表します。 これも同じです
PLINK によって報告された LD 対策として。 ハプロタイプのバージョンは、次のファイルを出力します。
接尾辞「.hap.ld」が付いていますが、遺伝子型バージョンでは接尾辞が付いているファイルが出力されます。
「.geno.ld」。 ハプロタイプ バージョンには、オプション --phased が含まれます。

--ld-window オプションは、次の計算のための最大 SNP 分離を定義します。
LD。 同様に、 --ld-window-bp オプションを使用して、最大物理ウィンドウを定義できます。
LD 計算に含まれる SNP の分離。 最後に、 --min-r2 は
r2 の最小値。この値を下回ると LD 統計は報告されません。

--SNPdnsity
このオプションで定義されたサイズのビン内の SNP の数と密度を計算します。
結果の出力ファイルには接尾辞「.snpden」が付きます。

--TsTV
これで定義されたサイズのビンで遷移/遷移比率を計算します。
オプション。 結果の出力ファイルには接尾辞「.TsTv」が付きます。 概要も
接尾辞「.TsTv.summary」が付いたファイルで提供されます。

--FILTER-概要
各フィルター カテゴリの SNP 数と Ts/Tv 比の概要を生成します。
出力ファイルには接尾辞「.FILTER.summary」が付きます。

--フィルターされたサイト
フィルタリング後に保持または削除されたサイトをリストする XNUMX つのファイルを作成します。 の
最初のファイルはサフィックス「.kept.sites」が付いており、フィルター後に vcftools によって保持されるサイトをリストします。
適用されています。 XNUMX 番目のファイルには「.removed.sites」という接尾辞が付いており、サイトのリストが表示されます。
適用されたフィルターによって除去されます。

--シングルトン
このオプションは、シングルトンの場所を詳細に示すファイルを生成します。
このファイルは、真のシングルトンとプライベートの両方を報告します。
ダブルトン (つまり、マイナー対立遺伝子が XNUMX 人の個体にのみ存在し、
その個体はその対立遺伝子に関してホモ接合性である)。 出力ファイルには接尾辞が付きます。
'.singletons'。

--site-pi

--ウィンドウパイ
これらのオプションは、ヌクレオチドの多様性のレベルを推定するために使用されます。 最初のオプション
これはサイトごとに行われ、出力ファイルには接尾辞「.sites.pi」が付きます。 の
XNUMX 番目のオプションは、ウィンドウ サイズを使用してウィンドウ内のヌクレオチド多様性を計算します。
オプション引数で定義されます。 このオプションの出力には接尾辞が付きます。
「.windowed.pi」。 ウィンドウ版では段階的なデータが必要なため、これを使用します。
オプションは --phased オプションを意味します。

出力 in その他 フォーマット
--O12 このオプションは、遺伝子型を大きな行列として出力します。 XNUMX つのファイルが生成されます。 の
まず、接尾辞 '.012' が付いており、個別の各個人の遺伝子型が含まれています。
ライン。 遺伝子型は 0、1、2 で表され、数字はそれを表します。
非参照対立遺伝子の数。 欠落している遺伝子型は -1 で表されます。 の
012 番目のファイルには、サフィックス「.XNUMX.indv」が付いており、メイン ファイルに含まれる個人の詳細が記載されています。
ファイル。 接尾辞「.012.pos」が付いた XNUMX 番目のファイルには、含まれるサイトの場所の詳細が記載されています。
メインファイル。

--IMPUTE
このオプションは、フェーズ化されたハプロタイプを IMPUTE 参照パネル形式で出力します。 インピュートとして
段階的なデータが必要なため、このオプションを使用すると --phased も意味します。 段階的ではない
したがって、個人と遺伝子型は除外されます。 両対立遺伝子部位のみが
出力に含まれます。 このオプションを使用すると、XNUMX つのファイルが生成されます。 インピュート
haplotype ファイルには接尾辞「.impute.hap」が付き、IMPUTE 凡例ファイルには
接尾辞「.impute.hap.legend」。 XNUMX 番目のファイルは、サフィックス「.impute.hap.indv」が付いています。
ハプロタイプ ファイルに含まれる個人の詳細を示しますが、このファイルはそうではありません。
IMPUTE に必要です。

--ldhat

--ldhat-geno
これらのオプションは、データを LDhat 形式で出力します。 これらのオプションを使用するには、次のことも必要です。
--chr オプションが使用されます。 --ldhat オプションは段階的なデータのみを出力するため、
また、 --phased を意味し、段階のない個体と遺伝子型が生成されます。
除外されます。 あるいは、 --ldhat-geno オプションは、すべてのデータを次のように扱います。
アンフェーズであるため、LDhat ファイルをジェノタイプ/アンフェーズ形式で出力します。 どちらでも
この場合、「.ldhat.sites」と「.ldhat.locs」というサフィックスが付いた XNUMX つのファイルが生成されます。
これらは、それぞれ LDhat の「sites」入力ファイルと「locs」入力ファイルに対応します。

--ビーグル-GL
このオプションは、BEAGLE への入力用の遺伝子型尤度情報を出力します。
プログラム。 このオプションでは、VCF ファイルに FORMAT GL タグが含まれている必要があります。
通常、GATK などの SNP 呼び出し元によって出力されます。 このオプションを使用するには、
染色体は --chr オプションで指定します。 結果の出力ファイル (
接尾辞 '.BEAGLE.GL') には、両対立遺伝子部位の遺伝子型の可能性が含まれており、
「like=」引数を介した BEAGLE への入力に適しています。

--チクチク
このオプションは、遺伝子型データを PLINK PED 形式で出力します。 XNUMXつのファイルが生成されますが、
接尾辞「.ped」および「.map」が付きます。 両対立遺伝子座のみが出力されることに注意してください。
これらのファイルの詳細については、PLINK ドキュメントを参照してください。

注: このオプションは、大規模なデータセットでは非常に遅くなる可能性があります。 --chr オプションを使用すると、
データセットを分割することをお勧めします。

--plink-tped
上記の --plink オプションは、大規模なデータセットでは非常に遅くなる可能性があります。 代替案
PLINK 転置形式で出力すると、かなり高速になる可能性があります。
これは --plink-tped オプションを使用して実現できます。これにより、次の XNUMX つのファイルが生成されます。
サフィックス「.tped」および「.tfam」。

--recode
--recode オプションは、次のような入力 VCF ファイルから VCF ファイルを生成するために使用されます。
ユーザーが指定したオプションを適用しました。 出力ファイルには接尾辞が付きます。
「.recode.vcf」。

デフォルトでは、INFO フィールドは INFO 値として出力ファイルから削除されます。
再コーディングによって無効になる可能性があります (たとえば、合計の深度は
個人が削除された場合は再計算されます)。 このデフォルトの機能は次のとおりです。
--keep-INFO を使用してオーバーライドされるオプション、ここでを定義します
出力ファイルに保持する INFO キー。 --keep-INFO フラグは複数使用できます。
回。 あるいは、オプション --keep-INFO-all を使用して、すべての情報を保持することもできます。
フィールド。

その他
--抽出フォーマット情報
指定されたデータに関連する VCF ファイル内の遺伝子型フィールドから情報を抽出します。
フォーマット識別子。 たとえば、オプション「--extract-FORMAT-info GT」を使用すると、次のようになります。
すべての GT (Genotype) エントリを抽出します。 結果の出力ファイルは次のようになります。
接尾辞「。 。フォーマット'。

- 情報を取得
このオプションは、VCF ファイルの INFO フィールドから情報を抽出するために使用されます。 の
引数は抽出する INFO タグを指定します。オプションは次のとおりです。
複数の INFO エントリを抽出するために複数回使用されます。 結果として得られるファイルは、
接尾辞「.INFO」が付き、必要な INFO 情報がタブ区切りで含まれます。
テーブル。 たとえば、NS フラグと DB フラグを抽出するには、次のコマンドを使用します。

vcftools --vcf file1.vcf --get-INFO NS --get-INFO DB

VCF File 比較 オプション
ファイル比較オプションは現在流動的な状態にあり、バグが多い可能性があります。 もし、あんたが
バグを見つけたら報告してください。 遺伝子型レベルのフィルターはこれらではサポートされていないことに注意してください。
オプション。

--差分

--gzdiff
--vcf オプションで指定されたファイルと比較する VCF ファイルを選択します。
それぞれに共通/固有のサイトと個人を記述した XNUMX つのファイルを出力します
ファイル。 これらのファイルには「.diff.sites_in_files」という接尾辞が付いています。
それぞれ「.diff.indv_in_files」。 --gzdiff バージョンを使用して読み取ることができます。
圧縮された VCF ファイル。

--diff-site-discordance
--diff オプションと組み合わせて使用​​し、サイト上の不一致を計算します。
サイトベース。 結果の出力ファイルには「.diff.sites」という接尾辞が付きます。

--diff-indv-不一致
--diff オプションと組み合わせて使用​​して、単位ごとの不一致を計算します。
個人ベース。 結果の出力ファイルには「.diff.indv」という接尾辞が付きます。

-- 差分不一致行列
--diff オプションと組み合わせて使用​​して、不一致行列を計算します。 これ
このオプションは、一致する対立遺伝子を持つ二重対立遺伝子座でのみ機能します。
両方のファイル。 結果の出力ファイルには「.diff.discordance.matrix」という接尾辞が付きます。

--diff-switch-error
--diff オプションと組み合わせて使用​​して、位相誤差を計算します。
(具体的には「スイッチエラー」)。 このオプションは、次の内容を説明する XNUMX つの出力ファイルを生成します。
サイト間で見つかったスイッチ エラー、および個人ごとの平均スイッチ エラー。
これら XNUMX つのファイルには、「.diff.switch」および「.diff.indv.switch」というサフィックスが付いています。


オプション まだ in 開発
次のオプションはまだ最終決定されておらず、バグが含まれている可能性が高く、
将来的に変わること。

--fst

--gzfst
XNUMX 番目のファイルをこれで指定して、VCF ファイルのペアの FST を計算します。
オプション。 FST は現在、「」で説明されている式を使用して計算されます。
フェーズ I HapMap ペーパーの補足資料。 現在、ペアワイズ FST のみ
計算はサポートされていますが、これは将来変更される可能性があります。 の
--gzfst オプションを使用して、圧縮された VCF ファイルを読み取ることができます。

--LROH 長期にわたるホモ接合性を特定します。

--関連性
個々の関連性統計を出力します。

onworks.net サービスを使用してオンラインで vcftools を使用する



最新のLinuxおよびWindowsオンラインプログラム