これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド bcftools です。
プログラム:
NAME
samtools - シーケンス アラインメント/マップ (SAM) 形式のユーティリティ
bcftools - バイナリ コール フォーマット (BCF) および VCF 用のユーティリティ
SYNOPSIS
samtools ビュー -bt ref_list.txt -o aln.bam aln.sam.gz
samtools ソート aln.bam aln.sorted
samtools インデックス aln.sorted.bam
samtools idxstats aln.sorted.bam
samtools ビュー aln.sorted.bam chr2:20,100,000-20,200,000
samtools マージ out.bam in1.bam in2.bam in3.bam
samtools faidx ref.fasta
samtools パイルアップ -vcf ref.fasta aln.sorted.bam
samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam
samtools tview aln.sorted.bam ref.fasta
.bcf 内の bcftools インデックス
bcftools ビュー in.bcf chr2:100-200 > out.vcf
bcftools ビュー -Nvm0.99 in.bcf > out.vcf 2> out.afs
DESCRIPTION
Samtools は、BAM 形式のアライメントを操作するユーティリティのセットです。 輸入する
SAM (Sequence Alignment/Map) 形式からエクスポートしたり、SAM (Sequence Alignment/Map) 形式にエクスポートしたり、並べ替え、マージ、
インデックスを作成し、任意の領域の読み取りを迅速に取得できるようにします。
Samtools はストリーム上で動作するように設計されています。 入力ファイル `-' を標準とみなします
入力 (stdin) と標準出力 (stdout) としての出力ファイル `-' です。 いくつかのコマンドで、
したがって、Unix パイプと組み合わせることができます。 Samtools は常に警告メッセージとエラー メッセージを
標準エラー出力 (stderr)。
Samtools は、リモート FTP または HTTP サーバー上の BAM (SAM ではない) ファイルを開くこともできます。
BAM ファイル名は「ftp://」または「http://」で始まります。 Samtools は現在の動作をチェックします
インデックス ファイルのディレクトリに保存され、不在時にインデックスがダウンロードされます。 Samtools はそうではありません
要求されない限り、アライメント ファイル全体を取得します。
サムツール コマンド そして OPTIONS
ビュー samtools ビュー [-bchuHS] [-t in.refList] [-o 出力] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l ライブラリ] [-r readGroup] [-R rgFile] | [地域1
[...]]
すべてまたはサブアラインメントを SAM または BAM 形式で抽出/印刷します。 リージョンがない場合は、
指定すると、すべての配置が印刷されます。 それ以外の場合は位置合わせのみ
指定した領域に重なる部分が出力されます。 アライメントが与えられる場合があります
複数の領域に重なっている場合は、複数回実行します。 地域を提示できますが、
たとえば、次の形式です: `chr2' (chr2 全体)、`chr2:1000000'
(1,000,000bp から始まる領域) または `chr2:1,000,000-2,000,000' (間の領域)
エンドポイントを含む 1,000,000 および 2,000,000 bp)。 座標は 1 から始まります。
オプション:
-b BAM形式で出力します。
-f INT FLAG フィールドに存在する INT のすべてのビットとのアラインメントのみを出力します。
INT は、/^0x[0-9A-F]+/ [0] の形式の XNUMX 進数で指定できます。
-F INT INT [0] に存在するビットとのアライメントをスキップします。
-h 出力にヘッダーを含めます。
-H ヘッダーのみを出力します。
-l STR ライブラリ STR [null] の読み取りのみを出力します
-o FILE 出力ファイル [stdout]
-q INT INT [0] より小さい MAPQ のアライメントをスキップします
-r STR 読み取りグループ STR [null] 内の読み取りのみを出力します
-R FILE にリストされているリードグループの出力リード FILE [ヌル]
-s FLOAT サブサンプルするテンプレート/ペアの割合。 整数部分が扱われます
乱数発生器のシードとして [-1]
-S 入力は SAM にあります。 @SQ ヘッダー行が存在しない場合、 「-t」 オプションがある
必要。
-c アライメントを印刷する代わりに、アライメントを数えて印刷するだけです。
総数。 すべてのフィルター オプション。 `-f'、 `-F' & `-q' 持っている
考慮に入れられます。
-t FILE このファイルはタブ区切りです。 各行には参照名を含める必要があります
参照の長さ。個別の参照ごとに XNUMX 行。
追加のフィールドは無視されます。 このファイルは、次の順序も定義します。
ソート時の参照配列。 `samtools faidx を実行すると'、
結果として得られるインデックスファイル .fai このように使用できます
ファイルにソフトウェアを指定する必要があります。
-u 非圧縮 BAM を出力します。 このオプションにより、次の作業にかかる時間を節約できます。
圧縮/解凍が可能なため、出力が次の場合に推奨されます。
別の samtools コマンドにパイプされます。
テレビ サムツール tview [-p chr:pos] [-s STR] [-d ディスプレイ】 [ファスタ参照]
テキスト配置ビューア (ncurses ライブラリに基づく)。 ビューアで「?」を押します。
ヘルプが必要な場合は「g」を押して、フォーマット内の領域から開始する位置合わせを確認してください。
同じ参照を表示する場合は、`chr10:10,000,000' または `=10,000,000' のようになります。
シーケンス。
オプション:
-d ディスプレイ (H)tml または (C)urses または (T)ext として出力
-p chr:pos この位置に直接移動します
-s STR このサンプルまたはリードグループからのリードのみを表示します
パイルアップ サムツールのパイルアップ [-EBugp] [-C キャップQcoef] [-r REG] [-f インファ] [-l リスト] [-M
キャップマップQ] [-Q minBaseQ] [-q minMapQ] インバム [in2.bam [...]]
XNUMX つまたは複数の BAM ファイルに対して BCF またはパイルアップを生成します。 アライメントレコードは、
@RG ヘッダー行のサンプル識別子によってグループ化されます。 サンプル識別子が
存在しない場合、各入力ファイルは XNUMX つのサンプルとみなされます。
パイルアップ形式(なし)の場合 -uor-g)、各行はゲノムの位置を表します。
染色体名、座標、参照塩基、読み取り塩基、読み取り値で構成されます。
品質とアライメントマッピング品質。 一致、不一致に関する情報、
インデル、ストランド、マッピング品質、リードの開始と終了はすべて次の形式でエンコードされます。
読み取りベース列。 この列のドットは、参照との一致を表します。
順方向ストランドのベース、逆方向ストランドの一致の場合のカンマ、「>」または
「<」は参照スキップ、「ACGTN」は順方向ストランドの不一致、および
逆鎖の不一致の場合は「acgtn」。 パターン `\+[0-9]+[ACGTNacgtn]+'
この基準位置と次の基準位置の間に挿入があることを示します
基準位置。 挿入の長さは、
パターンの後に挿入されたシーケンスが続きます。 同様に、パターン
`-[0-9]+[ACGTNacgtn]+' は参照からの削除を表します。 削除された
塩基は、次の行では「*」として表示されます。 リードベースにもあります
列の記号「^」は読み取りの開始を示します。 文字のASCII
`^' から 33 を引いた値がマッピングの品質を示します。 記号「$」は終わりを示します
読み取りセグメント。
入力 オプション:
-6 品質は Illumina 1.3+ エンコーディングであると仮定します。 -A スキップしないでください
バリアント呼び出しにおける異常な読み取りペア。
-B 基数の計算に対する確率的再調整を無効にする
アライメント品質 (BAQ)。 BAQ は読み取りの Phred スケール化された確率です
ベースがずれている。 このオプションを適用すると、
ミスアラインメントによって引き起こされる誤った SNP。
-b FILE 入力 BAM ファイルのリスト (XNUMX 行に XNUMX つのファイル) [null]
-C INT を含む読み取りのマッピング品質をダウングレードするための係数
過度なミスマッチ。 phred-scaled 確率 q の読み取りが与えられたとします。
マッピングされた位置から生成される新しいマッピング品質
はおよそ sqrt((INT-q)/INT)*INT です。 値をゼロにするとこれが無効になります
機能性。 有効な場合、BWA の推奨値は 50 です。 [0]
-d INT ある位置で最大限に読む INT 入力 BAM ごとの読み取り数。 [250]
-E BAQ 計算の拡張。 このオプションは、特に次の場合の感度に役立ちます。
MNP ですが、特異性が少し損なわれる可能性があります。
-f FILE フェイドックス-FASTA 形式のインデックス付き参照ファイル。 ファイルは次のとおりです
オプションで圧縮 ラジブ。 [ヌル]
-l FILE 地域またはサイトのリストを含む BED または位置リスト ファイル。
パイルアップまたは BCF を生成する必要があります [null]
-q INT 使用されるアライメントの最低マッピング品質 [0]
-Q INT 考慮される塩基の最低品質 [13]
-r STR リージョン内でのみパイルアップを生成する STR [すべてのサイト]
出力 オプション:
-D 出力サンプルごとの読み取り深度
-g 遺伝子型の尤度を計算し、バイナリ コール形式で出力します。
(BCF)。
-S サンプルごとの出力 Phred-scaled ストランド バイアス P 値
-u そして -g ただし、出力は非圧縮 BCF です。
配管に最適です。
オプション for 遺伝子型 可能性 計算 (ために -g or -u):
-e INT Phred スケールのギャップ拡張シーケンスエラー確率。 削減 INT
インデルが長くなります。 [20]
-h INT ホモポリマー誤差をモデル化するための係数。 与えられた l-長いです
ホモポリマーの実行、サイズのインデルの配列エラー s モデル化されています
as INT*s/l。 [100]
-I INDEL呼び出しを実行しないでください
-L INT サンプルごとの平均深さが上記を超えている場合は、INDEL 呼び出しをスキップします。 INT.
【250]
-o INT Phred スケールのギャップオープンシーケンスエラー確率。 削減 INT リード
さらに indel 呼び出しを行います。 [40]
-p サンプルごとに -m および -F しきい値を適用して、
呼んでいます。 デフォルトでは、両方のオプションがすべてのデータからプールされた読み取りに適用されます。
。)
-P STR カンマ区切りのプラットフォームのリスト (次のように決定されます) @RG-PL) そこから
indel候補が得られます。 インデルを収集することをお勧めします
インデルエラー率が低いシーケンステクノロジーの候補
イルミナなど。 [全て]
リヘッダー サムツールのリヘッダー
ヘッダーを置き換えます インバム ヘッダーを入れた状態で in.header.sam。 このコマンドは
ヘッダーを BAM->SAM->BAM 変換で置き換えるよりもはるかに高速です。
cat samtools cat [-h header.sam] [-o out.bam] [ ... ]
BAM を連結します。 各入力 BAM のシーケンス ディクショナリは同一である必要があります。
ただし、このコマンドはこれをチェックしません。 このコマンドは同様のトリックを使用して、
リヘッダー これにより、高速な BAM 連結が可能になります。
sort samtools ソート [-nof] [-m maxMem]
左端の座標で位置合わせを並べ替えます。 ファイル .bam 作成されます。
このコマンドは一時ファイルを作成することもあります .%d.bam 全体がいつ
アライメントをメモリに適合させることはできません (オプション -m によって制御されます)。
オプション:
-o 最終的な位置合わせを標準出力に出力します。
-n 染色体座標ではなく読み取り名で並べ替えます
-f 完全な出力パスとして使用し、追加しないでください .bam サフィックス。
-m INT 必要なメモリのほぼ最大値。 [500000000]
マージ samtools マージ [-nur1f] [-h inh.sam] [-R reg]
[...]
ソートされた複数の配置を結合します。 すべての入力のヘッダー参照リスト
BAM ファイルとその @SQ ヘッダー イン・サム存在する場合は、すべて同じものを参照する必要があります
参照配列のセット。 ヘッダー参照リストと (オーバーライドされない限り)
-h) `@' ヘッダー in1.bam にコピーされます アウトバム、および他のヘッダー
ファイルは無視されます。
オプション:
-1 zlib 圧縮レベル 1 を使用して出力を圧縮します
-f 出力ファイルが存在する場合、強制的に上書きします。
-h FILE の行を使用します FILE コピー先の `@' ヘッダーとして アウトバム、置き換える
そうでない場合はコピーされるヘッダー行 in1.bam。 (FILE is
実際には SAM 形式ですが、それに含まれるアライメント レコードはすべて SAM 形式です。
無視されます。)
-n 入力アライメントは、染色体ではなく読み取り名によってソートされます。
座標
-R STR で示される指定された領域内のファイルをマージします。 STR [ヌル]
-r 各アライメントに RG タグを取り付けます。 タグ値はファイルから推測されます
名前。
-u 非圧縮 BAM 出力
index サムツールインデックス
高速ランダムアクセスのためのインデックスソートアライメント。 インデックスファイル .bai なります
作成しました。
idxstats サムツールidxstats
インデックス ファイル内の統計を取得して出力します。 出力は TAB で区切られます。
各行は参照配列名、配列長、マップされたリードの数で構成されます
および # 個のマップされていない読み取り。
フェイドックス サムツールfaidx [領域1 [...]]
FASTA 形式の参照配列にインデックスを付けるか、インデックス付きの部分配列を抽出します
参照配列。 地域を指定しない場合は、 フェイドックス ファイルのインデックスを作成し、
作ります .fai ディスク上にあります。 領域が指定されている場合、サブシーケンスは
取得され、FASTA 形式で標準出力に出力されます。 入力ファイルは、
で圧縮される ラズフ 形式でダウンロードすることができます。
フィックスメイト サムツールのフィックスメイト
名前でソートされたメイト座標、ISIZE、およびメイト関連フラグを入力します。
アライメント。
rmdup サムツール rmdup [-sS]
潜在的な PCR 重複を削除: 複数のリードペアが同一の外部を持つ場合
座標では、最高のマッピング品質を持つペアのみが保持されます。 ペアで-
終了モード、このコマンド たったの FR 方向で動作し、ISIZE が必要です
正しく設定されています。 ペアになっていない読み取りには機能しません (例: XNUMX つの端がマップされている)
異なる染色体またはオーファンリード)。
オプション:
-s シングルエンド読み取りの重複を削除します。 デフォルトでは、このコマンドは次の場合に機能します。
ペアエンド読み取り専用。
-S ペアエンド読み取りとシングルエンド読み取りを扱います。
落ち着いた samtools は落ち着いた [-EeubSr] [-C capQcoef]
MDタグを生成します。 MD タグがすでに存在する場合、このコマンドは
生成された MD タグが既存のタグと異なる場合に警告が表示されます。 出力SAM
デフォルトでは
オプション:
-A と併用する場合 -r このオプションは元のベースを上書きします
品質。
-e アライメントされた参照と同一の場合、読み取りベースを = に変換します。
ベース。 現時点では、Indel 呼び出し元は = 塩基をサポートしていません。
-u 非圧縮BAMを出力する
-b 圧縮されたBAMを出力する
-S 入力はヘッダー行を含む SAM です
-C INT マッピングが不十分なリードのマッピング品質を制限する係数。 を参照してください。
パイルアップ 詳細については、コマンドを参照してください。 [0]
-r BQ タグ (-A なし) または BAQ によるキャップベース品質 (-A あり) を計算します。
-E 拡張 BAQ 計算。 このオプションは、特異性と引き換えに、
影響は小さいですが、感度は高くなります。
ターゲットカット samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
参照]
このコマンドは、読み取りの連続性を検査することでターゲット領域を特定します。
深度を計算し、ターゲットの半数体コンセンサス配列を計算し、次の値を含む SAM を出力します。
各シーケンスはターゲットに対応します。 オプションの場合 -f が使用中の場合、BAQ になります
適用。 このコマンドは の フォスミドからフォスミドクローンを切り出すために設計
プールの順序付け [参照。 キッツマンら。 (2010年)]。
相 samtools フェーズ [-AF] [-k len] [-b プレフィックス] [-q minLOD] [-Q minBaseQ]
ヘテロ接合性 SNP をコールしてフェーズします。 オプション:
-A あいまいなフェーズの読み取りをドロップします。
-b STR BAM 出力のプレフィックス。 このオプションを使用すると、フェーズ 0 の読み取りが行われます。
ファイルに保存された STR.0.bam とフェーズ 1 の読み込み STR.1.バム。 位相不明
読み取りは XNUMX つのファイルのいずれかにランダムに割り当てられます。 キメラリード
スイッチエラーがある場合はに保存されます STR.キメラ.バム。 [ヌル]
-F キメラリードを修正しようとしないでください。
-k INT ローカルフェージングの最大長。 [13]
-q INT ヘテロ接合体を呼び出すための最小の Phred スケール LOD。 [40]
-Q INT het 呼び出しで使用される最小の基本品質。 [13]
BCFツール コマンド そして OPTIONS
ビュー bcfツール ビュー [-AbFGNQSucgv] [-D seqDict] [-l リスト軌跡] [-s リストサンプル] [-i
ギャップSN比] [-t mutRate] [-p varThres] [-m varThres] [-P 事前の] [-1 nグループ1]
[-d minFrac] [-U nパーマ] [-X permスレッド] [-T トリオタイプ] in.bcf [地域]
BCFとVCFの間で変換し、バリアント候補を呼び出し、対立遺伝子を推定します
周波数。
入力/出力 オプション:
-A バリアント部位で考えられるすべての代替対立遺伝子を保持します。 デフォルトでは、
view コマンドは、可能性の低い対立遺伝子を破棄します。
-b BCF形式で出力します。 デフォルトは VCF です。
-D FILE VCF→BCF変換用配列辞書(染色体名のリスト)
[ヌル]
-F PL が r921 以前によって生成されたことを示します (順序は異なります)。
-G 個々の遺伝子型情報をすべて抑制します。
-l FILE 情報出力サイト一覧【全サイト】
-N REF フィールドが A/C/G/T ではないサイトをスキップする
-Q QCALL尤度フォーマットを出力します。
-s FILE 使用するサンプルのリスト。 入力の最初の列はサンプルを示します
名前を付け、1 番目は倍数性を示します。倍数性は 2 または XNUMX のみです。
2 番目の列が存在しない場合、サンプルの倍数性は 2 であると想定されます。
出力では、サンプルの順序は次の順序と同じになります。 FILE.
[ヌル]
-S 入力はBCFではなくVCFです。
-u 非圧縮 BCF 出力 (force -b)。
コンセンサス/バリアント 呼び出し オプション:
-c ベイズ推論を使用してバリアントを呼び出します。 このオプションは自動的に
オプションを呼び出します -e.
-d FLOAT 日時 -v が使用されている場合は、サンプルの一部がカバーされている遺伝子座をスキップします。
読み取り値は FLOAT 未満です。 [0]
-e サイトの推定を含む最尤推定のみを実行します。
対立遺伝子頻度、ハーディ・ワインバーグ平衡の検査および検査
LRTとの関連性。
-g バリアントサイトでサンプルごとの遺伝子型を呼び出します (force -c)
-i FLOAT INDEL と SNP の変異率の比 [0.15]
-m FLOAT 改良された複数対立遺伝子および希少変異体の呼び出しのための新しいモデル。 別
LRT の P(chi^2) が FLOAT しきい値を超える場合、ALT 対立遺伝子が受け入れられます。
パラメータは堅牢であるように見えますが、実際の値は通常そうではありません
結果に大きな影響を与えます。 使用するのに適した値は 0.99 です。 これは
推奨される呼び出し方法。 [0]
-p FLOAT P(ref|D) の場合、サイトはバリアントとみなされます。
-P STR 以前または最初の対立遺伝子周波数スペクトル。 STRができるなら フル, 条件2,
フラットな または、以前のバリアントからのエラー出力で構成されるファイル
実行を呼び出します。
-t FLOAT バリアント呼び出しのスケーリングされた変異率 [0.001]
-T STR ペア/トリオ通話を有効にします。 トリオ通話の場合はオプション -s 通常は
トリオのメンバーとその順序を構成するために適用する必要がありました。
オプションに提供されるファイル内 -s、最初のサンプルは
子供、XNUMX人目は父親、XNUMX人目は母親です。 有効な
の値 STR は「pair」、「trioauto」、「trioxd」、および「trioxs」です。
「pair」は XNUMX つの入力サンプル間の差異を呼び出し、「trioxd」は
(`trioxs') は、入力が非 PAR の X 染色体からのものであることを指定します。
地域であり、子供は女性(男性)です。 [ヌル]
-v バリアント サイトのみを出力する (force -c)
コントラスト 呼び出し & 協会 ホイール試乗 オプション:
-1 INT グループ 1 のサンプルの数。 このオプションは、
コントラストSNPコールまたは関連テストのためにサンプルをXNUMXつのグループに分けます。
このオプションを使用すると、次の VCF INFO が出力されます。
PC2、PCHI2、QCHI2。 [0]
-U INT アソシエーションテストの順列数(とのみ有効) -1)
【0]
-X FLOAT P(chi^2) の置換のみを実行します。 -U)
【0.01]
index bcfツール index in.bcf
ランダムアクセス用のインデックスソートBCF。
cat bcfツール cat in1.bcf [in2.bcf [...]]]
BCF ファイルを連結します。 入力ファイルはソートされ、
同じサンプルが同じ順序で現れる。
SAM FORMAT
シーケンス アライメント/マップ (SAM) 形式はタブ区切りです。 ヘッダー行とは別に、
は「@」記号で始まり、各位置合わせ行は次のもので構成されます。
┌────┬───────┬───────────── ─────────────┐
│鞍部 │ フィールド │ 説明 │
§────┼───────┼───────────── ─────────────┤
│ 1 │ QNAME │ クエリテンプレート/ペア名 │
│ 2 │ FLAG │ ビットごとの FLAG │
│ 3 │ RNAME │ 参照配列名 │
│ 4 │ POS │ クリップされたシーケンスの 1 から始まる左端の POSition/座標 │
│ 5 │ MAPQ │ マッピング品質 (Phred スケール) │
│ 6 │ CIAGR │ 拡張 CIGAR 文字列 │
│ 7 │ MRNM │ メイト参照配列 NaMe (RNAME と同じ場合は `=') │
│ 8 │ MPOS │ 1 ベースのメイト位置 │
│ 9 │ TLEN │ 推定されたテンプレート LENgth (挿入サイズ) │
│10 │ SEQ │ リファレンスと同じ鎖上のクエリ配列 │
│11 │ QUAL │ クエリ QUALity (ASCII-33 は Phred の基本品質を示します) │
│12+ │ OPT │ TAG:VTYPE:VALUE 形式の変数オプションフィールド │
━───┴───────┴───────────── ─────────────┘
FLAG フィールドの各ビットは次のように定義されます。
┌───────┬─────┬───────────── ─────────┐
│ フラグ │ BC │ 説明 │
§───────┼─────┼───────────── ─────────┤
│0x0001 │ p │ 読み取りはシーケンスでペアになっています │
│0x0002 │ P │ 読み取りは適切なペアにマップされています │
│0x0004 │ u │ クエリシーケンス自体はマップされていません │
│0x0008 │ U │ メイトはマップされていません │
│0x0010 │ r │ クエリのストランド (逆の場合は 1) │
│0x0020 │ R │ 仲間の鎖 │
│0x0040 │ 1 │ 読み取りはペアの最初の読み取りです │
│0x0080 │ 2 │ 読み取りはペアの XNUMX 番目の読み取りです │
│0x0100 │ s │ アライメントはプライマリではありません │
│0x0200 │ f │ 読み取りがプラットフォーム/ベンダーの品質チェックに失敗しました │
│0x0400 │ d │ 読み取りは PCR または光学的複製のいずれかです │
━───────┴─────┴───────────── ─────────┘
ここで、XNUMX 番目の列は FLAG フィールドの文字列表現を示します。
VCF FORMAT
Variant Call Format (VCF) はタブ区切り形式で、各データ行は次のように構成されます。
次のフィールド:
┌───┬───┬───────────── ─------------------------------------------┐
│鞍部 │ フィールド │ 説明 │
§────┼───┼───────────── ─------------------------------------------┤
│ 1 │ CHROM │ 染色体名 │
│ 2 │ POS │ バリアントの左端の POSition │
│ 3 │ ID │ 固有のバリアント ID │
│ 4 │ REF │ REFerence 対立遺伝子 │
│ 5 │ ALT │ コンマで区切られた ALTernate 対立遺伝子 │
│ 6 │ QUAL │ バリアント/リファレンス QUALity │
│ 7 │ フィルター │ 適用されたフィルター │
│ 8 │ 情報 │ バリアントに関連する情報(セミコロンで区切る) │
│ 9 │ FORMAT │ コロンで区切られた遺伝子型フィールドの形式 (オプション) │
│10+ │ サンプル │ サンプルの遺伝子型とサンプルごとの情報 (オプション) │
━───┴───┴──────────── ─------------------------------------------┘
次の表は、 ご利用ガイド samtools および bcftools で使用されるタグ。
┌─────┬─────┬─────────── ───────────────── ───────────┐
│ タグ │ フォーマット │ 説明 │
§──────┼─────┼─────────── ───────────────── ───────────┤
━━━━┴─────┴─────────── ───────────────── ──────────┘
例
o 次の場合に SAM を BAM にインポートします @SQ ヘッダーには次の行が存在します。
samtools ビュー -bS aln.sam > aln.bam
If @SQ 行がありません:
samtools faidx ref.fa
samtools view -bt ref.fa.fai aln.sam > aln.bam
コラボレー ref.fa.fai によって自動的に生成されます フェイドックス
o を添付します。 RG ソートされた配置をマージする際のタグ:
perl -e 'print
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:イルミナ\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools マージ -rh rg.txt merged.bam ga.bam 454.bam
a の値 RG タグは、読み取り元のファイル名によって決まります。 この中で
たとえば、 マージされた.bam、から読む ガバム 添付されます RG:Z:ガ、読み取り中
454.バム 添付されます RG:Z:454.
o XNUMX 人の二倍体個体に対して SNP と短い INDEL を呼び出します。
samtools mpileup -ugf ref.fa aln.bam | bcftools ビュー -bvcg - > var.raw.bcf
bcftools ビュー var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf
-D varFilter のオプションは最大読み取り深度を制御します。これは次のように調整する必要があります。
平均読み取り深度の約 XNUMX 倍。 追加することを検討することもできます - C50 〜へ パイルアップ マッピングの場合
過度の不一致を含むリードの品質は過大評価されます。 このオプションを適用すると
通常は役に立ちます BWAショート ただし、他のマッパーではできない可能性があります。
o XNUMX 人の二倍体個体のコンセンサス配列を生成します。
samtools mpileup -uf ref.fa aln.bam | samtools mpileup -uf ref.fa aln.bam | bcftools ビュー -cg - | vcfutils.pl vcf2fq >
cns.fq
o サンプルのペアから体細胞突然変異を呼び出します。
samtools mpileup -DSuf ref.fa aln.bam | bcftools ビュー -bvcgT ペア - > var.bcf
出力の INFO フィールドでは、 CLR 尤度間の Phred-log 比を次の式で求めます。
XNUMX つのサンプルを独立して処理し、遺伝子型を要求することで可能性を推定します。
同一であること。 これ CLR 事実上、体性の信頼度を測定するスコアです
呼び出します。 高いほど良いです。
o 家族トリオからの新規および体細胞突然変異の呼び出し:
samtools mpileup -DSuf ref.fa aln.bam | bcftools ビュー -bvcgT ペア -s サンプル.txt - >
var.bcf
File サンプル.txt のメンバーと順序を指定する XNUMX 行で構成する必要があります。
サンプル(子供、父親、母親の順)。 同様に、 CLR Phred-log を与える
トリオ制約がある場合とない場合の尤度比。 UGT 最も可能性が高いことを示しています
トリオ制約のない遺伝子型構成、および CGT 最も可能性が高い
トリオ制約を満たす遺伝子型構成。
o フェーズ XNUMX の個人:
samtools 落ち着いた -AEur aln.bam ref.fa | samtools フェーズ -b プレフィックス - >phase.out
落ち着いた コマンドは、INDEL の周囲の偽ヘテロ接合体を減らすために使用されます。
o 複数の二倍体個体の SNP と短いインデルを呼び出します。
samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools ビュー -bcvg - > var.raw.bcf
bcftools ビュー var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf
から個人が特定されます。 SM のタグ @RG ヘッダー行。 個人ができるのは、
XNUMX つのアライメント ファイルにプールされます。 XNUMX 人の個人を複数のファイルに分割することもできます。
-P オプションは、インデル候補を読み取りグループからのみ収集することを指定します
@RG-PL タグをに設定 イルミナ。 シーケンスされたリードからのインデル候補の収集
インデルが発生しやすいテクノロジによって、インデル呼び出しのパフォーマンスに影響が出る可能性があります。
によって呼び出すことができる新しい呼び出しモデルがあることに注意してください。
bcftools ビュー -m0.99 ...
これにより、デフォルトのメソッドのいくつかの重大な制限が修正されます。
フィルタリングの場合、最初に スナップギャップ フィルターと
次に、機械学習アプローチを適用します。
vcf-annotate -f SnpGap=n
vcfフィルター ...
どちらも次の場所にあります。 vcfツール & htslib パッケージ(以下のリンク)。
o 複数の個人からのサイトのリストから対立遺伝子周波数スペクトル (AFS) を導き出します。
samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools view -bl sites.list all.bcf > sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools view -cGP sites.1.afs sites.bcf > /dev/null 2> sites.2.afs
bcftools view -cGP sites.2.afs sites.bcf > /dev/null 2> sites.3.afs
......
コラボレー サイト.リスト サイトのリストが含まれており、各行は参照で構成されています。
シーケンスの名前と位置。 以下 bcfツール コマンドはEMによるAFSを推定します。
o 他の SNP 呼び出し元に適用された BAQ のアライメントをダンプします。
samtools Cald -bAr aln.bam > aln.baq.bam
追加・修正します NM & MD 同時にタグも付けます。 の 落ち着いた コマンドも来る
-C のオプションと同じです パイルアップ & パイルアップ。 役に立ったら応募してください。
制限
o bam_import.c、bam_endian.h、bam.c、および bam_aux.c で使用される非整列ワード。
o Samtools ペアエンド rmdup は、ペアになっていない読み取り (孤立読み取りや終了など) に対して機能しません。
異なる染色体にマッピングされます)。 これが懸念される場合は、Picard's を使用してください。
MarkDuplicate はこれらのケースを正しく処理しますが、少し遅いです。
onworks.net サービスを使用してオンラインで bcftools を使用する