GoGPT Best VPN GoSearch

OnWorksファビコン

bwa - クラウド上のオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターを介して OnWorks 無料ホスティング プロバイダーで bwa を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド bwa です。

プログラム:

NAME


bwa - バロウズ・ウィーラー調整ツール

SYNOPSIS


bwaインデックスref.fa

bwa mem ref.fa reads.fq > aln-se.sam

bwa mem ref.fa read1.fq read2.fq > aln-pe.sam

bwa aln ref.fa short_read.fq > aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam

bwa サンプル ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

bwa bwasw ref.fa long_read.fq > aln.sam

DESCRIPTION


BWA は、発散の少ないシーケンスを大規模なリファレンスに対してマッピングするためのソフトウェア パッケージです。
ゲノム、例えばヒトゲノム。 BWA バックトラック、BWA-SW の XNUMX つのアルゴリズムで構成されます。
そしてBWA-MEM。 最初のアルゴリズムは、最大 100 bp の Illumina シーケンスリード用に設計されています。
一方、残りの 70 つの長い配列は 1 bp から XNUMX Mbp の範囲でした。 BWA-MEMとBWA-SWのシェア
ロングリードのサポートや分割アライメントなどの同様の機能がありますが、BWA-MEM は
最新。高速でより多くの機能を備えているため、通常は高品質のクエリに推奨されます。
正確。 BWA-MEM は、70 ~ 100bp Illumina の場合、BWA-backtrack よりも優れたパフォーマンスを発揮します。
読む。

すべてのアルゴリズムについて、BWA はまず参照ゲノムの FM インデックスを構築する必要があります。
index 指図)。 アライメント アルゴリズムは、さまざまなサブコマンドで呼び出されます。
アルン/サムセ/サンペ BWA バックトラックの場合、 ぶわっ BWA-SW用と memの BWA-MEM アルゴリズムの場合。

コマンド そして OPTIONS


index bwa index [-p 接頭辞] [-a アルゴリズムの種類] デシベルファ

FASTA 形式でデータベース シーケンスにインデックスを付けます。

オプション:

-p STR 出力データベースのプレフィックス [db ファイル名と同じ]

-a STR BWT インデックスを構築するためのアルゴリズム。 BWA は、次の XNUMX つのアルゴリズムを実装しています。
BWT の構造: is   ところで。 最初のアルゴリズムは少し高速です
小規模なデータベース用ですが、大容量の RAM が必要であり、データベースでは機能しません
合計長が 2GB を超えるもの。 XNUMX 番目のアルゴリズムは以下から適応されます。
BWT-SW のソース コード。 理論上は何兆ものデータベースを操作できます
基地の。 このオプションが指定されていない場合、適切なアルゴリズムが
が自動的に選択されます。

memの bwa memの [-aCHjMpP] [-t nスレッド] [-k 最小シード長] [-w 帯域幅] [-d zドロップオフ] [-r
シード分割比率] [-c 最大オック] [-D 鎖影] [-m マックスメイトSW] [-W minシードマッチ] [-A
マッチスコア] [-B mmペナルティ] [-O ギャップオープンペン] [-E ギャップ拡張ペン] [-L クリップペン] [-U
アンペアペン] [-R RGライン] [-H HDライン] [-v 詳細レベル] デシベルプレフィックス read.fq [仲間.fq]

70bp ~ 1Mbp のクエリ配列を BWA-MEM アルゴリズムでアライメントします。 アルゴリズムを簡単に説明すると、
最大完全一致 (MEM) を使用してアライメントをシードし、拡張することで機能します。
アフィンギャップ スミス-ウォーターマン アルゴリズム (SW) を使用してシードを生成します。

If 仲間.fq ファイルが存在しないためオプション -p が設定されていない場合、このコマンドは入力を考慮します
読み取りはシングルエンドです。 もしも 仲間.fq が存在する場合、このコマンドは i- 番目の読み込み
read.fqi- 番目の読み込み 仲間.fq リードペアを構成します。 もしも -p が使用されている場合、
コマンドは 2 を想定しますi-th と (2i+1) 回目の読み込み read.fq 読み取りペアを構成する
(このような入力ファイルはインターリーブされていると言われます)。 この場合、 仲間.fq 無視されます。 の
ペアエンドモード、 memの コマンドは読み取り方向と挿入を推測します。
読み取りバッチからのサイズ分布。

BWA-MEM アルゴリズムはローカル アライメントを実行します。 複数のプライマリが生成される場合があります
クエリシーケンスの異なる部分のアライメント。 これは重要な機能です
長いシーケンス。 ただし、Picard の markDuplicates などの一部のツールは機能しません
分割アライメント付き。 オプションの使用を検討することもできます -M 短い分割ヒットにフラグを立てる
二次的なものとして。

アルゴリズム オプション:

-t INT スレッド数 [1]

-k INT シードの最小長。 以下より短い一致 INT 寂しくなるだろう。 の
通常、アライメント速度はこの値の影響を受けません。
20から大きく外れています。 [19]

-w INT バンド幅。 基本的に、ギャップは INT 見つからないだろう。 ノート
最大ギャップ長もスコアリング マトリックスの影響を受けること、および
ヒットの長さは、このオプションだけで決まるわけではありません。 [100]

-d INT 非対角 X ドロップオフ (Z ドロップオフ)。 違いがある場合は拡張を停止します
最高の拡張スコアと現在の拡張スコアの間が上 |i-j|*A+INT,
コラボレー i   j はクエリと参照の現在位置です。
それぞれ、および A マッチングスコアです。 Z ドロップオフは次のようになります
BLAST の X ドロップオフは、いずれかのギャップにペナルティを課さない点が異なります。
アライメント内のシーケンス。 Z ドロップオフは不要なものを回避するだけではありません
伸長だけでなく、長い良好なアライメント内の不良アライメントも軽減します。
【100]

-r FLOAT MEM の再シードを次の時間より長くトリガーします 最小シード長*FLOAT。 これは鍵です
パフォーマンスを調整するためのヒューリスティックパラメータ。 値が大きいほど生成される数は少なくなります
シードにより、アライメント速度は速くなりますが、精度は低くなります。 [1.5]

-c INT 以上の MEM がある場合は、MEM を破棄します。 INT ゲノム内での出現。 これは
影響を受けないパラメータ。 [500]

-D INT 以下より短いチェーンをドロップします FLOAT 重複する最長チェーンの一部
【0.5]

-m INT せいぜい実行する INT メイト-SWのラウンド [50]

-W INT シード内の塩基の数が以下の場合にチェーンをドロップします。 INT。 この
このオプションは主に長いコンティグ/読み取りに使用されます。 陽性の場合も、
種子のフィルタリングに影響します。 [0]

-P ペアエンド モードでは、SW を実行して欠落ヒットのみを救済しますが、
適切なペアに適合するヒットを見つけてみてください。

スコアリング オプション:

-A INT マッチングスコア。 [1]

-B INT ミスマッチペナルティ。 シーケンスエラー率はおおよそ次のとおりです: {.75 *
経験値[-ログ(4) * B/A]}。 [4]

-O INT[,​​INT]
ギャップオープンペナルティ。 XNUMX つの数値が指定された場合、最初の数値がペナルティになります
6 つは削除を開く場合、もう XNUMX つは挿入を開く場合です。 [XNUMX]

-E INT[,​​INT]
ギャップ延長ペナルティ。 XNUMX つの数値が指定された場合、最初の数値が
XNUMX 番目は削除の延長に対するペナルティ、XNUMX 番目は挿入の延長に対するペナルティです。 あ
長さ k のギャップのコストは O + k*E (つまり、 -O 長さゼロを開くためのものです
ギャップ)。 [1]

-L INT[,​​INT]
クリッピングペナルティ。 SW 拡張を実行すると、BWA-MEM は次の情報を追跡します。
クエリの最後に到達する最高のスコア。 このスコアが次の値より大きい場合
ベスト SW スコアからクリッピング ペナルティを差し引いたもの。クリッピングは行われません。
適用。 この場合、SAM AS タグが最適な SW を報告することに注意してください。
スコア; クリッピングペナルティは控除されません。 XNUMX つの数値が指定された場合、
5 つ目は 3' 末端クリッピング用で、5 つ目は XNUMX' 末端クリッピング用です。 [XNUMX]

-U INT ペアになっていない読み取りペアに対するペナルティ。 BWA-MEM はペアになっていないリード ペアをスコアリングします
スコア読み取り 1+スコア読み取り 2-としてINT そしてペアのスコアは次のようになります
スコア読み取り 1+スコア読み取り 2-ペナルティの挿入。 これら XNUMX つのスコアを比較すると、
ペアリングを強制する必要があるかどうかを決定します。 値が大きいほど、より多くの値が得られます
アグレッシブな読み取りペア。 [17]

入出力 オプション:

-p スマートなペアリング。 XNUMX つの隣接するリードが同じ名前を持つ場合、それらは
リードペアを形成すると考えられます。 このようにして、ペアエンドとシングルエンドの読み取りが可能になります。
単一の FASTA/Q ストリームに混在させることができます。

-R STR 読み取りグループのヘッダー行を完了します。 '\t' は以下で使用できます STR そして
出力 SAM の TAB に変換されます。 リードグループIDが付加されます
出力のすべての読み取りに適用されます。 例は「@RG\tID:foo\tSM:bar」です。 [ヌル]

-H ARG ARG が @ で始まる場合、文字列として解釈されて挿入されます。
出力 SAM ヘッダーに挿入されます。 それ以外の場合、ARG は次のファイルとして解釈されます。
SAM ヘッダーに挿入されたファイル内の @ で始まるすべての行。
[ヌル]

-T INT より低いスコアのアライメントを出力しない INT。 このオプションは以下に影響します
出力、場合によっては SAM フラグ 2。 [30]

-j ALT コンティグをプライマリ アセンブリの一部として扱います (つまり、
デシベルプレフィックス.alt ファイル)。

-h INT[,​​INT2]
クエリに以下の値が含まれている場合 INT スコアが 80% を超えるヒット
ベストヒットは、それらをすべて XA タグに出力します。 もしも INT2 指定されている場合、BWA-MEM
までの出力 INT2 リストに ALT コンティグへのヒットが含まれている場合は、ヒットします。
【5,200]

-a シングルエンドまたはペアになっていないペアエンド読み取りで見つかったすべてのアライメントを出力します。
これらの線形はセカンダリ線形としてフラグが立てられます。

-C SAM 出力に FASTA/Q コメントを追加します。 このオプションは次の目的で使用できます。
読み取ったメタ情報 (バーコードなど) を SAM 出力に転送します。 ノート
FASTA/Q コメント (ヘッダー行のスペースの後の文字列)
SAM 仕様 (BC:Z:CGTAC など) に準拠する必要があります。 不正なコメントは次のような問題につながります。
不正な SAM 出力。

-Y 補助的な位置合わせにはソフト クリッピング CIGAR 操作を使用します。 に
デフォルトでは、BWA-MEM はプライマリ アライメントにソフト クリッピングを使用し、ハード クリッピングを使用します。
補助的な位置合わせのためのクリッピング。

-M 短い分割ヒットをセカンダリとしてマークします (Picard との互換性のため)。

-v INT 出力の詳細レベルを制御します。 このオプションは完全には機能していません
BWA 全体でサポートされています。 理想的には、すべての出力を無効にする値 0
標準エラー出力へ。 1 はエラーのみを出力します。 2 警告とエラー。 3のための
すべての通常のメッセージ。 デバッグ用には 4 以上。 このオプションが必要な場合
値 4 の場合、出力は SAM ではありません。 [3]

-I FLOAT[,FLOAT[,INT[,​​INT]]]
平均値、標準偏差 (存在しない場合は平均の 10%)、最大値 (4
インサートの平均値からのシグマ(存在しない場合)と最小値(存在しない場合は 4 シグマ)
サイズ分布。 FR 方向のみに適用されます。 デフォルトでは、
BWA-MEM は、十分な条件が与えられた場合に、これらの数値とペアの方向を推測します。
読みます。 [推測]

アルン bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-inIndelEnd] [-k
maxSeedDiff] [-l seedLen] [-t nThrds] [-cRN] [-M missMsc] [-O gapOsc] [-E gapEsc]
[-q トリムクォル] >

入力読み取りの SA 座標を見つけます。 最大 maxSeedDiff 違いは
最初は許される シードレン サブシーケンスと最大値 最大差分 違いは
シーケンス全体で許可されます。

オプション:

-n NUM 値が INT の場合の最大編集距離、または欠落している部分の割合
FLOAT の場合、アライメントには 2% の均一基本エラー率が与えられます。 後者の場合、
最大編集距離はさまざまな読み取りに対して自動的に選択されます
長さ。 [0.04]

-o INT ギャップが開く最大数 [1]

-e INT ギャップ拡張の最大数、k 差分モードの場合は -1 (禁止)
長いギャップ) [-1]

-d INT INT bp 内の 3' 末端に向かう長い欠失を禁止します [16]

-i INT INT bp 内の終わりに向かうインデルを禁止します [5]

-l INT 最初の INT サブシーケンスをシードとして取得します。 INT がクエリより大きい場合
シーケンスでは、シード処理は無効になります。 長い読み取りの場合、このオプションは次のようになります。
通常、「-k 25」の場合は 35 から 2 の範囲になります。 [詳細]

-k INT シード内の最大編集距離 [2]

-t INT スレッド数 (マルチスレッドモード) [1]

-M INT ミスマッチペナルティ。 BWA はスコアが最適ではないヒットを検索しません
(bestScore-misMsc) よりも低い。 [3]

-O INT ギャップオープンペナルティ [11]

-E INT ギャップ延長ペナルティ [4]

-R INT 同等の INT しかない場合は、次善の調整を続行します。
ベストヒット曲。 このオプションはペアエンド マッピングにのみ影響します。 これを増やすと
しきい値は速度を犠牲にしてペアリングの精度を向上させるのに役立ちます。
特に短いリード (~32bp) の場合。

-c 逆クエリですが、補完はしません。これは、での位置合わせに必要です。
色空間。 (0.6.x以降は無効になっています)

-N 反復検索を無効にします。 以下のすべてのヒット 最大差分 の違い
見つかるだろう。 このモードはデフォルトよりもかなり遅くなります。

-q INT 読み取りトリミング用のパラメータ。 BWA は読み取りを以下にトリミングします
argmax_x{\sum_{i=x+1}^l(INT-q_i)} if q_l
長さ。 [0]

-I 入力は Illumina 1.3+ 読み取り形式です (品質は ASCII-64 と同等)。

-B INT 5' 端から始まるバーコードの長さ。 いつ INT がポジティブである場合、
各読み取りのバーコードはマッピング前にトリミングされ、書き込まれます。
BC SAMタグ。 ペアエンド読み取りの場合、両端のバーコードは次のようになります。
連結された。 [0]

-b 入力リードシーケンスファイルがBAM形式であることを指定します。 ペアエンド用
データ、ペアの XNUMX つの端をグループ化する必要があり、オプション -1 or -2
通常、どちらの端をマップするかを指定するために適用されます。 典型的
ペアエンド データを BAM 形式でマッピングするためのコマンド ラインは次のとおりです。

bwa aln ref.fa -b1 reads.bam > 1.sai
bwa aln ref.fa -b2 reads.bam > 2.sai
bwa サンプル ref.fa 1.sai 2.sai reads.bam reads.bam > aln.sam

-0 日時 -b が指定されている場合は、マッピングでシングルエンド読み取りのみを使用します。

-1 日時 -b が指定されている場合は、マッピングの読み取りペアの最初の読み取りのみを使用します
(シングルエンド読み取りと XNUMX 番目の読み取りをスキップします)。

-2 日時 -b が指定されている場合は、マッピングの読み取りペアの XNUMX 番目の読み取りのみを使用します。

サムセ bwa samse [-n maxOcc] >

シングルエンド読み取りを指定して、SAM フォーマットでアライメントを生成します。 連打すると、
ランダムに選ばれます。

オプション:

-n INT リードペアの XA タグに出力するアライメントの最大数
ちゃんと。 読み取りに INT ヒットを超える場合、XA タグは無効になります。
書かれた。 [3]

-r STR リードグループは「@RG\tID:foo\tSM:bar」のような形式で指定します。 [ヌル]

サンペ bwa sample [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>

ペアエンド読み取りを指定して、SAM 形式でアライメントを生成します。 反復読み取りペア
ランダムに配置されます。

オプション:

-a INT 適切にマッピングされているとみなされる読み取りペアの最大挿入サイズ。
0.4.5 以降、このオプションは適切な機能が十分でない場合にのみ使用されます。
インサートサイズの分布を推測するための位置合わせ。 [500]

-o INT ペアリングの読み取りの最大発生数。 より多くの出現がある読み取り
シングルエンド読み取りとして扱われます。 このパラメータを減らすと速度が向上します
ペアリング。 [100000]

-P FM インデックス全体をメモリにロードして、ディスク操作 (ベーススペース) を削減します。
読み取り専用)。 このオプションを使用するには、少なくとも 1.25N バイトのメモリが必要です。
ここで、N はゲノムの長さです。

-n INT リードペアの XA タグに出力するアライメントの最大数
ちゃんと。 読み取りに INT ヒットを超える場合、XA タグは書き込まれません。
【3]

-N INT 不一致読み取りのために XA タグに出力するアライメントの最大数
ペア(シングルトンを除く)。 読み取りに INT ヒットを超える場合、XA タグ
書かれないだろう。 [10]

-r STR リードグループは「@RG\tID:foo\tSM:bar」のような形式で指定します。 [ヌル]

ぶわっ bwa bwasw [-a matchScore] [-b mmPen] [-q gapOpenPen] [-r gapExtPen] [-t nThreads]
[-w 帯域幅] [-T thres] [-s hspIntv] [-z zBest] [-N nHspRev] [-c thresCoef]
[メイト.fq]

クエリシーケンスを整列させます。 in.fq ファイル。 いつ メイト.fq が存在する場合、ペアリングを実行します-
エンドアライメント。 ペアエンド モードは、Illumina ショートインサートの読み取りにのみ機能します。
図書館。 ペアエンド モードでも、BWA-SW はスプリット アライメントを出力する可能性がありますが、
それらはすべて、適切にペアになっていないとしてマークされます。 メイト位置は書き込まれません
メイトに複数のローカルヒットがある場合。

オプション:

-a INT 試合スコア [1]

-b INT ミスマッチペナルティ [3]

-q INT ギャップオープンペナルティ [5]

-r INT ギャップ延長ペナルティ。 サイズ k の連続ギャップに対するペナルティは次のとおりです。
q+k*r。 [2]

-t INT マルチスレッドモードのスレッド数 [1]

-w INT バンド配置のバンド幅 [33]

-T INT 最小スコアしきい値を a で割った値 [37]

-c FLOAT クエリの長​​さに応じてしきい値を調整するための係数。 与えられた
l-long クエリの場合、保持されるヒットのしきい値は次のとおりです。
a*max{T,c*log(l)}。 [5.5]

-z INT Z 最適ヒューリスティック。 -z を大きくすると、速度が犠牲になりますが、精度が向上します。 [1]

-s INT シードを開始するための最大 SA 間隔サイズ。 -s が大きいほど増加します
速度を犠牲にして精度を犠牲にします。 [3]

-N INT スキップする結果の位置合わせをサポートするシードの最小数
逆アライメント。 [5]

SAM 調整 FORMAT


の出力 「アルン」 コマンドはバイナリであり、BWA でのみ使用するように設計されています。 BWA が出力するのは、
SAM (Sequence Alignment/Map) 形式での最終的なアライメント。 各行は次のもので構成されます。

┌────┬───────┬───────────── ─────────────┐
鞍部フィールド 詳細説明
§────┼───────┼───────────── ─────────────┤
│ 1 │ QNAME │ クエリ(ペア)名 │
│ 2 │ FLAG │ ビットごとの FLAG │
│ 3 │ RNAME │ 参照配列名 │
│ 4 │ POS │ クリップされたシーケンスの 1 から始まる左端の POSition/座標 │
│ 5 │ MAPQ │ マッピング品質 (Phred スケール) │
│ 6 │ CIAGR │ 拡張 CIGAR 文字列 │
│ 7 │ MRNM │ メイト参照配列 NaMe (RNAME と同じ場合は `=') │
│ 8 │ MPOS │ 1 ベースのメイト位置 │
│ 9 │ ISIZE │ 推定挿入サイズ │
│10 │ SEQ │ リファレンスと同じ鎖上のクエリ配列 │
│11 │ QUAL │ クエリ QUALity (ASCII-33 は Phred の基本品質を示します) │
│12 │ OPT │ 変数 TAG:VTYPE:VALUE 形式のオプションフィールド │
━───┴───────┴───────────── ─────────────┘

FLAG フィールドの各ビットは次のように定義されます。

┌───┬───┬───────────── ────┐
BCフラグ 詳細説明
§────┼───┼───────────── ────┤
│ p │ 0x0001 │ 読み取りはシーケンスでペアになっています │
│ P │ 0x0002 │ 読み取りは適切なペアにマップされています │
│ u │ 0x0004 │ クエリシーケンス自体はマップされていません │
│ U │ 0x0008 │ メイトはマップされていません │
│ r │ 0x0010 │ クエリのストランド (逆の場合は 1) │
│ R │ 0x0020 │ 仲間の鎖 │
│ 1 │ 0x0040 │ 読み取りはペアの最初の読み取りです │
│ 2 │ 0x0080 │ 読み取りはペアの XNUMX 番目の読み取りです │
│ s │ 0x0100 │ アライメントはプライマリではありません │
│ f │ 0x0200 │ QC 失敗 │
│ d │ 0x0400 │ 光学式または PCR 複製 │
│ S │ 0x0800 │ 補助整列 │
━───┴───┴───────────── ────┘

ご確認くださいhttp://samtools.sourceforge.net> フォーマット仕様と
アライメントの後処理のためのツール。

BWA は次のオプションのフィールドを生成します。 「X」で始まるタグは BWA に固有です。

┌────┬───────────────────┐
タグ意味
§────┼─────────────── ──────┤
NM │ 距離を編集 │
MD │ 位置/塩基の不一致 │
AS │ アライメントスコア │
BC │ バーコード配列 │
SA │ 補助アライメント │
§────┼─────────────── ──────┤
X0 │ ベストヒット数 │
X1 │ BWA によって検出された次善のヒット数 │
XN │ リファレンス内のあいまいな塩基の数 │
XM │ アライメントの不一致の数 │
XO │ ギャップが開いた数 │
XG │ ギャップ拡張数 │
XT │ タイプ: ユニーク/リピート/N/Mate-sw │
XA │ オルタナティブヒット。 形式: /(chr,pos,CIGAR,NM;)*/ │
§────┼─────────────── ──────┤
XS │ 最適ではないアライメントスコア │
XF │ 正逆アライメントからサポート │
XE │ 支援シード数 │
━━━┴───────────────── ──────┘

XO と XG は BWT 検索によって生成され、CIGAR 文字列は Smith-Waterman によって生成されることに注意してください。
アライメント。 これら XNUMX つのタグは CIGAR 文字列と矛盾している可能性があります。 これはバグではありません。

注意事項 ON 短読 調整


アラインメント 精度
シード処理が無効になっている場合、BWA は最大値を含むアライメントを見つけることを保証します。 最大差分
違いを含む マックスギャップ 内部では発生しないギャップが開く nIndelEnd に向けて血圧
クエリのどちらかの端。 次の場合には、より長いギャップが見つかる可能性があります。 最大ギャップ ポジティブですが、そうではありません
すべてのヒットが見つかることが保証されています。 シード処理が有効な場合、BWA はさらに、最初の
シードレン サブシーケンスには以下が含まれます maxSeedDiff 違い。

ギャップ アライメントが無効になっている場合、BWA は Eland と同じアライメントを生成することが期待されます。
バージョン 1、Illumina アライメント プログラム。 ただし、BWA はデータベース内の「N」を変更するため、
シーケンスをランダムなヌクレオチドに変換すると、これらのランダムなシーケンスに対するヒットもカウントされます。 として
その結果、ランダム シーケンスがたまたま一致した場合、BWA はユニークなヒットをリピートとしてマークする可能性があります。
データベース内で固有であるはずの配列と同一です。

デフォルトでは、ベストヒットの繰り返しがそれほど多くない場合 (-R で制御)、BWA はまた、
すべてのヒットにはもう XNUMX つ不一致が含まれています。 それ以外の場合、BWA はすべてのベスト ヒットのみを同様に検索します。 ベース
ヒットの評価では品質は考慮されません。 ペアエンド モードでは、BWA はすべてのヒットをペアリングします
それは見つかりました。 さらに、マッピングされていない読み取りに対してスミスとウォーターマンのアライメントを実行して読み取りをレスキューします。
エラー率が高く、潜在的なアライメントを修正するための高品質の異常ペアの場合
エラーが。

見積もり インサート サイズ 販売
BWA は、256*1024 読み取りペアごとの挿入サイズの分布を推定します。 まず集めます
両端がシングルエンド品質 20 以上でマッピングされたリードのペア
中央値 (Q2)、下位四分位数および上位四分位数 (Q1 および Q3) を計算します。 平均を推定し、
インサートサイズが以下の範囲内にあるペアからのインサートサイズ分布の分散
間隔 [Q1-2(Q3-Q1)、Q3+2(Q3-Q1)]。 ペアの最大距離 x は、
適切にペアになっている (SAM フラグ 0x2) は、方程式 Phi((x-mu)/sigma)=x/L*p0 を解くことによって計算されます。
ここで、mu は平均、sigma は挿入サイズ分布の標準誤差、L は
ゲノムの長さ、p0 は異常ペアの前にあり、Phi() は標準です
累積分布関数。 Illumina のショートインサート読み取りを人間にマッピングするため
ゲノムでは、x は平均値から約 6 ~ 7 シグマ離れています。 四分位、平均、分散、x は次のようになります。
標準エラー出力に出力されます。

メモリ 要件
bwtsw アルゴリズムでは、完全なヒトゲノムのインデックス作成に 5 GB のメモリが必要です
シーケンス。 短い読み取りの場合、 アルン コマンドは最大 3.2 GB のメモリを使用し、 サンペ コマンドは使用します
~5.4GB。

速度
ヒトゲノム配列のインデックス作成には、bwtsw アルゴリズムを使用すると 3 時間かかります。 より小さいインデックス作成
IS アルゴリズムを使用したゲノムは高速ですが、より多くのメモリを必要とします。

アライメントの速度は主に、クエリ配列のエラー率 (r) によって決まります。
まず、BWA は、多くの違いがあるヒットよりも、ほぼ完璧なヒットの方がはるかに高速に実行されます。
l 差分のヒットが見つかった場合は、l+2 の差分を持つヒットの検索を停止します。 これ
r が高い場合、BWA は非常に遅くなるという意味です。この場合、BWA は次のヒットを訪問する必要があります。
多くの違いがあり、これらのヒットを探すには費用がかかります。 XNUMX番目に、アライメント
背後にあるアルゴリズムにより、速度が [k log(N)/m] に敏感になります。ここで、k は許容される最大値です
違い、N はデータベースのサイズ、m はクエリの長​​さです。 実際には k を選択します
wrt r であるため、r が主要な要素となります。 データに対して BWA を使用することはお勧めしません
r>0.02の場合。

読み取りが短い場合、ペアリングは遅くなります。 これは主に、短い読み取りほど多くの読み取りが行われるためです。
偽のヒットや SA 座標から染色体座標への変換は非常にコストがかかります。

CHANGES IN BWA-0.6


バージョン 0.6 以降、BWA は 4GB を超える参照ゲノムを処理できるようになりました。
この機能により、順方向および逆方向に相補されたゲノムを統合することが可能になります。
XNUMX つの FM インデックス。これにより、BWA-short と BWA-SW の両方が高速化されます。 トレードオフとして、BWA はより多くのデータを使用します
すべての位置とランクを 64 倍の大きさの XNUMX ビット整数で保持する必要があるため、
以前のバージョンで使用されていた 32 ビット整数よりも優れています。

最新のBWA-SWは、100bpを超えるペアエンドリードにも機能します。 BWAと比較すると、
簡単に言えば、BWA-SW は非常にユニークな読み取りに対してより正確であり、読み取りに対してより堅牢である傾向があります。
比較的長い INDEL と構造バリアント。 それにもかかわらず、BWA-short は通常、より高い
最適なヒットを多くの準最適なヒットから区別する能力。 マッピングの選択
アルゴリズムはアプリケーションによって異なる場合があります。

onworks.net サービスを使用して bwa オンラインを使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad




×
Advertisement
❤️ここでショッピング、予約、購入してください。料金はかかりません。これにより、サービスが無料で維持されます。