これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド blasr です。
プログラム:
NAME
blasr - SMRT シーケンスを参照ゲノムにマッピングします。
SYNOPSIS
ブラス read.bam ゲノム.ファスタ -バム -でる アウトバム
ブラス read.fasta ゲノム.ファスタ
ブラス read.fasta ゲノム.ファスタ -さ ゲノム.ファスタ.サ
ブラス reads.bax.h5 ゲノム.ファスタ [-さ ゲノム.ファスタ.サ]
ブラス reads.bax.h5 ゲノム.ファスタ -さ ゲノム.ファスタ.サ -maxScore -100 -minMatch 15 ...
ブラス reads.bax.h5 ゲノム.ファスタ -さ ゲノム.ファスタ.サ -nproc 24 -でる アライメント.アウト ...
DESCRIPTION
ブラス クラスタリングによってリードをゲノム内の位置にマッピングするリードマッピングプログラムです
リードとゲノム間の短い完全一致、およびアライメントを使用したクラスターのスコアリング。
一致は、
サフィックス配列。 グローバル チェーン手法を使用して、一致のクラスターをスコアリングします。
blasr に必要な入力は、リードのファイルと参照ゲノムだけです。 それは
フィルタリング情報を読み取ると非常に便利で、マッピングの実行時間が短縮される可能性があります。
実質的には、参照シーケンス上の事前に計算されたサフィックス配列インデックスが
指定。
読み取りは FASTA 形式で入力できますが、推奨される入力は PacBio BAM ファイルです
これらには、アライメントで使用され、生成される質の高い値の情報が含まれているためです。
より高品質なバリアント検出。 アライメントはさまざまな形式で出力できますが、
推奨される出力形式は PacBio BAM です。 bax.h5 および plx.h5 ファイルのサポートは、
廃止。 h5 ファイルのリージョン テーブルのサポートは、 廃止.
ゲノムのサフィックス配列インデックスが指定されていない場合、サフィックス配列は前に構築されます。
アライメントを生成します。 ゲノムが大きい場合 (例: ヒト)、これは法外に遅くなる可能性があります。
プログラムを使用してゲノムのサフィックス配列を事前計算するのが最善です。 サライター(1)と、
次に、コマンドラインでサフィックス配列を指定します。 -さ ゲノム.ファ.サ.
オプションのパラメータは、アンカリングの制御、
アライメントスコアリングと出力。
デフォルトのアンカー パラメーターは、最大 5% の小さなゲノムとサンプルに最適です。
参照ゲノムからの相違。 速度と感度を制御する主なパラメータ
は -minMatch パラメータ。 ヒトゲノムアライメントの場合、11 以上の値が
おすすめされた。 アライメントを高速化するためにいくつかの方法が使用される場合がありますが、
感度が低下する可能性があります。
繰り返しが多すぎる領域は、マッピング中に数を制限することで無視される場合があります。
読み取りマップの位置を -maxAnchorsPerPosition オプション。 500 から XNUMX までの値
1000はヒトゲノムに有効です。
細菌ゲノムや BAC などの小さなゲノムの場合は、デフォルトのパラメーターで十分です
最大の感度と良好な速度を実現します。
OPTIONS
入力
読み込み
read.bam
読み取りの PacBio BAM ファイル。 これは、次の場合に推奨される入力です。 ブラス
豊富な品質値(挿入、削除、置換)があるため、
品質値) 情報は維持されます。 余分な品質
情報により、バリアントの検出とマッピングの速度が向上します。
read.fasta
どの fasta ファイルでも有効な入力ですが、読み取りの multi-fasta ファイル
reads.bax.h5|reads.plx.h5
老人 廃止 SMRT 読み取りの出力形式。
入力.fofn
ファイル名のファイル
-さ 接尾辞配列ファイル
読み取りと一致を検出するには、サフィックス配列「sa」を使用します。
参照。 サフィックス配列は、 サライター(1)プログラム。
-ctab タブ
一致の重要性を推定するために使用されるタプル数のテーブル。 これは、
プログラム「printTupleCountTable」。 オンザフライで素早く生成できる一方で、
の呼び出しが多数ある場合 ブラス、ctab を事前計算すると便利です。
-地域テーブル テーブル (廃止)
読み取り部分をマスクするために、HDF 形式の読み取り領域テーブルを読み取ります。
入力ファイルまたは fofn が XNUMX つだけある場合、これは XNUMX つのテーブルになる可能性があります。 いつ
リージョン テーブルが指定されている場合、reads.plx.h5 内の任意のリージョン テーブル、または
reads.bax.h5 ファイルは無視されます。
(非推奨) オプション の 修正する 読む。
読み取りの部分文字列に関する補助情報があり、
各読み取りファイルの「リージョン テーブル」。 HDFを使用しているため、リージョンテーブルは
.bax.h5 または .plx.h5 ファイルの一部、または別のファイル。 連続して読む
テンプレートの部分文字列はサブリードであり、どの読み取りにも複数の文字列が含まれる可能性があります。
サブリード。 サブリードの境界は領域テーブルから推測できます。
直接またはアダプター境界の定義によって。 通常はリージョンテーブル
また、高品質領域と低品質領域の位置に関する情報も含まれています。
読みます。 空の ZMW からのスプリアス読み取りによって生成された読み取りは高品質で開始されます
座標が高品質の端に等しいため、使用可能な読み取りができなくなります。
-useccs
環状コンセンサス配列 (ccs) をアラインメントし、そのアラインメントを報告します。
ccs は、ccs がマップされたウィンドウをサブ読み取ります。 のアライメントのみ
サブリードが報告されます。
-useccsall
そして -useccsただし、すべてのサブリードが整列していることを除きます。
ccs を呼び出すために使用されるサブリード。 これには、一部のみをカバーする読み取りも含まれます
テンプレートの。
-useccsdenovo
循環的なコンセンサスを調整し、ccs の調整のみを報告する
シーケンス。
-noSplitSubreads (false)
アダプタでサブリードを分割しないでください。 これは通常、次の場合にのみ役に立ちます。
既知のテンプレートの展開されたバージョンのゲノムであり、テンプレートが含まれています。
アダプターリバース_テンプレートシーケンス。
-ignore地域 (false)
領域テーブル内の情報はすべて無視します。
-ignoreHQRegions (false)
リージョン テーブル内のすべての HQ リージョンを無視します。
配置 に レポート
-ベストン n (10)
トップをレポートする n 配置。
-hitPolicy (すべて)
[all、allbest、random、
ランダムベスト、左端]
を すべての調整を報告します。
オールベスト
すべての等しく最高得点のアラインメントをレポートします。
ランダム ランダムな配置を報告します。
ランダムベスト
複数の同等の上位スコアからのランダムな配置をレポートします
配置。
左端
最高のアライメントスコアを持ち、
参照内の最小のマッピング座標。
-placesランダムに繰り返す (false)
廃止されました! true の場合、次と同等 -hitPolicy ランダムベスト.
-ランダムシード (0)
乱数発生器のシード。 デフォルト (0) では、現在の時刻をシードとして使用します。
-noSortRefinedAlignments (false)
候補アライメントが生成され、スパース ダイナミックによってスコア付けされると、
プログラミングの場合、それらは、以下を考慮したローカル アライメントを使用して再スコア化されます。
異なるエラープロファイル。 現地の調整に基づいたリゾートは変更される可能性があります
ヒットが返される順序。
-allowAdjacentIndels
指定すると、隣接した挿入または削除が許可されます。 さもないと、
隣接する挿入と削除は XNUMX つの操作にマージされます。 使用する
ペアワイズアライメントのガイドとなる品質値は、より高い値を決定する可能性があります。
確率アライメントには、隣接する挿入または削除が含まれます。 現在
GATK などのツールではこれが許可されていないため、レポートされません。
デフォルト。
出力 フォーマット
-でる でる (ターミナル)
出力をに書き込む でる.
-サム 出力を SAM 形式で書き込みます。
-m t SAM を印刷しない場合は、位置合わせの出力を変更します。
日時 t 次のとおりです。
0 一致するヌクレオチドを | で接続して、blast のような出力を出力します。
1 スコアと順位の概要のみを出力します。
2 Compare.xml 形式で印刷します。
3 低俗な形式で印刷する (廃止).
4 アライメントの長い表形式のバージョンを印刷します。
5 機械で読み取れる形式で印刷します。
比較シーケンス.py。
-ヘッダ
内容を説明するヘッダーを出力ファイルの最初の行として出力します。
各列の。
-タイトルテーブル タブ (ヌル)
参照シーケンスのタイトルのテーブルを作成します。 参照配列は次のとおりです。
行、0,1、XNUMX、... によって列挙されます。参照インデックスは整列して出力されます。
完全な参照名ではなく、結果が表示されます。 これにより出力が簡潔になり、
特に参照名に非常に冗長なタイトルが存在する場合。
-不整列 file
アライメントされていない出力読み取り file
-クリッピング [なし|ハード|サブリード|ソフト] (なし)
SAM/BAM 出力の場合のみ、ノー/ハード/サブリード/ソフト クリッピングを使用します。
-printSAMQV (false)
SAM 出力に品質値を印刷します。
-cigarUseSeqMatch (false)
SAM/BAM 出力の CIGAR 文字列は、シーケンスの一致を表すために「=」と「X」を使用します。
「M」の代わりに不一致です。
オプション の 固着 アラインメント 地域。
これは速度と感度に最大の影響を与えます。
-minMatch m (12)
シードの最小長。 minMatch を高くすると、アライメントの速度は上がりますが、速度は低下します。
感度。
-maxMatch l (詳細)
lcp 長に達したら、リードのゲノムへのマッピングを停止します l。 これは
クエリが参照の一部である場合、たとえば次のような場合に便利です。
de novo アセンブリのためのペアワイズ アラインメントの構築。
-maxLCPLength l (詳細)
と同じ -maxMatch.
-maxAnchorsPerPosition m (10000)
一致する位置が次の位置にある場合は、その位置からアンカーを追加しないでください。 m の場所
ターゲット。
-advance完全一致 E (0)
マッチとの位置合わせを高速化するためのもう XNUMX つのトリック - アンカーの数を減らすことです。
毎回リードとゲノムの間のアンカーを見つけるのではなく、
読み取り内の位置 (読み取り内の位置 i でアンカーが見つかった場合)
長さ L の場合、アンカーを見つけるための読み取り内の次の位置は i+LE になります。 使用
これは、すでに組み立てられたコンティグを整列させるときに行われます。
-n候補 n (10)
常に最新の状態に保つ n 最適な調整の候補。 n の値が大きいと、
遅い動的プログラミング手順が適用されるため、マッピングが遅くなります。
アンカーのクラスターが増えると、読み取りが制限される場合にレート制限ステップとなる可能性があります。
とても長いです。
-一致する (false)
zmw (ホール) のすべてのサブリードを、
zmw に合わせます。 これには、リージョン テーブルと HQ リージョンを使用する必要があります。
このオプションは、読み取りがベースまたはパルス h5 形式である場合にのみ機能します。
-concordantTemplate (メディアンサブリード)
zmw のフルパス サブリードを一致マッピングのテンプレートとして選択します。
longestsubread - 最長のフルパス サブリードを使用します mediansubread -
中央値の長さのフルパス サブリード典型的なサブリード - XNUMX 番目に長いフルパスを使用します
最長のフルパスサブリードの長さが外れ値である場合、サブリードをパスします。
-fastMaxInterval (false)
アライメント候補としての高速検索の最大増加間隔。 検索
デフォルトほど網羅的ではありませんが、はるかに高速です。
-aggressiveIntervalCut (false)
有望でないアライメント候補が存在する場合は、積極的に除外します。
少なくともXNUMX人の有望な候補者。 このオプションをオンにすると、 ブラス is
ALU 要素の短いアライメントは無視される可能性があります。
-fastSDP (false)
高速ヒューリスティック アルゴリズムを使用して、スパース動的プログラミングを高速化します。
オプション の 精錬 ヒット
-sdpTupleSize K (11)
長さの一致を使用する K 動的プログラミングの調整を高速化します。 これ
マッピング後のペアワイズアライメントにおけるギャップ割り当ての精度を制御します
感度そのものをマッピングするのではなく、
-スコアマトリックス スコア マトリックス string
fasta 読み取りをスコアリングするための代替スコア行列を指定します。 マトリックスは
形式で
ACGTN
abcde
C fghij
G klmno
T pqrst
N uvwxy
値 a...y は、引用符で囲まれたスペースで区切られた文字列として入力する必要があります: "abc
... y"。低いスコアの方が優れているため、一致は不一致よりも少なくなるはずです。
たとえば、a、g、m、s = -5 (一致)、不一致 = 6。
-affineOpen 値 (10)
アフィン位置合わせを開く際のペナルティを設定します。
-affineExtend a (0)
アフィン(拡張)ギャップペナルティを変更します。 値を小さくすると、より多くのギャップが許容されます。
オプション の オーバーラップ/ダイナミック プログラミング アラインメント ペアごと オーバーラップ の de 新しい
アセンブリ。
-使用品質 (false)
品質値の置換/挿入/削除/マージを使用してギャップをスコア化し、
ペアワイズアライメントにおける不一致ペナルティ。 なぜなら挿入と
削除率は置換よりもはるかに高いため、多くの
アラインメントでは、置換よりも挿入/削除が優先されます。nNaive コンセンサス
メソッドの呼び出しでは、置換多態性が失われることがよくあります。 このオプション
Quiver メソッドを使用してコンセンサスを呼び出すときに使用する必要があります。 さらに、
アライメントのスコア付けに品質値を使用しない場合、スコアは低くなります。
ホモリマー領域のコンセンサス精度。
-affineAlign (false)
アフィンガイド付き位置合わせを使用して位置合わせを調整します。
オプション の フィルタリング 読み込み アラインメント
-minReadLength l (50)
全長が以下の読み取りをスキップする l。 サブリードは短くなる可能性があります。
-minSubreadLength l (0)
以下の長さのサブリードを整列させないでください。 l.
-minRawSubreadScore m (0)
領域テーブルの品質スコアが以下のサブリードを整列させない m
(品質スコアは [0, 1000] の範囲内である必要があります)。
-maxScore m (-200)
出力する最大スコア (高ければ悪い、マイナスは良い)。
-minAlnLength
(0) アライメントの長さが minAlnLength より大きい場合にのみアライメントを報告します。
-minPct類似度 (0) 類似性のパーセンテージが次の場合にのみアラインメントをレポートします。
minPctSimilarity より大きい。
-minPct精度
(0) 精度のパーセンテージが以下の場合にのみアライメントをレポートします。
最小精度。
オプション の パラレル アラインメント
-nproc N (1)
を使用して位置合わせします N プロセス。 サフィックス配列などのすべての大きなデータ構造
とタプル数テーブルは共有されます。
-開始 S (0)
アライメントを開始する最初の読み取りのインデックス。 複数の場合に便利です
インスタンスが同じデータ上で実行されている場合 (たとえば、マルチラック上にある場合)
クラスタ。
-ストライド S (1)
読み取りごとに XNUMX つの読み取りを揃える S 読む。
オプション の サブサンプリング 読む。
-サブサンプル (0)
ランダムにサブサンプリングするリードの割合 (XNUMX 進数で表現) と
整列します。
-holeNumbers LIST
指定すると、ZMW ホール番号が含まれるリードのみが整列されます。 LIST. LIST
「1,2,3,10-13」などのカンマ区切りの範囲の文字列です。 このオプション
読み取りが bam、bax.h5、または plx.h5 形式の場合にのみ機能します。
-h ヘルプ情報を印刷します。
引用
BLASR を引用するには、Chaisson MJ、Tesler G.、単一分子のマッピングを使用してください。
Basic Local Alignment with Successive Refinement (BLASR) を使用したシーケンス読み取り: 理論
およびアプリケーション、BMC バイオインフォマティクス 2012、13:238。
onworks.net サービスを使用して blasr オンラインを使用する