これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドmaqです。
プログラム:
NAME
Maq-品質を備えたマッピングとアセンブリ
SYNOPSIS
マック command [オプション] 引数
maq.pl command [オプション] 引数
DESCRIPTION
Maqは、次の読み取りによって生成された短い読み取りからマッピングアセンブリを構築するソフトウェアです-
世代シーケンスマシン。 特にイルミナ-ソレクサ1Gジェネティック向けに設計されています
アナライザーであり、ABSOLiDデータを処理するための予備機能があります。
Maqを使用すると、次のことができます。
・イルミナ/SOLiDリードをリファレンスゲノムに高速アラインします。 デフォルトのオプションでは、XNUMXつ
数百万ペアの読み取りを約10CPU時間でヒトゲノムにマッピングできます。
1Gメモリより。
・個々の読み取りの位置合わせのエラー確率を正確に測定します。
・ホモ接合型およびヘテロ接合型の多型を含むコンセンサス遺伝子型を、
各拠点に割り当てられたPhredの確率的品質。
・ペアエンドリードで短いインデルを見つけます。
・ペアエンドリードを使用して、大規模なゲノムの欠失と転座を正確に検出します。
・読み取り深度をチェックして、潜在的なCNVを発見します。
・シーケンサーからの生の基本品質の精度を評価し、
体系的なエラー。
ただし、Maqは NOT:
・ 行う de 新しい 組み立て。 (Maqは、読み取りを既知のものにマッピングすることによってのみコンセンサスを呼び出すことができます
参照。)
・マップショーツは自分自身に対して読み取ります。 (Maqは、読み取り間の完全な重複のみを見つけることができます。)
・キャピラリーリードまたは454リードをリファレンスに合わせます。 (Maqは読み取りをより長く整列させることはできません
63bp。)
QAM コマンド
キー コマンド
ファスタ2bfa マック ファスタ2bfa in.ref.fasta out.ref.bfa
FASTA形式のシーケンスをMaqのBFA(バイナリFASTA)形式に変換します。
速いq2bfq マック 速いq2bfq [-n 読み取ります] in.read.fastq out.read.bfq⎪out.prefix
FASTQ形式の読み取りをMaqのBFQ(バイナリFASTQ)形式に変換します。
オプション:
-n INT ファイルあたりの読み取り数[指定なし]
地図 マック 地図 [-n ンミス] [-a マキシン] [-c] [-1 len1] [-2 len2] [-d アダプ3] [-m 変異する]
[-u マップされていない] [-e マックスエラー] [-M c⎪g][-N] [-H すべてヒット] [-C マックスヒッツ] アウトアルンマップ
in.ref.bfa in.read1.bfq [in.read2.bfq] 2> out.map.log
読み取りを参照シーケンスにマップします。
オプション:
-n INT 常に見つけることができる最大の不一致の数[2]
-a INT 正しい読み取りペアの最大外部距離[250]
-A INT 0つのRFペイド読み取りの最大外部距離(無効の場合は0)[XNUMX]
-c マップは色空間で読み取ります(SOLiDの場合のみ)
-1 INT 最初の読み取りの読み取り長、自動[0]の場合は0
-2 INT 0回目の読み取りの読み取り長、自動[0]の場合はXNUMX
-m FLOAT 参照配列と読み取りの間の変異率[0.001]
-d FILE 3'アダプタシーケンスのXNUMX行を含むファイルを指定します
[ヌル]
-u FILE マップされていない読み取りと、 ンミス との不一致
別のファイル[null]
-e INT 不一致の基本品質の合計のしきい値[70]
-H FILE 複数/すべての01-不一致ヒットをダンプする FILE [ヌル]
-C INT 出力するヒットの最大数。 512より大きい場合は無制限。[250]
-M c⎪gメチル化アラインメントモード。 フォワードストランド上のすべてのC(またはG)は
T(またはA)に変更されました。 このオプションはテスト専用です。
-N 不一致の位置を出力ファイルに保存します アウトアルンマップ。 これが
オプションが使用されている場合、最大許容読み取り長は55bpです。
注意:
*ペアエンドリードは、両端にXNUMXつずつ、合計XNUMXつのファイルで準備する必要があります。
読み取りは同じ順序でソートされます。 これは、最初に読み取られたk番目を意味します
ファイルは、XNUMX番目のファイルで読み取られたk番目のファイルと結合されます。 対応する読み取り
名前は、末尾の `/1'または`/2'まで同一である必要があります。 たとえば、そのような
読み取り名のペアが許可されます: `EAS1_1_5_100_200 /1'と
`EAS1_1_5_100_200 /2'。 テーリング`/[12]'は通常、
ペアの両端を区別するGAPipeline。
*出力は圧縮されたバイナリファイルです。 エンディアンの影響を受けます。
*このコマンドを実行する最良の方法は、次のように約1万から3万の読み取りを提供することです。
入力。 読み取りが多いほど、より多くのメモリが消費されます。
*オプション -n アライメントの感度を制御します。 デフォルトでは、
最大2つの不一致が常に見つかります。 より高い -n より多くのヒットを見つけ、また
マッピング品質の精度が向上します。 ただし、これはコストがかかります
速度の。
*多くの高品質の不一致があるアライメントはfalseとして破棄する必要があります
アライメントまたは汚染の可能性。 この動作はオプションによって制御されます
-eを選択します。 -e しきい値は、基本品質のために概算でのみ計算されます
アラインメントの特定の段階で10で除算されます。 The -Q 内のオプション
組み立てる コマンドは正確にしきい値を設定します。
*読み取りのペアは、次の場合にのみ正しくペアになっていると言われます。
向きは FR ペアの外側の距離は
マキシン。 最小インサートサイズに制限はありません。 この設定は
Maqで使用されているペアエンドアラインメントアルゴリズムによって決定されます。 が必要
最小インサートサイズは、高度にいくつかの間違った位置合わせにつながります
過大評価されたマッピング品質。
*現在、イルミナ/ソレクサのロングインサートライブラリからの読み取りペアにはRF読み取りがあります
オリエンテーション。 最大インサートサイズはオプションで設定されます -A。 しかし、長い-
挿入ライブラリは、短い挿入読み取りのごく一部と混合されています
-a また、正しく設定する必要があります。
*5'-endまたは3'-adapterシーケンス全体がシーケンスされる場合があります。
提供 -d Maqをレンダリングして、アダプターの汚染を排除します。
*入力として2万回の読み取りが与えられた場合、 マック 通常、800MBのメモリを使用します。
マップマージ マック マップマージ アウトアルンマップ in.aln1.map in.aln2.map [...]
読み取りアライメントのバッチをマージします。
注意:
*理論的には、このコマンドは無制限の数の配置をマージできます。 しかし、
mapmergeはすべての入力を同時に読み取るため、
OSが設定するファイルを開く最大数の制限。 現在、これ
エンドユーザーが手動で解決する必要があります。
* 指示 マップマージ 異なる読み取り値を持つアライメントファイルをマージするために使用できます
長さ。 以降のすべての分析では、固定長を想定していません。
rmdup マック rmdup out.rmdup.map in.ori.map
同一の外部座標を持つペアを削除します。 原則として、
同一の外部座標はめったに発生しないはずです。 ただし、
サンプル調製における増幅、これはよりもはるかに頻繁に発生します
チャンス。 実用的な分析は、重複を削除することが改善に役立つことを示しています
SNP呼び出しの全体的な精度。
組み立てる マック 組み立てる [-sp] [-m マックスミス] [-Q マックスエラー] [-r ヘトレート] [-t 係数] [-q minQ] [-N
んはっぷ] out.cns in.ref.bfa in.aln.map 2> out.cns.log
読み取りマッピングからコンセンサス配列を呼び出します。
オプション:
-t FLOAT エラー依存係数[0.93]
-r FLOAT すべてのサイト間のヘテロ接合体の割合[0.001]
-s 最終的なマッピング品質としてシングルエンドマッピング品質を採用します。
それ以外の場合は、ペアエンドマッピング品質が使用されます
-p 正しいペアにマッピングされていないペアエンドリードを破棄する
-m INT 読み取りに使用できる不一致の最大数
コンセンサスコール[7]
-Q INT 不一致の塩基の品質値の最大許容合計[60]
-q INT 読み取りをコンセンサスで使用できる最小のマッピング品質
[0]を呼び出す
-N INT プール内のハプロタイプの数(> = 2)[2]
注意:
*オプション -Q 不一致の基本品質の最大合計に制限を設定します。
高品質の不一致が多数含まれている読み取りは破棄する必要があります。
*オプション -N プール内のハプロタイプの数を設定します。 それはのために設計されています
複数の菌株/個体を一緒にプールすることによるサンプルのリシーケンシング。 にとって
二倍体ゲノムのリシーケンシング、このオプションは2に等しい。
グフゲン マック グフゲン [-sp] [-m マックスミス] [-Q マックスエラー] [-r ヘトレート] [-t 係数] [-q minQ] [-N
んはっぷ] out.cns in.ref.bfa in.aln.map 2> out.cns.log
すべての遺伝子型の対数尤度を計算し、結果をGLF形式で保存します
(ジェノタイピングの可能性フォーマット)。 詳細については、MAQのWebサイトを確認してください
ファイル形式と関連ユーティリティの説明。
インデルペ マック インデルペ in.ref.bfa in.aln.map > アウト・インデルペ
ペアエンドリードから一貫したインデルを呼び出します。 出力はTABで区切られます
染色体、開始位置、インデルの種類、番号で構成される各行
インデル全体の読み取り数、インデルのサイズ、挿入/削除されたヌクレオチド
(コロンで区切られています)、逆ストランド上のインデルの数、インデルの数
フォワードストランドでは、インデルの5'シーケンスの前、3'シーケンスの後に
インデル、インデルなしで整列された読み取りの数、およびXNUMXつの追加の列
フィルタ用。
3列目のインデルの種類で、星はインデルが確認されたことを示します
両方のストランドからの読み取りで、プラスはインデルが少なくともXNUMX回の読み取りでヒットしたことを意味します
しかし、同じストランドから、マイナスはインデルがXNUMX回の読み取りでのみ検出されることを示します。
ドットは、インデルが別のインデルに近すぎて除外されていることを意味します。
ユーザーは、 `maq.pl indelpe'を実行して、
インデルなしでマップされた読み取り。 詳細については、`maq.plindelpe'を参照してください。
のセクションから無料でダウンロードできます。
インデルソア マック インデルソア in.ref.bfa in.aln.map > アウト・インデルソア
異常を検出することにより、潜在的なホモ接合のインデルとブレークポイントを呼び出す
インデルとブレークポイントの周りの配置パターン。 出力もTABです
染色体、おおよその座標、
異常領域の長さ、位置全体にマッピングされた読み取りの数、
位置の左側の読み取り数と上の読み取り数
右側。 最後の列は無視できます。
出力には多くの誤検知が含まれています。 推奨されるフィルターは次のとおりです。
awk'$ 5 + $ 6- $ 4> = 3 && $ 4 <= 1'in.indelsoa
このコマンドは、正確なインデル検出器を目的としたものではなく、正確なインデル検出器を目的としていることに注意してください。
主に、置換呼び出しでの誤検知を回避するのに役立ちます。 の
さらに、それは深い深さ(たとえば〜40X)でのみうまく機能します。 それ以外の場合は
偽陰性率は非常に高くなります。
フォーマット 加工
ソルサンガー マック ソルサンガー in.sol.fastq アウト・サンガー・ファストq
SolexaFASTQを標準/SangerFASTQ形式に変換します。
bfq2fastq マック bfq2fastq in.read.bfq 読み出しが早いq
MaqのBFQ形式を標準のFASTQ形式に変換します。
mappass2maq マック mappass2maq in.mapass2.map out.maq.map
廃止されたmapass2のマップ形式をMaqのマップ形式に変換します。 古いフォーマットは
読み取り名は含まれません。
情報 抽出
マップビュー マック マップビュー [-bN] in.aln.map > out.aln.txt
読み取りアライメントをプレーンテキストで表示します。 スミスの前に整列された読み取りの場合-
ウォーターマンアラインメント、各行は読み取り名、染色体、位置、
ストランド、ペアの外側のcoorniatesからサイズを挿入、ペアのフラグ、マッピング
品質、シングルエンドマッピング品質、代替マッピング品質、数
ベストヒットのミスマッチ、ベストのミスマッチベースの品質の合計
ヒット、最初の0bpの24ミスマッチヒットの数、1ミスマッチヒットの数
参照の最初の24bp、読み取りの長さ、読み取りシーケンス、および
品質。 代替マッピング品質は、次の場合、常にマッピング品質と等しくなります。
読み取りはペアになりません。 読み取りがペアになっている場合、それは小さい方のマッピングに等しくなります
両端の品質。 この代替マッピング品質は、実際には
異常なペアのマッピング品質。
4番目の列であるペアフラグはビット単位のフラグです。 その下位XNUMXビットは
方向:1はFF、2はFR、4はRF、8はRRを表します。ここで、FRは
より小さな座標での読み取りはフォワードストランド上にあり、そのメイトは
逆ストランドに。 正しいペアにはFRのみが許可されます。 上位ビット
このフラグの詳細情報を提供します。 ペアがペアエンドに出会う場合
要件、16が設定されます。 XNUMXつの読み取りが異なるものにマップされている場合
染色体、32が設定されます。 XNUMXつの読み取りのいずれかをまったくマップできない場合は、
64が設定されます。 正しいペアのフラグは常に18になります。
その後、Smith-Watermanアライメントによってアライメントされた読み取りの場合、フラグは次のようになります。
常に130。行は、読み取り名、染色体、位置、ストランド、挿入で構成されます
サイズ、フラグ(常に130)、読み取り時のインデルの位置(インデルがない場合は0)、
インデルの長さ(挿入の場合は正、削除の場合は負)、
その相手のマッピング品質、ベストヒットの不一致の数、合計
ベストヒットの不一致のベースの品質、XNUMXつのゼロ、読み取りの長さ、
シーケンスとその品質を読み取ります。 130フラグの読み取りのメイトは、常に
フラグ18。
フラグ192は、読み取りがマップされていないが、そのメイトがマップされていることを示します。 そのようなために
読み取りペア。一方の読み取りにはフラグ64があり、もう一方の読み取りには192があります。
オプション:
-b 読み取りシーケンスと品質を表示しない
-N 不一致が発生する位置を表示します。 このフラグは機能するだけです
`maq map-N'によって生成された.mapファイルを使用します。
マップチェック マック マップチェック [-s] [-m マックスミス] [-q minQ] in.ref.bfa in.aln.map > アウト.マップチェック
品質チェックをお読みください。 マップチェックは最初に構成と深さを報告します
参照。 その後、フォームがあります。 最初の列は
読み取りの位置。 ヌクレオチドを示す次のXNUMXつの列
構成、参照と読み取りの間の置換率が示されます。
これらのレートと次の列の数値は、999と
最も近い整数に丸められます。 次の列のグループは、
10の品質間隔での読み取りに沿った基本品質。品質の低下
通常は観察できます。つまり、読み取り終了時の塩基が少なくなります。
正確。 列の最後のグループは、の置換の割合を示します
品質間隔で塩基を読み取ります。 これは、基本品質の精度を測定します
推定。 理想的には、1人に3人が見られると思いますか? 列、10の2? 桁
と100の1? 桁。
オプション:
-s 最終的なマッピング品質としてシングルエンドマッピング品質を採用します
-m INT 読み取りをカウントできるミスマタの最大数[4]
-q INT 読み取りをカウントできる最小のマッピング品質[30]
パイルアップ マック パイルアップ [-spvP] [-m マックスミス] [-Q マックスエラー] [-q minQ] [-l サイトファイル] in.ref.bfa
in.aln.map > 積み上げ
配置を「パイルアップ」テキスト形式で表示します。 各行はで構成されています
染色体、位置、参照塩基、深さ、およびカバーする読み取りの塩基
この位置。 もしも -v コマンドライン、基本品質、およびマッピングに追加されます
品質はXNUMX列目とXNUMX列目に順番に表示されます。
XNUMX番目の列は常に`@'で始まります。 この列では、同一の塩基を読み取ります
参照先はコンマ`、'またはドット`。'で示され、異なる塩基を読み取ります
文字の参照から。 カンマまたは大文字は、ベースが
ドットまたは小文字が
逆ストランド。
このコマンドは、独自のSNP呼び出し元を開発したいユーザー向けです。
オプション:
-s 最終的なマッピング品質としてシングルエンドマッピング品質を採用します
-p 正しいペアとしてマッピングされていないペアエンドリードを破棄する
-v 基本品質やマッピングなどの詳細情報を出力します
資質
-m INT 読み取りに使用できる不一致の最大数[7]
-Q INT 不一致の品質値の最大許容数[60]
-q INT 読み取りを使用できる最小のマッピング品質[0]
-l FILE パイルアップが印刷されるサイトを含むファイル。 これで
ファイル最初の列は参照の名前を示し、XNUMX番目の列は参照の名前を示します
座標。 追加の列は無視されます。 [ヌル]
-P 読み取りのベース位置も出力します
cns2fq マック cns2fq [-Q minMapQ] [-n ミンネイク] [-d 最小深度] [-D 最大深度] インチcns >
out.cns.fastq
コンセンサス配列をFASTQ形式で抽出します。 シーケンスラインでは、ベース
小文字は本質的に繰り返しであるか、十分なカバレッジがありません。 基地
大文字は、SNPを確実に呼び出すことができる領域を示します。 の中に
高品質の行、文字から33を引いたASCIIは、PHRED品質を提供します。
オプション:
-Q INT 最小マッピング品質[40]
-d INT 最小読み取り深度[3]
-n INT 最小隣接品質[20]
-D INT 最大読み取りdpeth。 無制限の場合は>=255。 [255]
cns2snp マック cns2snp インチcns > out.snp
SNPサイトを抽出します。 各行は、染色体、位置、参照ベース、
コンセンサスベース、Phredのようなコンセンサス品質、読み取り深度、平均数
この位置をカバーする読み取りのヒット、読み取りの最高のマッピング品質
ポジションをカバーし、3bpフランキングの最小コンセンサス品質
サイトの両側のリージョン(合計6bp)、XNUMX番目に良い呼び出し、ログ
XNUMX番目に良い呼び出しとXNUMX番目に良い呼び出し、およびXNUMX番目に良い呼び出しの可能性の比率
コール。
5列目はSNPの信頼性を判断する際の重要な基準です。
ただし、この品質はサイトの独立性を前提としてのみ計算されるため、
より正確なSNP呼び出しを取得するには、他の列も考慮する必要があります。 脚本
コマンド `maq.pl SNPフィルター'はこのために設計されています(以下を参照)。
7番目の列は、サイトが繰り返し領域にあるかどうかを示します。 いいえの場合
サイトをカバーする読み取りは、高いマッピング品質でマッピングできます。
領域はおそらく反復的であるか、または適切な読み取りが不足しています。 そのようなサイトのSNP
通常は信頼できません。
8列目は、おおよその隣接領域のコピー数を示しています。
リファレンスゲノム。 ほとんどの場合、この数は1.00に近づきます。これは、
地域は約ユニークです。 読み取り深度がゼロではないが、0.00で表示される場合があります。
7列目。 これは、その位置をカバーするすべての読み取りが
少なくとも0つの不一致。 Maqは、1およびXNUMXの不一致ヒットの数のみをカウントします。
参照。 これは、複雑な技術的問題によるものです。
9列目は隣接する品質を示しています。 この列のフィルタリングも
信頼できるSNPを取得するために必要です。 このアイデアはNQSに触発されていますが、NQSは
当初は、コンセンサスではなくXNUMX回の読み取り用に設計されました。
cns2view マック cns2view インチcns > アウトビュー
すべてのサイトで詳細情報を表示します。 出力形式はと同じです
cns2snp レポート。
cns2ref マック cns2ref インチcns > アウトリファレンスファスタ
リファレンスシーケンスを抽出します。
cns2win マック cns2win [-w ウィンサイズ] [-c CHR] [-b 始まる] [-e end] [-q minQ] インチcns >
アウト.ウィン
耕うんウィンドウで平均化された情報を抽出します。 出力はTABで区切られ、
これは、参照名、1,000,000で割った座標、SNPレート、
ヘットレート、生の読み取り深度、ほぼ一意の領域での読み取り深度、
ウィンドウ内の読み取りの平均ヒット数とパーセントGC。
オプション:
-w INT ウィンドウのサイズ[1000]
-c STR 宛先参照シーケンス; それ以外の場合は、すべての参照が使用されます
[ヌル]
-b INT 開始位置、制約なしの場合は0 [0]
-e INT 終了位置、制約なしの場合は0 [0]
-q INT 使用するサイトの最小コンセンサス品質[0]
関連記事
偽物 マック 偽物 [-r 変異する] [-R インデルフラック] in.ref.fasta > out.fakeref.fasta 2>
out.fake.snp
参照に置換とインデルをランダムに導入します。 置換と
sinlge塩基対インデルを追加できます。
オプション:
-r FLOAT 変異率[0.001]
-R FLOAT インデルになる突然変異の割合[0.1]
シムトレイン マック シムトレイン out.simupars.dat in.read.fastq
読み取りシミュレーションのパラメータを推定/トレーニングします。
シミュレートする マック シミュレートする [-d インサイズ] [-s 標準偏差] [-N nRead] [-1 読み取りLen1] [-2 読み取りLen2] [-r
mutRate] [-R インデルフラック] [-h] out.read1.fastq out.read2.fastq in.ref.fasta
in.simupars.dat
ペアエンドリードをシミュレートします。 ファイル in.simupars.dat 読み取り長を決定し、
品質分布。 それはから生成されます シムトレイン、またはからダウンロードできます
Maqのウェブサイト。 出力読み取りファイルでは、読み取り名は参照で構成されます
シーケンス名とシミュレートされた読み取りのペアの外部座標。 に
デフォルト、 シミュレートする 読み取りは、生成されたXNUMX倍体シーケンスからのものであると想定しています
XNUMXつの塩基対インデルを含むXNUMXつの異なる変異セットをに追加することによって
in.ref.fasta.
オプション:
-d INT インサートサイズの外側の距離の平均[170]
-s INT インサートサイズの標準偏差[20]
-N INT 生成される読み取りのペアの数[1000000]
-1 INT 最初の読み取りの長さ[によって設定 in.simupars.dat]
-2 INT XNUMX番目の読み取りの長さ[によって設定 in.simupars.dat]
-r FLOAT 突然変異率[0.001]
-R FLOAT 1bpインデルの割合[0.1]
-h すべての突然変異をに追加します in.ref.fasta シングルから読み取りを生成します
変異配列(半数体モード)
注意:
*このコマンドから生成された読み取りは独立しており、
真実。 アライメント評価はこれによる影響が少ないのに対し、
SNP呼び出しは注意して実行する必要があります。 エラー依存関係は次のいずれかである可能性があります
間違ったSNP呼び出しの主な原因。
シムスタット マック シムスタット in.simu-aln.map > out.simusta
シミュレートされた読み取りからマッピング品質を評価します。
個体 関連記事
fasta2csfa マック fasta2csfa in.nucl-ref.fasta > out.color-ref.fasta
ヌクレオチドFASTAを色分けされたFASTAに変換します。 国旗 -c その後、適用する必要があります
〜へ 地図 指図。 出力では、文字「A」は色0を表し、「C」は1を表し、「G」は
2の場合は「T」、3の場合は「T」。出力の各シーケンスは入力より1bp短い。
csmap2nt マック csmap2nt アウト.nt.マップ in.ref.nt.bfa in.cs.map
カラーアラインメントをヌクレオチドアラインメントに変換します。 入力 in.ref.nt.bfa は
ヌクレオチドバイナリFASTAリファレンスファイル。 元のファイルに対応している必要があります
そこからカラーリファレンスが変換されます。 ヌクレオチドコンセンサスは呼び出すことができます
結果のアライメントから。
その他/上級 コマンド
サブマップ マック サブマップ [-q minMapQ] [-Q maxSumErr] [-m 最大MM] [-p] アウトマップ in.map
で不良アライメントをフィルタリングする in.map。 コマンドラインオプションについては、
`組み立てる' コマンド。
eland2maq マック eland2maq [-q 不等] アウトマップ リスト内 イン・エランド
elandアライメントをmaqの.map形式に変換します。 ファイル リスト内 の
elandアラインメントファイルのXNUMX列目に表示される配列名
イン・エランド そして、maqアライメントで表示されると予想される名前。 以下は
例:
cX.fa chrX
c1.fa ch1
c2.fa ch2
elandを使用して読み取りを複数のバッチで整列させる場合は、次のことを行うことが重要です。
同じものを使う リスト内 変換のため。 さらに、maqはすべての
配置し、メモリ内で並べ替えます。 複数のイランドを連結している場合
XNUMXつの巨大なファイルに出力し、それをより小さなファイルに分割する必要があります
maqがすべてのマシンメモリを消費するのを防ぎます。
このコマンドは、実際にはMaqviewでElandの配置を表示することを目的としています。 品質がないので
情報が利用可能であるため、結果のmaqアライメントファイルは使用しないでください
コンセンサス遺伝子型と呼びます。
エクスポート2マク マック エクスポート2マク [-1 読み取り1レン] [-2 読み取り2レン] [-a 最大距離] [-n] アウトマップ リスト内
輸出入
イルミナのエクスポート形式をMaqのエクスポート形式に変換します 。地図 フォーマット。 エクスポート形式は新しいです
マッピングも計算するSolexaPipeline-0.3.0以降のアライメント形式
maqのような品質。 結果のファイルは、コンセンサス遺伝子型を呼び出すために使用できます
maqがこれを正確に行うために必要な情報のほとんどが利用可能であるため。
オプション:
-1 INT 最初の読み取りの長さ[0]
-2 INT 0番目の読み取りの長さ[XNUMX]
-a INT 正しい読み取りペアの最大外部距離[250]
-n フィルタリングされた読み取りを保持する
MAQ-パール コマンド
デモ maq.pl デモ [-h] [-s] [-N nPair] [-d アウトディレクトリ] インファスタ in.simudat
の使用を示す マック およびそのコンパニオンスクリプト。 このコマンドは
FASTAファイルからの読み取りをシミュレートする インファスタ。 シーケンスの長さと品質
によって決定されます in.simudat から生成されます マック シムトレイン またはすることができます
MaqのWebサイトからダウンロード。 シミュレートされた読み取りは、
maq.pl イージーラン。 アライメント精度は、によって評価されます マック シムスタット
によるコンセンサス精度 マック シムクンス、およびSNPの精度 maq_eval.pl.
デフォルトでは、ペアエンドリードがシミュレートされ、XNUMX倍体シーケンスは次のようになります。
いずれかの半数体タイプに突然変異を追加することにより、入力から生成されます。 インサート
サイズと突然変異率はによって制御されます マック シミュレートする.
オプション:
-h 二倍体配列の代わりに一倍体配列をシミュレートする
-s ペアエンドモードの代わりにシングルエンドモードを使用して読み取りを調整します
-N INT シミュレートする読み取りのペアの数[1000000]
-d DIR 出力ディレクトリ[maqdemo]
注意:
*からの出力ファイル maq_eval.pl 文書化されていませんが、
これらのファイルのいくつかをよく推測してください。
*このコマンドは、maqスイートの使用法を示しているだけです。 実際の精度
ほとんどの場合、データは純粋なシミュレーションから見たものよりも低くなります。
イージーラン maq.pl イージーラン [-1 読み取り1レン] [-d out.dir] [-n nRead] [-A 3アダプター] [-e 最小深度]
[-q minCnsQ] [-p] [-2 読み取り2レン] [-a 最大値] [-S] [-N] in.ref.fasta in1.fastq
[in2.fastq]
小さなゲノムのパイプラインを分析します。 Easyrunコマンドはほとんどの分析を実行します
実装された マック。 デフォルトでは、 イージーラン すべての入力読み取りシーケンスを想定
ファイルはシングルエンドで独立しています。 いつ -p 指定、XNUMXつの読み取りシーケンス
両端にXNUMXつずつ、ファイルが必要です。
でいくつかのファイルが生成されます out.dir、その中には次のファイルがあります
キー出力:
cns.final.snp 低品質のものを除外した最終的なSNP呼び出し
cns.fq FASTQ形式のコンセンサス配列と品質
オプション:
-d DIR 出力ディレクトリ[easyrun]
-n INT アラインメントの2000000つのバッチにおける読み取り/ペアの数[XNUMX]
-S 短いインデルの分割読み取り分析を適用する(おそらく非常に遅い)
-N INT プール内のハプロタイプ/株の数(> = 2)[2]
-A FILE 3'アダプターのファイル。 ファイルにはXNUMX行のシーケンスが含まれている必要があります
[ヌル]
-1 INT 最初の読み取りの長さ、自動[0]の場合は0
-e INT SNPを呼び出すために必要な最小読み取り深度(SNPfilterの場合)[3]
-q INT のSNPの最小コンセンサス品質 cns.final.snp 【30]
-p ペアエンドアライメントモードに切り替えます
-2 INT XNUMX回目の読み取りの長さ -p 適用されます[0]
-a INT 最大インサートサイズ -p 適用されます[250]
注:
*プールされたサンプルを呼び出すSNPの場合、ユーザーは正しい`を設定する必要があります-N' と同様
`-E 0 '。
*入力ファイルはmaqのバイナリ形式にすることができます。 maq.pl 自動的に検出します
ファイル形式。
SNPフィルター maq.pl SNPフィルター [-d 最小深度] [-D 最大深度] [-Q マックスマップQ] [-q minCnsQ] [-w
indelWinSize] [-n ミンネイク] [-F インデルペ] [-f インデルソア] [-s 最小スコア] [-m
マックスアクロス] [-a] [-N maxWinSNP] [-W densWinSize] in.cns2snp.snp >
out.filtered.snp
少数の読み取りでカバーされるSNPを除外します( -d)、多すぎる
読み取り(によって指定 -D)、近く(によって指定 -w)潜在的なインデルに、落下
可能な反復領域で( -Q)、または低品質
隣接する拠点( -n) もし maxWinSNP 以上のSNPがいずれかに表示されます
densWinSize ウィンドウ、それらも一緒に除外されます。
オプション:
-d INT SNPを呼び出すために必要な最小読み取り深度[3]
-D INT SNPを呼び出すために必要な最大読み取り深度(<255、それ以外の場合は無視されます)
【256]
-Q INT SNPをカバーする読み取りに必要な最大マッピング品質[40]
-q INT 最小コンセンサス品質[20]
-n INT 隣接する最小コンセンサス品質[20]
-w INT 潜在的なインデルの周りのウィンドウのサイズ。 近いSNP
インデルへの抑制[3]
-F FILE インデルペ 出力[null]
-f FILE インデルソア 出力[null]
-s INT 考慮されるsoa-indelの最小スコア[3]
-m INT soa-indel全体にマッピングできる読み取りの最大数[1]
-a シングルエンドアライメント用の代替フィルター
インデルペ maq.pl インデルペ インデルペ > アウト・インデルペ
ホモポリマートラクトのインデルなしでマッピングされた読み取りの数を修正します。 これ
コマンドは、の4番目、10番目、および最後のXNUMX列を変更します。 インデルペ &
結果を出力する アウト・インデルペ。 訂正後、以下 awk
コマンドは推定ホモ接合インデルを与えます:
awk'($ 3=="*"⎪⎪$3== "+")&& $ 6 + $ 7> = 3 &&($ 6 + $ 7)/ $ 4> = 0.75'
そして、以下はヘテロ接合体を与えます:
awk'($ 3=="*"⎪⎪$3== "+")&& $ 6 + $ 7> = 3 &&($ 6 + $ 7)/ $ 4 <0.75'
このことに注意してください インデルペ コマンドは、いくつかのヒューリスティックルールを実装するだけです。
不純なホモポリマーの実行またはジヌクレオチド/トリプレットは修正されません
繰り返します。 したがって、XNUMXつのawkコマンドはおおよそのhom/hetのみを提供します
インデル。
例
・Easyrunスクリプト:
maq.pl easyrun -d easyrun ref.fasta part1.fastq part2.fastq
・easyrunの背後にある主要なコマンド:
maq fasta2bfa ref.fasta ref.bfa;
maq fastq2bfqpart1.fastqpart1.bfq;
maq fastq2bfqpart2.fastqpart2.bfq;
maq マップ part1.map ref.bfa part1.bfq;
maq マップ part2.map ref.bfa part2.bfq;
maq mapmerge aln.mappart1.mappart2.map;
maqアセンブルcns.cnsref.bfaaln.map;
onworks.netサービスを使用してオンラインでmaqを使用する