これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドgsnapです。
プログラム:
NAME
gsnap-ゲノムショートリードヌクレオチドアラインメントプログラム
SYNOPSIS
スナップ [OPTIONS...] <ファスタ ファイル>、 or 猫| gmap [オプション...]
OPTIONS
入力 オプション (しなければならない include -d)
-D, --ディレクトリ=ディレクトリにジョブを開始します。
ゲノムディレクトリ。 デフォルト(によって指定されたとおり) --with-gmapdb 構成プログラムへ)
is / var / cache / gmap
-d, --db=STRING
ゲノムデータベース
--use-sarray=INT
速度を上げるために接尾辞配列を使用するかどうか。 許可される値:0
(いいえ)、1(はい、さらにGSNAP / GMAPアルゴリズム、デフォルト)、または2(はい、接尾辞のみを使用)
配列アルゴリズム)。 接尾辞配列は、のSNP対立遺伝子に対してバイアスをかけることに注意してください
SNP耐性のあるアライメント。
-k, --kmer=INT
ゲノムデータベースで使用するkmerサイズ(許容値:16以下)指定されていない場合、
プログラムは、ゲノムデータベースで利用可能な最大のkmerサイズを見つけます
- サンプリング=INT
ゲノムデータベースで使用するサンプリング。 指定されていない場合、プログラムは
選択したk-merサイズ内のゲノムデータベースで利用可能な最小のサンプリング値
-q, - 部=INT/ INT
n個のシーケンスのうちi番目のみを処理します(例:0/100または99/100(
コンピューターファームへのジョブの配布)。
--入力バッファサイズ=INT
入力バッファのサイズ(プログラムは効率のために一度にこれだけ多くのシーケンスを読み取ります)
(デフォルトは1000)
-バーコード-長さ=INT
読み取り開始から削除するバーコードの量(デフォルトは0)
- オリエンテーション=STRING
ペアエンドリードの向き許容値:FR(fwd-rev、または一般的なイルミナ。
デフォルト)、RF(rev-fwd、円形インサートの場合)、またはFF(fwd-fwd、同じストランド)
--fastq-id-start=INT
FASTQヘッダー内の識別子の開始位置、スペース区切り(> = 1)
--fastq-id-end=INT
FASTQヘッダー内の識別子の終了位置、スペース区切り(> = 1)
例:
@HWUSI-EAS100R:6:73:941:1973#0/1
start = 1、end = 1(デフォルト)=>識別子はHWUSI-EAS100R:6:73:941:1973#0
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
start = 1、end = 1 =>識別子はSRR001666.1start = 2、end = 2 =>識別子は
071112_SLXA-EAS1_s_7:5:1:817:345 start = 1、end = 2 =>識別子はSRR001666.1です
071112_SLXA-EAS1_s_7:5:1:817:345
--force-シングルエンド
コマンドラインで複数のFASTQファイルが提供されている場合、GSNAPはそれらが
ペアエンドファイルの一致。 このフラグは、各ファイルをシングルエンドとして扱います。
-フィルター-貞操=STRING
イルミナの貞操プログラムによってマークされた読み取りをスキップします。 の後に文字列が必要です
次のように、最初のコロンの後に「Y」が付いているアクセッション:
@accession 1:Y:0:CTTGTA
ここで、「Y」は貞操によるフィルタリングを意味します。 値:オフ(デフォルト)、いずれか、
どちらも。 「どちらか」の場合、ペアエンド読み取りのいずれかの端にある「Y」がフィルタリングされます。
「両方」の場合、ペアエンド読み取りの両端(または唯一の端)に「Y」が必要です。
シングルエンド読み取りの)。
--allow-pe-name-mismatch
ペアエンドファイルで読み取りのアクセッション名が一致しないようにします
--ガンジップ
gzipで圧縮された入力ファイルを解凍します
--bunzip2
bzip2で圧縮された入力ファイルを解凍します
計算オプション
注:GSNAPには、最大およびまでの不一致を計算するための超高速アルゴリズムがあります。
配合工業用化学製品の
((readlength + 2)/ kmer-2)(「超高速の不一致」)。 プログラムは次の場合に最速で実行されます
max-mismatches(および準最適レベル)はその値の範囲内です。 また、インデル、特に
インデルを終了し、計算に時間がかかりますが、アルゴリズムは依然として高速になるように設計されています。
-B, - バッチ=INT
バッチモード(デフォルト= 2)
モードオフセット位置ゲノム接尾辞配列
0注を参照mmapmmap mmap
1ノートmmapとプリロードmmapmmapを参照してください
2注mmap&preload mmap&preload mmap&preloadを参照してください
3注の割り当てmmapとプリロードを参照mmapとプリロード
(デフォルト)4注を参照割り当て割り当てmmap&プリロード
5注を参照割り当て割り当て割り当て
注:単一のシーケンスの場合、すべてのデータ構造はmmapを使用します
mmapが利用できず、割り当てが選択されていない場合は、fileioを使用します(非常に遅い)
オフセットに関する注意:オフセットの拡張は制御できます
独立して --expand-offsets 国旗。 ただし、オフセットはアクセスされます
このバージョンのGSNAPでは比較的高速です。
--共有メモリを使用する=INT
1(デフォルト)の場合、割り当てられたメモリはこのノード上のすべてのプロセス間で共有されます。
0の場合、各プロセスにはプライベートに割り当てられたメモリがあります
--expand-offsets=INT
ゲノムオフセットインデックスの値を拡張するかどうか:0(いいえ、デフォルト)、または1(はい)。
拡張するとアライメントが速くなりますが、より多くのメモリが必要になります
-m, --max-不一致=FLOAT
許可される不一致の最大数(指定されていない場合、デフォルトで
超高速レベル((readlength + index_interval-1)/ kmer-2))(デフォルトでは、
ゲノムインデックス間隔は3ですが、これは別の値を指定することで変更できます
の -q ゲノムを処理するときにgmap_buildに。)
0.0から1.0の間で指定された場合、分数として扱われます
各読み取り長の。 それ以外の場合は、不一致の整数として扱われます
(インデルとスプライシングのペナルティを含む)RNA-Seqの場合、これを増やす必要があるかもしれません
エクソンの末端を超えて伸びるリードを整列させるためにわずかに値を付けます。
--min-カバレッジ=FLOAT
アライメントに必要な最小カバレッジ。 0.0から1.0の間で指定された場合、
各読み取り長の一部として扱われます。 それ以外の場合は、積分として扱われます
塩基対の数。 デフォルト値は0.0です。
--クエリ-unk-不一致=INT
クエリ内の不明な(N)文字を不一致としてカウントするかどうか(0 =いいえ(デフォルト)、
1 =はい)
--genome-unk-不一致=INT
ゲノム内の不明な(N)文字を不一致としてカウントするかどうか(0 =いいえ、1 =はい)
(ディフォルト))
--maxsearch=INT
検索するアライメントの最大数(デフォルトは1000)。 より大きい必要があります --npath,
これは報告する番号です。 この数を大きく保つと、ランダムになります
複数のアラインメントの中から選択します。 この数を減らすと、
プログラム。
-i, -インデル-ペナルティ=INT
インデルのペナルティ(デフォルトは2)。 許可された不一致に対してカウントします。 見つけるには
インデル、インデルペナルティをmax-mismatches以下にします。 2未満の値は
読み取り終了時に誤検知につながる
--indel-endlength=INT
インデルアライメントに必要な端の最小長(デフォルトは4)
-y, --max-middle-挿入=INT
許可される中間挿入の最大数(デフォルトは9)
-z, --max-middle-削除=INT 許可される中間削除の最大数(デフォルトは30)
-Y, --max-end-挿入=INT
許可されるエンド挿入の最大数(デフォルトは3)
-Z, --max-end-deletions=INT
許可される終了削除の最大数(デフォルトは6)
-M, -準最適-レベル=INT
ベストヒットを超える次善のヒットを報告する(デフォルトは0)ベストスコアに加えてすべてのヒット
準最適レベルが報告されます
-a, --アダプターストリップ=STRING
読み取りからアダプターを削除する方法。 現在許可されている値:オフ、ペア。
デフォルトは「オフ」です。 オンにするには、「paired」を指定します。これにより、アダプターがから削除されます。
ペアエンドは、それらが存在するように見える場合に読み取ります。
--トリム不一致スコア=INT
端でトリミングするときに不一致に使用するスコア(デフォルトは -3; 電源を切るために
トリミング、0を指定)。 警告:トリミングをオフにすると、誤検知が発生します
読み取り終了時の不一致
--トリムインデルスコア=INT
端でトリミングするときにインデルに使用するスコア(デフォルトは -2; トリミングをオフにするには、
0を指定してください)。 警告:トリミングをオフにすると、
読み取りの終わり
-V, --snpsdir=STRING
SNPインデックスファイルのディレクトリ(snpindexを使用して作成)(デフォルトは
を使用して指定されたゲノムインデックスファイル -D -d)
-v, --use-snps=STRING
既知のSNPを含むデータベースを使用する( .iit、以前に使用して構築された
snpindex)SNPに対する耐性
--cmetdir=STRING
メチルシトシンインデックスファイルのディレクトリ(cmetindexを使用して作成)(デフォルトは
を使用して指定されたゲノムインデックスファイルの場所 -D, -V, -d)
--アトディル=STRING
A-to-I RNA編集インデックスファイルのディレクトリ(atoiindexを使用して作成)(デフォルトは
を使用して指定されたゲノムインデックスファイルの場所 -D, -V, -d)
- モード=STRING
アラインメントモード:標準(デフォルト)、cmet-strand、cmet-nonstrand、atoi-strand、
atoi-非ストランド、ttoc-ストランド、またはttoc-非ストランド。 非標準モードには
以前にcmetindexまたはatoiindexプログラムを実行したことがある
ゲノム上のttocモード)
-t, --nスレッド=INT
ワーカースレッドの数
GSNAP内のGMAPアライメントのオプション
--gmap モード=STRING
複数のスプライスまたはインデルを含む複雑なアラインメントにGMAPを使用する場合
許可される値:none、all、pairsearch、indel_knownsplice、terminal、Improvement
(または複数の値、コンマで区切る)。
デフォルト:すべて、つまり、pairsearch、indel_knownsplice、terminal、improve
--gmap のトリガースコア=INT
最高のスコア(両端の合計)があれば、近くのゲノム領域でGMAPペアサーチを試してください
ペアエンド)がこの値を超える場合(デフォルトは5)
--gmap-min-match-length=INT
GMAPがこれほど多くの連続した一致がある場合にのみ、GMAPをヒットさせ続けます(デフォルトは20)
--gmap-allowance=INT
GMAPアライメントで許可される追加の不一致/インデルスコア(デフォルトは3)
--max-gmap-pairsearch=INT
この多くの候補までの近くのゲノム領域でGMAPペアサーチを実行します
終了します(デフォルトは50)。 でペア検索が必要 --gmap モード
--max-gmap-ターミナル=INT
この多くの候補の終わりまで、近くのゲノム領域でGMAPターミナルを実行します
(デフォルトは50)。 ターミナルが必要です --gmap モード
--max-gmap-改善=INT
この多くの候補の終わりまで、近くのゲノム領域でGMAPの改善を実行します
(デフォルトは5)。 改善が必要 --gmap モード
--マイクロエクソン-スプライスプロブ=FLOAT
スプライスサイトの確率のXNUMXつがこれよりも大きい場合にのみ、マイクロエキソンを許可します
値(デフォルトは0.95)
DNA-Seqのスプライシングオプション
--DNAキメラを見つける=INT
DNA-Seqデータで離れたスプライシングを探す(0 =いいえ(デフォルト)、1 =はい)自動的に
RNA-Seqデータに対して非アクティブ化されている場合 -N or -s 指定されます)
RNA-Seqのスプライシングオプション
-N, --ノベルスプライシング=INT
新規のスプライシングを探します(0 =いいえ(デフォルト)、1 =はい)
--splicingdir=STRING
既知のサイトまたは既知のイントロンが関与するスプライシングのディレクトリ。
-s or --使用スプライシング フラグ(デフォルトはから計算されたディレクトリです -D -d フラグ)。
注:フルパス名を -s 代わりにフラグを立てます。
-s, --使用スプライシング=STRING
既知のサイトまたは既知のイントロンが関与するスプライシングを探します( .iit)、で
短距離または長距離既知の違いについては、READMEの説明を参照してください。
サイトと既知のイントロン
--ambig-splice-noclip
読み取りの終わりでのあいまいな既知のスプライシングについては、スプライス部位でクリップしないでください。
しかし、代わりにイントロンに拡張します。 このフラグは、
--使用スプライシング フラグ、およびあなたはすべてのソフトクリッピングを排除しようとしています
--トリム不一致スコア=0
-w, --localsplicedist=INT
ローカル小説スプライシングイベントの定義(デフォルトは200000)
--novelend-splicedist=INT
読み取りの最後で新しいスプライスを探す距離(デフォルトは50000)
-e, -ローカル-スプライス-ペナルティ=INT
ローカルスプライスのペナルティ(デフォルトは0)。 許可された不一致に対するカウント
-E, -遠いスプライス-ペナルティ=INT
遠方のスプライスに対するペナルティ(デフォルトは1)。 遠方のスプライスとは、イントロンが
長さがの値を超えています -wまたは --localsplicedist、または反転、スクランブル、
またはXNUMXつの異なる染色体間の転座ミスマッチをカウントします
許可されて
-K, --遠い接続端の長さ=INT
離れたスプライスされたアライメントに必要な端の最小長(デフォルトは20、分
許可されるのは -k、またはkmerサイズ)
-l, --shortend-splice-endlength=INT
ショートエンドのスプライスされたアライメントに必要なエンドの最小長(デフォルトは2、ただしデフォルトはXNUMX)
既知のスプライスサイトが提供されていない限り -s フラグ、GSNAPはまだ必要かもしれません
の値となる終了長さ -k、または特定のスプライスを見つけるためのkmerサイズ
--distant-splice-identity=FLOAT
離れたスプライスされたアライメントに必要な最後の最小ID(デフォルトは0.95)
-逆鎖-ペナルティ=INT
(結果が悪いため、現在は実装されていません)
鎖状RNA-Seqプロトコルを使用する場合の抗鎖状スプライシング。 正の値、
1などは、最初の読み取りでアンチセンスを期待し、XNUMX番目の読み取りでセンスを期待します。
デフォルトは0で、センスとアンチセンスを同等に扱います
--merge-distant-samechr
可能であれば、単一のスプライスと同じ染色体上の離れたスプライスを報告します。
XNUMXつのSAMラインの代わりにXNUMXつのSAMラインを生成します。
転座、逆位、およびスクランブリングイベント
ペアエンドリードのオプション
--ペアマックス-DNA=INT
DNA-Seqペアリード、またはスプライシングなしの他のリードの最大総ゲノム長
(デフォルトは1000)。 次の場合に使用されます -N or -s 指定されていません。
--ペアマックス-rna=INT
RNA-Seqペアリード、または
スプライス(デフォルトは200000)。 次の場合に使用されます -N or -s が指定されています。 おそらく一致するはずです
の値 -w, --localsplicedist.
--pairexpect=INT
ペアエンドの予想される長さ。ペアエンドの内側部分でスプライスを呼び出すために使用されます
読み取り(デフォルトは200)。 以前のバージョンではオフにされていましたが、復元されました。
--pairdev=INT
でスプライスを呼び出すために使用される、予想されるペアエンド長からの許容偏差
ペアエンドリードの内側部分(デフォルトは100)。 以前はオフにされていました
バージョンが、復元されました。
品質スコアのオプション
-品質-プロトコル=STRING
入力品質スコアのプロトコル。 許可される値:イルミナ(ASCII 64-126)
(に相当します -J 64 -j -31)サンガー(ASCII 33-126)( -J 33 -j 0)
デフォルトはサンガーです(高品質の印刷シフトなし)
SAM出力ファイルは、サンガープロトコルの品質スコアを持つ必要があります
または、次のフラグを使用してこの動作をカスタマイズできます。
-J, --品質ゼロスコア=INT
FASTQ品質スコアはこのASCII値ではゼロです(サンガーのデフォルトは33です)
プロトコル; イルミナの場合は、64を選択します)
-j, --quality-print-shift=INT
FASTQ品質スコアを出力でこの量だけシフトします(サンガーのデフォルトは0です)
プロトコル; イルミナ入力をサンガー出力に変更するには、 -31)
出力オプション
-n, --npath=INT
印刷するパスの最大数(デフォルトは100)。
-Q, --過剰な場合は静かに
最大数を超えるパスが見つかった場合、何も出力されません。
-O, - 順序付けられました
入力と同じ順序で出力を出力します(複数のワーカーが存在する場合にのみ関連します)
糸)
--show-refdiff
SNPトレラントアライメントでのGSNAP出力の場合、
小文字としてのリファレンスゲノム(それ以外の場合は、
参照ゲノムと代替ゲノムの両方)
-クリップオーバーラップ
アラインメントがオーバーラップするペアエンドリードの場合は、オーバーラップする領域をクリップします。
-マージ-オーバーラップ
アラインメントが重複するペアエンドリードの場合、XNUMXつのエンドをXNUMXつのエンドにマージします
(ベータ版の実装)
--print-snps
読み取りでSNPに関する詳細情報を出力します(次の場合にのみ機能します) -v また選択)
(まだ完全には実装されていません)
--failsonly
失敗した配置のみを印刷し、結果がないものを印刷します
--失敗しない
失敗したアライメントの印刷を除外する
-A, - フォーマット=STRING
デフォルト以外の別のフォーマットタイプ。 現在実装されているもの:sam、m8(BLAST
表形式)
--分割出力=STRING
複数ファイル出力のベース名、nomapping、halfmapping_uniq、
halfmapping_mult、unpaired_uniq、unpaired_mult、paired_uniq、paired_mult、
concordant_uniq、およびconcordant_multの結果
-o, -出力ファイル=STRING
出力結果の単一ストリームのファイル名。
-失敗-入力=STRING
完全に失敗したアライメントを入力FASTAまたはFASTQ形式として指定された形式で印刷します
ペアエンドデータの場合は、.1または.2を追加したファイル。 の場合 --分割出力 旗も
与えられた場合、このファイルは.nomappingファイルの出力に加えて生成されます。
-追加-出力
日時 --分割出力 or -失敗-入力 が与えられると、このフラグは出力をに追加します
既存のファイル。 それ以外の場合、デフォルトでは新しいファイルが作成されます。
-- 最良の順序=STRING
最高のスコアで結ばれたアラインメントの中で、それらのアラインメントをこの順序で並べます。
許可される値:ゲノム、ランダム(デフォルト)
-- 出力バッファサイズ=INT
クエリでの出力スレッドのバッファサイズ(デフォルトは1000)。 の数が
印刷される結果がこのサイズを超えると、ワーカースレッドは
バックログがクリアされます
SAM出力のオプション
--no-sam-headers
'@'で始まるヘッダーを印刷しないでください
--add-paired-nomappers
必要に応じてnomapper行を追加して、すべてのペアエンド結果を最初の結果と交互にする
エンドとセカンドエンド
--paired-flag-means-concordant=INT
SAMフラグのペアビットが一致のみ(1)を意味するか、ペアプラスを意味するか
一致(0、デフォルト)
--sam-headers-バッチ=INT
で指定されているように、このバッチのヘッダーのみを印刷します -q
--sam-use-0M
隣接する挿入と削除の間にCIGARに0Mを挿入します。Picardが必要です。
ただし、他のツールでエラーが発生する可能性があります
--sam-複数のプライマリ
複数のアラインメントが同等に良好である場合、それらをプライマリとしてマークできるようにします
マッピングスコア
--force-xs-dir
RNA-Seqアラインメントの場合、XS:A :?を禁止します。 センスの方向がはっきりしないとき、
この値を任意にXS:A:+に置き換えます。 次のような一部のプログラムに役立つ場合があります
カフリンクスとして、XS:A :?を処理できません。 ただし、このフラグを使用すると、
これらの場合のXS:A:+の報告値は、意味がありません。
--md-小文字-snp
MD文字列では、既知のSNPが -v フラグ、違いを出力します
ヌクレオチドは、参照とは異なるが既知のものと一致する場合は小文字として
代替対立遺伝子
--extend-ソフトクリップ
ソフトクリップされた領域を介してアライメントを拡張します
--葉巻エラーの場合のアクション
CIGARの長さとシーケンスの長さの間に不一致がある場合に実行するアクション
許可される値:無視、警告、noprint(デフォルト)、中止
-- 読み取りグループ ID=STRING
読み取りグループID(RG-ID)フィールドに入力する値
-- 読み取りグループ名=STRING
読み取りグループ名(RG-SM)フィールドに入力する値
--read-group-library=STRING
読み取りグループライブラリ(RG-LB)フィールドに入力する値
--読み取りグループプラットフォーム=STRING
読み取りグループライブラリ(RG-PL)フィールドに入力する値
ヘルプオプション
- チェック
コンパイラの仮定を確認してください
- バージョン
バージョンを表示
- 助けて このヘルプメッセージを表示する
GMAPスイートの他のツールは/ usr / lib / gmapにあります
onworks.netサービスを使用してオンラインでgsnapを使用する