これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションのXNUMXつを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドスパイディです。
プログラム:
NAME
spidey-mRNA配列をゲノムにアラインする
SYNOPSIS
スパイダー [-] [-F N] [-G] [-L N] [-M ファイル名] [-N ファイル名] [-R ファイル名] [-S 午後] [-T N]
[-X] [-a ファイル名] [-c N] [-d] [-e X] [-f X] [-g X] -i ファイル名 [-j] [-k ファイル名] [-l N]
-m ファイル名 [-n N] [-o STR] [-p N] [-r c / d / m / p / v] [-s] [-t ファイル名] [-u] [-w]
DESCRIPTION
スパイダー XNUMXつまたは複数のmRNA配列を特定のゲノム配列にアラインメントするためのツールです。
スパイダー XNUMXつの主な目標を念頭に置いて書かれました:イントロンに関係なく適切な配置を見つける
サイズ; 近くの偽遺伝子やパラログに混乱しないようにしてください。 最初に向けて
ゴール、 スパイダー BLASTとDotView(別のローカルアライメントツール)を使用して、
アラインメント; これらは両方ともローカルアライメントツールであるため、 スパイダー 本質的にではありません
より短いまたはより長いイントロンを好み、最大イントロンサイズはありません。 誤って避けるために
パラログおよび偽遺伝子からのエクソンを含む、 スパイダー 最初にゲノム上のウィンドウを定義します
次に、各ウィンドウ内で個別にmRNAからゲノムへのアラインメントを実行します。
ウィンドウの構築方法のため、隣接するパラログまたは偽遺伝子は
別々のウィンドウにあり、最終的なスプライスされた配置に含まれるべきではありません。
初期 アラインメント および 建設 of ゲノムの ウィンドウズ
スパイダー 単一のゲノム配列と一連のmRNAアクセッションまたはFASTAを入力として受け取ります
シーケンス。 すべての処理は、一度にXNUMXつのmRNAシーケンスで実行されます。 それぞれの最初のステップ
mRNA配列は、ゲノム配列に対する高ストリンジェンシーのBLASTです。 結果のヒット
ゲノムウィンドウを見つけるために分析されます。
BLASTアライメントはスコアで並べ替えられ、再帰的にウィンドウに割り当てられます
最初のアラインメントを取得し、次にアラインメントリストを下に移動してすべてを検索する関数
最初の(mRNAの同じ鎖、mRNAと
ゲノム座標は重複せず、線形的に一貫しています)。 以降のパスでは、
残りの配置が調べられ、重複しないように配置されます。
配置がなくなるまで、一貫したウィンドウ。 遺伝子モデルの数に応じて
希望、トップ n 次のステップに進むためにウィンドウが選択され、他のウィンドウは次のようになります。
削除されました。
整列 in 各 ウィンドウを使用して入力ファイルを追加します。
ゲノムウィンドウが構築されると、最初のBLASTアラインメントが解放され、
別のBLAST検索が実行されます。今回はmRNA全体がゲノムに対して行われます。
ウィンドウによって定義された領域で、最初の検索よりもストリンジェンシーが低くなります。 スパイダー
次に、欲張りアルゴリズムを使用して、スコアが高く、重複しないサブセットを生成します。
XNUMX回目のBLAST検索からのアラインメント。 この一貫したセットは慎重に分析され、
mRNA配列全体がアラインメントで覆われていることを確認してください。 ギャップが見つかったとき
アラインメント間で、ゲノム配列の適切な領域が
欠落しているmRNA、最初に非常に低ストリンジェンシーのBLASTを使用し、BLASTが
ヒット、DotView関数を使用して配置を見つけます。 の端にギャップが見つかったとき
アラインメント、BLASTおよびDotView検索は、実際には
ウィンドウの境界。 mRNAの3'末端が完全に整列していない場合は、
最初にポリ(A)テールの存在を調べました。 位置合わせは行われません。
ポリ(A)テールのように見えるmRNAの部分。 時々ポリ(A)テールがあります
これはゲノム配列と一致します。これらは、
偽遺伝子の可能性。
これで、mRNAが一連のアラインメントによって完全に覆われるようになり、
アラインメント(現在、エクソンごとにXNUMXつのアラインメントがあるはずです)は、
アラインメントは互いに正確に隣接しているため、適切なスプライスドナーに隣接しています。
およびアクセプターサイト。 最も一般的には、XNUMXつの隣接するエクソンのアラインメントは
mRNA配列の20または30塩基対。 真のエクソン境界は、
このオーバーラップ、または(経験的に見てきたように)オーバーラップの外側のいくつかの塩基対ですら。
エクソン境界を配置するために、オーバーラップと各側のいくつかの塩基対は
異なるスプライス行列を持つ関数を使用して、スプライスドナーサイトを調べました
選択した生物によって異なります。 上位のいくつかのスプライスドナーサイト(スコア別)は、
それらが元の配置境界にどの程度影響するかについて評価されました。 そのサイト
境界に影響を与えるものが最も少なく選択され、
アクセプターサイト。 アラインメントは、必要に応じて切り捨てまたは拡張され、
スプライスドナーサイトで終了し、それらが重ならないようにします。
終 結果
窓を注意深く調べて、エクソンあたりの同一性の割合、
エクソンあたりのギャップ、全体的な同一性の割合、mRNAの被覆率、
整列または非整列のポリ(A)テール、スプライスドナー部位の数および存在または
各エクソンのスプライスドナーおよびアクセプター部位の欠如、およびmRNAの発生
ゲノム配列に整列しない5'または3'末端(または両方)を持っている。 の場合
全体的な同一性の割合と長さの割合の範囲は、ユーザー定義のカットオフを上回っています。
要約レポートが印刷され、必要に応じて、IDと
不一致も印刷されます。
種間 アラインメント
スパイダー 種間アライメントを実行することができます。 の主な違い
種間アラインメントは、mRNA-ゲノムの同一性が100%に近くならないことです
種内アラインメントにあります。 また、アライメントには多数の長いギャップがあります。 もしも
スパイダー 種間アラインメントを行うために通常モードで使用され、遺伝子モデルを生成します
多くの、多くの短いエクソンで。 種間フラグが設定されている場合、 スパイダー 異なる使用
より長く、より多くのギャップを促進し、
不一致。 このように、エクソンのアラインメントははるかに長く、より密接になります
実際の遺伝子構造を概算します。
抽出 CDS アラインメント
日時 スパイダー ネットワーク認識モードで実行されるか、ASN.1ファイルがmRNAに使用される場合
記録、それはmRNAアラインメントと印刷からCDSアラインメントを抽出することができます
CDS情報も。 CDSアラインメントはmRNAアラインメントのサブセットにすぎないため、
必要に応じてエクソンアラインメントを切り捨てて、
CDSアライメントを生成します。 さらに、非翻訳領域が定義されたため、
5'および3'非翻訳領域のパーセント同一性も計算されます。
OPTIONS
オプションの概要は以下に含まれています。
- 使用法メッセージを印刷します。
-F N 必要なゲノム間隔の開始(から; 0ベース)。
-G 入力ファイルはGIリストです。
-L N 使用する特大のイントロンサイズ(デフォルト= 220000)。
-M ファイル名
ドナースプライスマトリックスを使用したファイル。
-N ファイル名
アクセプタースプライスマトリックスを含むファイル。
-R ファイル名
フィルタリングのためにブラストデータベースを繰り返すファイル(パスを含む)。
-S 午後 ゲノム配列のプラス(p)またはマイナス(m)ストランドに制限します。
-T N 必要なゲノム間隔の停止(to; 0ベース)。
-X 特大のイントロンサイズを使用する(初期イントロンと最終イントロンの制限を増やす
100kbから240kbまで、その他すべての場合は35kbから120kbまで); 結果として生じる可能性があります
計算時間が大幅に長くなります。
-a ファイル名
別のファイルに転送された場合のアライメント用の出力ファイル -p 3 (デフォルト =
spidey.aln)。
-c N 品質管理を目的としたIDカットオフ(パーセント)。
-d また、与えられたmRNAレコードに対応するコード配列を整列させてみてください(
ネットワークアクセスが必要です)。
-e X 最初のパスのe値(デフォルト= 1.0e-10)。 値を大きくすると、コストがかかりますが速度が上がります。
感度の。
-f X 0.001番目のパスのe値(デフォルト= XNUMX)。
-g X 10番目のパスのe値(デフォルト= XNUMX)。
-i ファイル名
ASN.1またはFASTA形式のゲノム配列を含む入力ファイル。 もしあなたの
コンピューターがGenBankにアクセスできるネットワーク上で実行されている場合は、
ファイル名に必要なアクセッション番号。
-j ASN.1アライメントを印刷しますか?
-k ファイル名
ASN.1出力用のファイル -k (デフォルト= spidey.asn)。
-l N 長さカバレッジカットオフ(パーセント)。
-m ファイル名
ASN.1またはFASTA形式のmRNAシーケンスを含む入力ファイル、または
彼らのアクセッション( -G)。 お使いのコンピュータが次のことができるネットワークで実行されている場合
GenBankにアクセスすると、ファイル名をXNUMXつのアクセッション番号に置き換えることができます。
-n N 入力mRNAごとに返す遺伝子モデルの数(デフォルト= 1)。
-o STR メイン出力ファイル(デフォルト=stdout;コンテンツはによって制御されます -p).
-p N 印刷の配置?
0 要約と配置を一緒に(デフォルト)
1 要約だけ
2 ただの配置
3 さまざまなファイルの要約と配置
-r c / d / m / p / v
スプライスマトリックスを決定するために使用されるゲノム配列の生物。
c C.エレガンス
d ショウジョウバエ
m Dictyostelium discoideum
p 工場
v 脊椎動物(デフォルト)
-s 種間アライメントを調整します。
-t ファイル名
4つのタブ区切り列の機能テーブルを含むファイル:
セキッド (例えば、 NM_04377.1)
名 (のみ 反復領域 現在サポートされています)
start (0ベース)
stop (0ベース)
-u すべての入力mRNAのマルチプルアラインメントを作成します(ゲノム上でオーバーラップする必要があります
順序)。
-w マスクする入力FASTAシーケンスの小文字を考慮してください。
onworks.netサービスを使用してオンラインでspideyを使用する