cmbuild - クラウドでオンライン

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド cmbuild です。

プログラム:

NAME


cmbuild - 構造的に注釈が付けられた RNA 複数配列から共分散モデルを構築します
アライメント

SYNOPSIS


cmビルド [オプション]

DESCRIPTION


それぞれの複数の配列アライメントについて、 共分散モデルを構築して保存します。
新しいファイル

アライメント ファイルはストックホルム形式または SELEX 形式である必要があり、コンセンサスが含まれている必要があります
二次構造の注釈。 cmビルド コンセンサス構造を使用して、
CM のアーキテクチャ。

'-'(ダッシュ)の場合があります。これは、この入力をから読み取ることを意味します。 stdin ファイルではなく。
「-」を使用するには、アライメント ファイル形式も指定する必要があります。 --informat , 〜のように
--informat ストックホルム (実装における現在の制限のため、MSA ファイル
巻き戻し不可能な入力ストリームでは形式を自動検出できません。)

じゃないかもしれない '-' (標準出力)、 CM ファイルを送信するため、 (Linuxで言うところのstdout) 衝突するだろう
プログラムの他のテキスト出力と組み合わせます。

CMを書くことに加えて、 cmビルド それぞれに対して単一行も出力します
モデルは標準出力に作成されます。 各行には次のフィールドがあります: "aln":
CM の構築に使用されるアライメント。 "idx": CM のインデックス ; "名前":
CMの名前。 「nseq」: CM を構築するために使用されるアライメント内の配列の数。
「eff_nseq」: モデルの構築に使用されるシーケンスの有効数。 「アレン」: 長さ
CM の構築に使用されるアライメント。 "clen": アライメントの列数
コンセンサス (一致) 列として定義されます。 「bps」: CM 内の塩基対の数。 "bif":
CM 内の分岐の数。 "rel entropy: CM": の合計相対エントロピー
モデルをコンセンサス列の数で割ったもの。 "rel entropy: HMM": 相対的な合計
二次構造を無視したモデルのエントロピーをコンセンサスの数で割った値
列。 「説明」: モデル/アライメントの説明。

OPTIONS


-h ヘルプ; コマンドラインの使用法と利用可能なオプションの簡単なリマインダーを出力します。

-n 新しいCMの名前を教えてください デフォルトでは、線形の名前が使用されます(線形の名前が使用されている場合)。
に存在する )、 または、それができない場合は、 If
複数のアライメントが含まれており、 -n 機能しない、そしてすべての調整
に注釈が付けられた名前が必要です (ストックホルム #=GF ID 注釈と同様)。

-F 次を許可します。 上書きされます。 このオプションを使用しない場合、 既に
存在し、 cmビルド エラーで終了します。

-o 概要出力をファイルに送信します むしろ stdout。

-O 各モデルを構築した後、注釈付きのソース アライメントをファイルに再保存します。
ストックホルム形式。 シーケンスには、相対的なシーケンスの重みが注釈として付けられます。
が割り当てられました。 線形には参照注釈線の注釈も付けられます
どの列がコンセンサスとして割り当てられたかを示します。 ソースのアライメントに
参照アノテーション (「#=GC RF」) は、次のコンセンサス残基に置き換えられます。
コンセンサス列のモデルと「.」 挿入列の場合、 - 手
オプションはコンセンサスポジションを指定するために使用されました。この場合、それは
変更なし。

--devhelp と同様に、ヘルプを印刷します -h , ただし、そうでないエキスパート オプションも含まれます。
で表示される -h . これらの専門家向けオプションは、
大多数のユーザーが使用するため、マニュアル ページには説明されていません。 唯一の
実際に何をするのかを理解するためのリソースは、短い XNUMX 行です。
説明が出力される場合 --devhelp が有効になっていて、ソースコードが有効になっています。

OPTIONS 制御 MODEL 建てる


これらのオプションは、アライメント内でコンセンサス列を定義する方法を制御します。

- 速い コンセンサス列を分数 >= を持つ列として自動的に定義します。 シンフラック of
ギャップではなく残留物。 (詳細については以下を参照してください) --symfrac オプションです。)これは、
デフォルト。

- 手 参照座標の注釈 (#=GC RF ライン、ストックホルム) を使用して、どの位置にあるかを決定します。
列はコンセンサスであり、列は挿入です。 ギャップ以外の文字は、
コンセンサス欄。 (たとえば、コンセンサス列を「x」でマークし、列を挿入します)
"." を付けてください。) このオプションが呼び出されました。 --rf Infernal の以前のバージョン (0.1
1.0.2 まで)。

--symfrac
次の場合にコンセンサス列を定義するために必要な残基画分しきい値を定義します。
使用していない - 手。 デフォルトは 0.5 です。 各列の記号分数は次のとおりです。
相対的なシーケンスの重み付けを考慮した後に計算されます。 これを次のように設定すると、
0.0 は、すべての配置列がコンセンサスとして割り当てられることを意味します。
場合によっては役に立ちます。 1.0 に設定すると、ギャップが 0 つ含まれる列のみが対象になります。
コンセンサスとして割り当てられます。 このオプションは、 --ギャップスレシュ オプション
Infernal の以前のバージョン (0.1 ~ 1.0.2) から、 (1.0 - に等しい)
)。 たとえば、次のコマンドの動作を再現するには、 cmビルド --ギャップスレシュ 0.8
以前のバージョンでは、使用します cmビルド --symfrac 0.2 このバージョンでは。

--ノス 二次構造の注釈がある場合でも無視します。 そしてCMを構築します
ゼロ塩基対。 このモデルはプロファイル HMM に似ており、 cmsearch および
cmスキャン プログラムは、このために CM アルゴリズムよりも高速な HMM アルゴリズムを使用します。
モデル。 さらに、ゼロ塩基対モデルは次の方法で校正する必要はありません。 cmキャリブレーション
走る前に cmsearch それと。 ザ・ --ノス オプションがない場合は、このオプションを使用する必要があります
二次構造の注釈

--研究
ファイル内の RIBOSUM マトリックスを使用して、RSEARCH のように排出スコアをパラメータ化します。
--研究 有効、すべての位置合わせ 必ず XNUMX つを含める必要があります
シーケンスまたは - 電話 オプションも有効にする必要があります。 各シーケンス内のすべての位置
コンセンサス「列」とみなされます。 実際、これらの排出スコアは
モデリングの違いにより、モデルは RIBOSUM スコアと同一ではありません
Infernal と RSEARCH の戦略は異なりますが、可能な限り似たものになります。
RIBOSUM マトリックス ファイルは、Infernal の "matrices/" サブディレクトリに含まれています。
最上位の「infernal-xxx」ディレクトリ。 RIBOSUM行列は置換スコアです
独立した一本鎖を持つ構造 RNA 用に特別にトレーニングされたマトリックス
残基および塩基対の置換スコア。 詳細については、「研究」を参照してください。
出版物(Klein and Eddy、BMC Bioinformatics 4:44、2003)。

その他 MODEL 建てる OPTIONS


- ヌル
null モデルをから読み取る ヌル モデルは各 RNA の確率を定義します。
バックグラウンド配列のヌクレオチドの場合、デフォルトでは各ヌクレオチドに 0.25 を使用します。
Null ファイルの形式はユーザー ガイドに指定されています。

- 前
事前にディリクレを読んでください デフォルトの混合ディリクレを置き換えます。 の
以前のファイルの形式はユーザー ガイドに指定されています。

  --devhelp 文書化されていない追加のモデル構築オプションを確認します。

OPTIONS 制御 相対 WEIGHTS


cmビルド アドホックシーケンス重み付けアルゴリズムを使用して、密接に関連する重み付けを軽減します
シーケンスと遠関連のものをアップウェイトします。 これにより、モデルの数が少なくなる効果があります。
不均一な系統的表現によって偏っている。 たとえば、XNUMX つの同一のシーケンスは次のようになります。
通常、それぞれは XNUMX つのシーケンスの半分の重みを受け取ります。 これらのオプションは制御します
どのアルゴリズムが使用されるか。

--wpb Henikoff 位置ベースのシーケンス重み付けスキームを使用します [Henikoff および Henikoff、
J.Mol. バイオル。 243:574、1994]。 これがデフォルトです。

--wgsc Gerstein/Sonnhammer/Chothia重み付けアルゴリズムを使用する[Gersteinら、J.Mol.
バイオル。 235:1067、1994]。

--wone
シーケンスの重み付けをオフにします。 たとえば、すべてのシーケンスの重みを明示的に 1.0 に設定します。

--w 与えられた
入力アライメント ファイルの注釈に指定されているシーケンスの重みを使用します。 いいえの場合
重みが与えられており、それらがすべて 1.0 であると仮定します。 デフォルトでは、新しいものを決定します。
Gerstein/Sonnhammer/Chothia アルゴリズムによるシーケンスの重み付け。
注釈付きの重み。

--wblosum
デフォルトの代わりに BLOSUM フィルタリング アルゴリズムを使用してシーケンスに重み付けを行います。
GSC の重み付け。 指定された同一性パーセントで配列をクラスター化します (「 --wid);
各クラスターに合計 1.0 の重みを割り当て、メンバー間で均等に分散します。
そのクラスターの。

--幅
の動作を制御します --wblosum パーセントを設定することによる重み付けオプション
アライメントをクラスタリングするための ID

OPTIONS 制御 効果的な シーケンス


相対的な重みが決定された後、合計が有効になるように正規化されます。
シーケンス番号、 eff_nseq。 この数は、実際のシーケンスの数である可能性があります。
しかし、ほとんどの場合、それよりも小さくなります。 デフォルトのエントロピー重み付け
方法 (--ent) 有効なシーケンス番号を減らして情報コンテンツを削減します。
コンセンサス位置ごとの(相対エントロピー、または真のホモログの平均期待スコア)。 の
ターゲットの相対エントロピーは XNUMX つのパラメーター関数によって制御されます。
パラメータは次のように設定できます --えれ および --エシグマ。

--ent エントロピー重み付け戦略を使用して、有効なシーケンス番号を決定します。
ターゲットの平均一致状態の相対エントロピーを与えます。 このオプションはデフォルトであり、
でオフにすることができます --エノン。 デフォルトのターゲット平均一致状態相対値
エントロピーは、少なくとも 0.59 つのベースペアを持つモデルの場合は 1 ビット、モデルの場合は 0.38 ビットです。
塩基対はゼロですが、変更されました ――えっと。 デフォルトの 0.59 ビットまたは 0.38 ビットは、
モデルの相対エントロピーの合計 (合計が一致する場合) は自動的に変更されます。
状態相対エントロピー) はカットオフ (デフォルトでは 6.0 ビット) 未満ですが、
専門家に相談すれば変更可能、文書化されていない - 元 オプション。 本当にそうしたいなら
そのオプションを試して、ソース コードを参照してください。

--エノン
エントロピー重み付け戦略をオフにします。 有効なシーケンス番号は、
アライメント内のシーケンスの数。

--えれ
ターゲットの平均一致状態の相対エントロピーを次のように設定します。 デフォルトではターゲットは
少なくとも 0.59 のモデルの場合、一致位置ごとの相対エントロピーは 1 ビットです。
ベースペアがゼロのモデルの場合は 0.38。

--エミンセク
最小許容有効シーケンス番号を次のように定義します。

--うーん
ターゲット HMM 平均一致状態相対エントロピーを次のように設定します。 のエントロピー
塩基対の一致状態は、限界化された塩基対発光を使用して計算されます。
確率。

--eset
エントロピー重み付けのための有効なシーケンス番号を次のように設定します。

OPTIONS 制御 フィルタ P7 HMM 建てる


それぞれのCMに対して、 cmビルド を構築すると、付随するフィルター p7 HMM が入力から構築されます。
アライメントも同様に。 これらのオプションは、フィルター HMM の構築を制御します。

--p7ere
フィルター p7 HMM のターゲット平均一致状態相対エントロピーを次のように設定します。 By
デフォルトでは、一致位置ごとのターゲット相対エントロピーは 0.38 ビットです。

--p7ml CM から構築された最尤 p7 HMM をフィルター HMM として使用します。 この HMM は、
CM にできるだけ似ていること (ただし、二次的なものは必然的に無視されます)
構造)。

  --devhelp 文書化されていない追加のフィルター HMM 構築オプションを確認します。

OPTIONS 制御 フィルタ P7 HMM 較正


各フィルタHMMを構築した後、 cmビルド 使用する適切な E 値パラメータを決定します
フィルタリング中に cmsearch および cmスキャン シーケンスのセットをサンプリングして検索することによって
各 HMM フィルター構成とアルゴリズムを使用します。

--EmN ローカル MSV フィルター HMM キャリブレーションのサンプル シーケンスの数を に設定します。
デフォルトでは200。

--EvN ローカル ビタビ フィルター HMM キャリブレーションのサンプル シーケンスの数を に設定します。
デフォルトでは200。

--エルフN ローカル フォワード フィルター HMM キャリブレーションのサンプリング シーケンスの数を に設定します。
デフォルトでは200。

--EgfN グローカル前方フィルター HMM キャリブレーション用のサンプリングされたシーケンスの数を設定します
〜へ デフォルトでは200。

  --devhelp 文書化されていない追加のフィルター HMM キャリブレーション オプションを確認します。

OPTIONS FOR 精製 入力 調整


- リファイン
CM を構築する前に、期待値を使用して調整を調整してみます。
最大化(EM)。 CM は、通常どおり、最初に初期調整から構築されます。 それから、
アラインメント内のシーケンスは最適に再調整されます (HMM バンド付き CYK を使用)
アルゴリズム、最適とは、帯域が与えられた場合に最適であることを意味します)を CM に適用し、新しい CM が構築されます
結果のアライメントから。 その後、シーケンスは新しい CM に合わせて再調整され、
新しい CM はその調整から構築されます。 これを収束するまで続けると、
特に、連続する XNUMX つの反復の位置合わせが正しくない場合に発生します。
大幅に異なります(すべてのシーケンスの合計ビットスコア)
連続する 1 回の反復間でのアライメントの変化は XNUMX% 未満です)。 最終
アライメント (書き込まれる CM を構築するために使用されるアライメント) is
に書き込ま

-l - リファイン、 ローカル アライメント アルゴリズムをオンにすると、アライメントが可能になります。
必要に応じて XNUMX つ以上のサブシーケンスにまたがる (クエリの構造が異なる場合など)
モデルとターゲット配列は部分的にのみ共有されます)、特定の大きな
構造内の挿入と削除には通常とは異なるペナルティが適用されます
インデル。 デフォルトでは、クエリ モデルをターゲット シーケンスにグローバルに調整します。

--ギブス
の動作を変更します - リファイン そのため、EM の代わりに Gibbs サンプリングが使用されます。 の
違いは、調整段階では必ずしも調整が行われるわけではないことです。
最適ではなく、各シーケンスのアラインメント (パースツリー) が
Inside アルゴリズムによって決定されたアライメントの事後分布。 により
このサンプリングステップ --ギブス は非決定的であるため、同じものでも異なる実行が行われます。
位置合わせを行うと異なる結果が生じる可能性があります。 これは当てはまらない場合 - リファイン 使用されている
なしで --ギブス オプション。この場合、最終的なアライメントと CM は常に
同じ。 いつ --ギブス が有効になっている場合、 - シード オプションを使用して、
乱数を予測どおりに生成し、結果を再現可能にします。 の目標
  --ギブス オプションは、RNA アライメントの専門家キュレーターが構造を改良するのを支援することです
代替の高得点アライメントを観察できるようにすることで、アライメントを向上させます。

- シード
乱数ジェネレータに次のシードを与えます 整数 >= 0。このオプションで指定できるのは
と組み合わせて使用​​されます --ギブス。 If ゼロ以外の確率的サンプリングです
アライメントは再現可能です。 同じコマンドでは同じ結果が得られます。 もしも
が 0 の場合、乱数ジェネレーターは任意にシードされ、確率的です。
サンプリングは、同じコマンドの実行ごとに異なる場合があります。 デフォルトのシードは 0 です。

--サイク - リファイン、 CYKアルゴリズムと一致します。 デフォルトでは最適な精度
というアルゴリズムが使われています。 これについての詳細は、 cmalign マニュアルページ。

--notrunc
- リファイン、 切り詰められた位置合わせアルゴリズムをオフにします。 もっとある
これに関する情報は、 cmalign マニュアルページ。

  --devhelp 文書化されていない追加の位置合わせ調整オプションを確認するには、
その他の出力ファイル オプションや、単一のモデルに対して複数のモデルを構築するためのオプションも含まれます。
アライメント。

onworks.net サービスを使用してオンラインで cmbuild を使用する



最新のLinuxおよびWindowsオンラインプログラム