これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド cmcalibrate です。
プログラム:
NAME
cmcalibrate - 共分散モデルの E 値を決定するために指数尾を当てはめます
SYNOPSIS
cmキャリブレーション [オプション] cmファイル
DESCRIPTION
cmキャリブレーション を生成することにより、E 値を決定するための指数尾パラメーターを決定します。
ランダム シーケンス、CM で検索し、結果のスコアを収集します。
ヒットします。 ヒットのビット スコアのヒストグラムは指数関数的な尾部に適合し、
フィットしたテールのパラメータは CM ファイルに保存されます。 指数尾パラメーター
次に、これらを使用して、次の検索結果で見つかったヒットの統計的有意性を推定します。 cmsearch &
cmscan。
CM ファイルは次のように調整する必要があります。 cmキャリブレーション で使用できるようになる前に cmsearch or cmscan、
XNUMX つの例外を除き、次の内容のみを含む CM ファイルを調整する必要はありません。
実行前に塩基対がゼロのモデル cm検索。
cmキャリブレーション とても遅いです。 単一の平均サイズを調整するには数時間かかります
単一の CPU 上の CM。 cmキャリブレーション Infernal の場合、利用可能なすべてのコアで並列実行されます。
POSIX スレッドをサポートするシステム上に構築されました (
詳細についてはユーザーガイドを参照してください)。 使用する コアはおおよそ次のようになります 倍
単一 CPU に対する加速度。 MPI (メッセージ パッシング インターフェイス) も使用できます。
との並列化 --mpi Infernal が MPI を有効にしてビルドされた場合のオプションですが、
161 を超えてプロセッサを増やしても高速化されないため、161 を超えるプロセッサは推奨されません
校正。 詳細については、ユーザー ガイドの「インストール」セクションを参照してください。
- 天気 オプションを使用すると、プログラムの実行にかかる時間を見積もることができます。
与えられた cmファイル 現在のマシンでは。 実行時間を予測するには プロセッサ
MPI を使用するには、さらに --nforecast オプションを選択します。
で検索されたランダム シーケンス cmキャリブレーション でトレーニングされた HMM によって生成されます。
さまざまな GC コンテンツを含む実際のゲノム配列。 目標は GC ディストリビューションを実現することです
ランダム配列内の配列は、実際のゲノム配列内の配列と類似しています。
XNUMX ラウンドの検索とその後の指数尾部適合が、それぞれ XNUMX 回ずつ実行されます。
で使用できる XNUMX つの異なる CM アルゴリズム cmsearch & cmスキャン: グローカルCYK、
グローカル インサイド、ローカル CYK、ローカル インサイド。
E 値パラメータは次のように決定されます。 cmキャリブレーション によってのみ使用されます cmsearch & cmスキャン
プログラム。 これらのプログラムを使用しない場合は、調整に時間を無駄にしないでください。
あなたのモデル。
OPTIONS
-h ヘルプ; コマンドラインの使用法と利用可能なオプションの簡単なリマインダーを出力します。
-L 検索するランダム シーケンスの合計長を設定します。 メガベース (Mb)。 による
デフォルト、 is 1.6MB。 増加中 指数尾がよりフィットするようになります
正確で、E 値はより正確ですが、時間がかかります (倍増) 大まかに
実行時間はXNUMX倍になります)。 減少中 が発生するため、お勧めできません。
フィッティングの精度が低くなり、E 値の精度も低くなります。
OPTIONS FOR 予測する REQUIRED タイム そして MEMORY
- 天気
のキャリブレーションの実行時間を予測します。 cmファイル (提供されたオプションを使用) オン
現在のマシンを選択して終了します。 キャリブレーションは行われません。 予測
大まかな見積もりとして考慮する必要があります。 マルチスレッドが有効な場合 (「
ユーザーガイドのインストールセクション)、タイミングは数を考慮します。
利用可能なコアの数。
--nforecast
- 予報、 それを指定する プロセッサはキャリブレーションに使用されます。
これは、MPI 実行の実行時間を予測するのに役立つ可能性があります。
プロセッサ。
--memreq
キャリブレーションに必要なメモリ量を予測する cmファイル (付属の
現在のマシンでオプション) を選択して終了します。 キャリブレーションは行われません。
OPTIONS 制御 指数関数 尾 フィット
--gtailn
グローカル Inside とグローカル CYK の指数尾を 最高スコア
ヒストグラムの末尾で、ここで is 検索された Mb 数の倍。 の
のデフォルト値 は 250 です。値 250 が選択されたのは、うまく機能するためです。
経験的に他の値と比較して。
--ltailn
ローカル Inside およびローカル CYK の指数尾部を 最高スコア
ヒストグラムの末尾で、ここで is 検索された Mb 数の倍。 の
のデフォルト値 は 750 です。値 750 が選択されたのは、うまく機能するためです。
経験的に他の値と比較して。
--テールプ
無視する --gtailn & --ltailn 接頭辞オプションを付けて、 分数末尾
すべての検索モードで、ヒストグラムは指数関数的な尾部になります。
オプション 出力 ファイル
--hfile
ヒストグラムをファイルに保存します 。 このファイルの形式はスペース XNUMX つです
行ごとに区切られた列。 最初の列は、ビット スコアの x 軸の値です。
各ビン。 XNUMX 番目の列は、ビンごとのヒット数の Y 軸値です。 それぞれ
シリーズは XNUMX 文字「&」の行で区切られます。 ファイルには次の内容が含まれます
XNUMX つの指数尾部のそれぞれに XNUMX つの系列が次の順序で適合します。
グローカル CYK、グローカル Inside、ローカル CYK、およびローカル Inside。
--sfile
生存プロット情報をファイルに保存する 。 このファイルの形式はスペース XNUMX つです
行ごとに区切られた列。 最初の列は、ビット スコアの x 軸の値です。
各ビン。 XNUMX 番目の列は、次の条件を満たすヒットの割合の Y 軸値です。
各ビンのスコアを超えています。 各シリーズは、単一の行で区切られています。
キャラクター "&"。 ファイルには、XNUMX つの CM ごとに XNUMX つの一連のデータが含まれます。
検索モードは次の順序で: グローカル CYK、グローカル Inside、ローカル CYK、
地元のインサイド。 最初のシリーズは、ヒストグラムからの経験的生存プロットです。
ランダムなシーケンスに対するヒット数。 XNUMX 番目のシリーズは、次の指数尾フィットです。
経験的な分布。 XNUMX 番目のシリーズは、ラムダの場合の指数尾当てはめです。
は固定され、2 の自然対数 (0.691314718) として設定されました。
--qqfile
分位数-分位数プロット情報をファイルに保存 。 このファイルの形式は次のとおりです
XNUMX 行につきスペース区切りの XNUMX 列。 最初の列は X 軸の値であり、
XNUMX 番目の列は y 軸の値です。 からのポイントの距離
恒等直線 (y=x) は、指数尾部の適合がどの程度優れているかを示す尺度です。
点が識別線に近づくほど、適合度が高くなります。 それぞれのシリーズは、
単一文字「&」の行で区切られます。 ファイルには XNUMX つのシリーズが含まれます
XNUMX つの指数尾部のそれぞれの経験的データは次のようになります。
順序: グローカル CYK、グローカル Inside、ローカル CYK、ローカル Inside。
--ffile
さまざまな指数尾フィットのスペース区切りの統計をファイルに保存します 。
このファイルには、次の条件に適合する指数尾部のラムダ値とミュー値が含まれます。
さまざまなサイズのヒストグラムの裾。 ファイル内のフィールドにはラベルが付けられています
有益に。
--xfile
各適合ヒストグラム末尾のスコアのリストをファイルに保存します 。 の各行
このファイルには、末尾に XNUMX つのヒットが存在することを示す異なるスコアが付けられます。
そのスコア。 各シリーズは、単一文字「&」を含む行で区切られます。 の
ファイルには、
順序は、グローカル CYK、グローカル Inside、ローカル CYK、ローカル Inside です。
その他 OPTIONS
- シード
乱数ジェネレータに次のシードを与えます 、 整数 >= 0。 ゼロ以外の場合、
確率的シミュレーションは再現可能です。 同じコマンドで同じ結果が得られます
結果。 もしも が 0 の場合、乱数ジェネレーターは任意にシードされ、
確率的シミュレーションは、同じコマンドの実行ごとに異なります。 デフォルト
シードは181です。
- ベータ
デフォルトでは、CM 検索を高速化するためにクエリ依存バンディング (QDB) が使用されます。
ベータテール損失確率が 1E-15 のアルゴリズム。 このベータ値は次のようになります。
に変わった - ベータ . ベータパラメータは確率の量です
バンド計算中に質量が除外されるため、ベータ値が大きいほど高速化が大きくなります
ただし、値を低くするよりも精度が犠牲になります。 使用されるデフォルト値は 1E-15 です。
(QDB の詳細については、Nawrocki と Eddy、PLoS Computational Biology を参照してください)
3(3): e56。)
-バンドなし
E 値校正中は QDB をオフにします。 これにより、キャリブレーションが遅くなります。
--nonnull3
null3 事後追加の null モデルをオフにします。 これは次の場合には推奨されません
同じオプションを使用して、 cmsearch および cmscan。
- ランダム
代わりに、CM のバックグラウンド ヌル モデルを使用してランダム シーケンスを生成します。
より現実的な HMM です。 CM が - ヌル オプション
cmbuild、 背景のヌル モデルは、A、C、G、U それぞれ 25% になります。
--gc
配列からのヌクレオチド分布を使用してランダム配列を生成します。
file 。
- CPU
指定する 並列 CPU ワーカーが使用されます。 もしも が「0」に設定されている場合、
プログラムはスレッドを使用せずにシリアル モードで実行されます。 コントロールすることもできます
この数値は環境変数を設定して、 INFERNAL_NCPU。 このオプションは、
Infernal が構築されたマシンが次の機能を使用できる場合にのみ使用できます。
POSIX スレッド (詳細については、ユーザー ガイドの「インストール」セクションを参照してください)
情報)。
--mpi MPI 並列プログラムとして実行します。 このオプションは、Infernal がインストールされている場合にのみ使用できます。
「--enable-mpi」フラグを使用して構成およびビルドされている (「インストール」を参照)
詳細については、ユーザー ガイドのセクションを参照してください)。
onworks.net サービスを使用してオンラインで cmcalibrate を使用する