これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド nhmmscan です。
プログラム:
NAME
nhmmscan - ヌクレオチド プロファイル データベースに対してヌクレオチド配列を検索します。
SYNOPSIS
うーんスキャン [オプション]
DESCRIPTION
nhmscan ヌクレオチドのコレクションに対してヌクレオチド配列を検索するために使用されます。
プロフィール。 の各シーケンスについて 、そのクエリ シーケンスを使用してターゲットを検索します
プロファイルのデータベース 、最も多くのプロファイルのランク付けされたリストを出力します。
シーケンスとの重要な一致。
当学校区の 複数のクエリシーケンスが含まれる場合があります。 FASTA形式、または
他のいくつかの一般的なシーケンス ファイル形式 (特に、genbank、embl、uniprot)、または
アラインメント ファイル形式 (ストックホルム、アラインメント ファスタなど)。 を参照してください。 --qformat オプション
完全なリストについては、
当学校区の を使用して押す必要があります うーんプレス で検索する前に うーんスキャン.
これにより、拡張子 .h3{fimp} の付いた XNUMX つのバイナリ ファイルが作成されます。
クエリ '-'(ダッシュ文字)の場合があります。この場合、クエリシーケンスは次のようになります。
から読むファイルからではなくパイプ。 NS からは読み取れません
ストリームには、これらの XNUMX つの補助バイナリ ファイルが生成される必要があるためです。
うーんプレス.
出力形式は人間が読めるように設計されていますが、多くの場合、非常に大量であるため
それを読むことは非現実的であり、それを解析することは苦痛です。 NS --tbout オプションは出力を
簡潔で解析しやすいシンプルな表形式。 The -o オプションは許可します
/ dev / nullに破棄するなど、メイン出力をリダイレクトします。
OPTIONS
-h ヘルプ; コマンドラインの使用法と利用可能なすべてのオプションの簡単なリマインダーを印刷します。
OPTIONS FOR 制御 出力
-o 人間が読める形式のメイン出力をファイルに送信する デフォルトのstdoutの代わりに。
--tbout
ヒットごとの出力を要約した単純な表形式 (スペース区切り) ファイルを保存します。
相同ターゲット モデル ヒットごとに XNUMX つのデータ行が見つかりました。
--dfamtblout
次のような、ヒットごとの出力を要約した表形式 (スペース区切り) ファイルを保存します。
--tbout しかし、もっと簡潔に。
--aliscoreout
各ヒットのポジションごとのスコアのリストをファイルに保存します。 これは便利です。
たとえば、解決に使用するスコア密度の高い領域を特定する場合
異なるモデルからの重複ヒット。
--acc プロファイルで使用可能な場合は、メイン出力で名前の代わりにアクセッションを使用します
および/またはシーケンス。
-ノアリ
メイン出力から位置合わせセクションを省略します。 これにより、出力が大幅に減少する可能性があります
ボリューム。
--notextw
メイン出力の各行の長さを無制限にします。 デフォルトは120の制限です
XNUMX行あたりの文字数。これは、端末で出力をきれいに表示するのに役立ちます。
エディターでは、ターゲットプロファイルの説明行を切り捨てることができます。
--textw
メイン出力の行長制限をに設定します XNUMX行あたりの文字数。 デフォルトは
120.
OPTIONS FOR 報告 しきい値
レポートしきい値は、出力ファイル (メイン出力、
--tbout, --dfamtblout)。 ヒットは統計的有意性 (E 値) によってランク付けされます。
-E E 値が <= のターゲット プロファイルをレポートします。 。 デフォルトは 10.0 です。つまり、
平均すると、クエリごとに約 10 件の誤検知が報告されるため、
ノイズの上部を見て、それが本当にノイズであるかどうかを自分で判断してください。
-T E 値の出力をしきい値処理する代わりに、ターゲット プロファイルをレポートします。
> =のビットスコア .
OPTIONS FOR インクルージョン しきい値
包含しきい値は、レポートしきい値よりも厳密です。 包含しきい値制御
どのヒットが出力アラインメントまたは
その後の探索ラウンド。 で nhmscan、アライメント出力はありません(たとえば、
うーん)、包含しきい値はほとんど影響しません。 マークされるヒットにのみ影響します。
ヒット出力に重要 (!) または疑わしい (?)。
--incE
<=のE値を使用します 包含閾値として。 デフォルトは 0.01 です。つまり、
平均すると、1 件の検索ごとに約 100 件の誤検知が予想されます。
異なるクエリシーケンスを使用します。
--incT
包含しきい値の設定に E 値を使用する代わりに、次のビット スコアを使用します。
>= 包含しきい値として。 ビットスコアしきい値を使用するのは珍しいでしょう
うーんスキャン単一のスコアしきい値が機能することを期待していないためです。
異なるプロファイル。 プロファイルが異なると予想されるスコアもわずかに異なります
分布
OPTIONS FOR モデル固有 スコア しきい値処理
厳選されたプロファイル データベースでは、プロファイルごとに特定のビット スコアしきい値を定義できます。
統計的有意性のみに基づいたしきい値処理を置き換えます。
これらのオプションを使用するには、プロファイルに適切な(GA、TC、および/またはNC)が含まれている必要があります
オプションのスコアしきい値注釈。 これはによってピックアップされます うーんビルド ストックホルム形式から
アライメントファイル。 ヌクレオチド モデルの場合、各しきい値オプションにはヒットごとに XNUMX つの値があります。
しきい値これは次のように動作します -T --incT それぞれを使用して具体的に適用されています
モデルの厳選されたしきい値。
--cut_ga
モデルの GA (収集) ビット スコアしきい値を使用して、ヒットごとのレポートを設定します
および包含閾値。 GA のしきい値は一般に信頼できるしきい値であると考えられています。
家族構成員を定義する厳選されたしきい値。 たとえば、Dfam では、これらは
閾値は、既知のファミリーのモデルでゲノムに注釈を付けるときに適用されます。
その生物の中で発見されます。 予想される誤検出を最小限に抑えられる可能性があります
レート。
--cut_nc
モデルの NC (ノイズ カットオフ) ビット スコアしきい値を使用して、ヒットごとのレポートを設定します。
および包含閾値。 NC しきい値は GA よりも厳しくありません。 文脈で
Pfam のスコアは、通常、既知の最高スコアのスコアを保存するために使用されます。
偽陽性。
--cut_tc
モデルの NC (トラステッド カットオフ) ビット スコアしきい値を使用してヒットごとに設定します
レポートおよび包含のしきい値。 TC のしきい値は GA よりも厳しく、
一般に、既知の真陽性のスコアが最も低いスコアであると考えられます。
それは何よりも既知の誤検知です。 たとえば、Dfam では、これらのしきい値は次のようになります。
ゲノムに存在することが知られていないファミリーのモデルで注釈を付けるときに適用されます。
その生物。
CONTROL OF 、 加速度 パイプライン
HMMER3 検索は、スキャン - SSV フィルター、
ビタビ フィルターと順方向フィルターです。 最初のフィルターは最も高速かつ最も効果的です。
近似; 最後は完全なフォワード スコアリング アルゴリズムです。 バイアスフィルターもある
SSV と Viterbi の間のステップ。 アクセラレーション パイプラインのすべてのステップを通過するターゲット
その後、後処理、つまりドメインの識別とスコアリングが行われます。
前方/後方アルゴリズム。
フィルターのしきい値を変更すると、ターゲットが考慮から除外または除外されるだけです。 変化
フィルターのしきい値は、ビット スコア、E 値、またはアライメントを変更しません。
後処理でのみ決定されます。
--最大 バイアスフィルターを含む(ほぼ)すべてのフィルターをオフにし、フルで実行します。
ほとんどのターゲット シーケンスに対する前方/後方後処理。 対照的に、
うーんスキャン、 このフラグが実際にフィルタを完全にオフにする場合、 --最大 フラグ
in nhmscan スキャン SSV フィルターのしきい値を 0.4 ではなく 1.0 に設定します。 これの使用
flag を使用すると、速度が大幅に犠牲になりますが、感度が多少向上します。
--F1
MSV フィルター ステップの P 値のしきい値を設定します。 デフォルトは 0.02 です。つまり、
最高スコアの非相同ターゲットの約 2% が合格すると予想される
フィルター。
--F2
ビタビ フィルター ステップの P 値のしきい値を設定します。 デフォルトは 0.001 です。
--F3
順方向フィルター ステップの P 値のしきい値を設定します。 デフォルトは 1e-5 です。
--ノビアス
バイアスフィルターをオフにします。 これにより感度は多少向上しますが、
特にクエリに偏った残基構成がある場合(たとえば、
反復配列領域、または大きな領域を持つ膜タンパク質の場合
疎水性)。 バイアス フィルターを使用しないと、多くのシーケンスがフィルターを通過する可能性があります。
偏ったクエリを使用すると、予想よりもパフォーマンスが低下します。
計算集約的な前方/後方アルゴリズムは異常に重い処理を負担します。
ロードします。
その他 OPTIONS
--nonnull2
偏った構成の null2 スコア補正をオフにします。
-Z 検索のターゲットの合計数が次であることをアサートします。 、 目的のために
実際のターゲット数ではなく、シーケンスごとの E 値の計算
見た。
- シード
乱数シードを次のように設定します。 。 後処理の一部のステップでは Monte が必要です
カルロのシミュレーション。 デフォルトでは、固定シード (42) が使用されるため、結果は次のようになります。
まさに再現可能。 他の正の整数では異なる結果が得られます (ただし、
再現可能)の結果。 0 を選択すると、任意に選択されたシードが使用されます。
--qformat
クエリ シーケンス ファイルが次の形式であることをアサートします。 。 受け入れられる形式には次のものがあります。
ファスタ, エンブレム, ゲンバンク, ddbj, ユニプロット, ストックホルム, ファム, a2m, 祖父。 デフォルトは
ファイルの形式を自動検出します。
--w_beta
ウィンドウの長さのテール質量。 上限は、 W、nmmer が期待する長さ
モデルのインスタンスを見つけるには、すべてのシーケンスの割合が次のように設定されます。
長さのあるモデルによって生成される >= W よりも少ない 。 デフォルトは 1e-7 です。
このフラグは、次の値をオーバーライドするために使用できます。 W によってモデル用に確立された
うーんビルド.
--w_length
モデル インスタンスの長さの上限をオーバーライドします。 W、それ以外の場合はによって制御されます
--w_beta。 モデルの長さよりも大きくなければなりません。 の値 W 深く使われている
アクセラレーション パイプライン内にあり、小規模な変更は結果に影響を与えることは予想されません
(ただし、より大きな値は W 実行時間が長くなります)。 このフラグは次の目的で使用できます。
の値をオーバーライドします W によってモデル用に確立された うーんビルド.
--toponly
一番上のストランドのみを検索します。 デフォルトでは、クエリ シーケンスとその逆の両方が、
補数が検索されます。
--底だけ
最下位 (逆相補) ストランドのみを検索します。 デフォルトでは、両方のクエリ
シーケンスとその逆補数が検索されます。
- CPU
並列ワーカースレッドの数をに設定します 。 デフォルトでは、HMMER はこれを次のように設定します。
マシン内で検出された CPU コアの数 - つまり、最大化を試みます
利用可能なプロセッサ コアの使用。 設定 の数よりも高い
利用可能なコア数はたとえあったとしてもほとんど価値がありませんが、何かに設定するとよいでしょう。
以下。 環境変数を設定してこの数値を制御することもできます。
HMMER_NCPU.
このオプションは、HMMER が POSIX スレッドをサポートしてコンパイルされた場合にのみ使用できます。
これはデフォルトですが、サイトまたはマシンではオフになっている可能性があります。
何らかの理由で。
- ストール
MPIマスター/ワーカーバージョンをデバッグする場合:開始後に一時停止して、
実行中のマスタープロセスとワーカープロセスにデバッガーをアタッチする開発者。 送信
一時停止を解除するSIGCONTシグナル。 (gdbの下: (gdb) 信号 シグコント)
(オプションの MPI サポートがコンパイル時に有効になっている場合にのみ使用可能です。)
--mpi MPIマスター/ワーカーモードで実行し、 ムピルン.
(オプションの MPI サポートがコンパイル時に有効になっている場合にのみ使用可能です。)
onworks.net サービスを使用してオンラインで nhmmscan を使用する
