jackhmmer - クラウドでオンライン

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド jackhmmer です。

プログラム:

NAME


jackhmmer - タンパク質データベースに対して配列を繰り返し検索します

SYNOPSIS


ジャックマー [オプション]

DESCRIPTION


ジャックマー 各クエリシーケンスを繰り返し検索します。 目標に対して
のシーケンス 。 最初の反復は ファーマー 検索。 のために
次の反復、クエリとすべてのターゲット配列の多重アラインメント
満足させる 包含 しきい値 が組み立てられ、この位置合わせからプロファイルが構築されます
(使用するのと同じ うーんビルド 線形上)、およびプロファイル検索 行われます
(と同じ うーん検索 プロフィール付き)。

クエリ '-'(ダッシュ文字)の場合があります。この場合、クエリシーケンスは次のようになります。
から読むファイルからではなくパイプ。 NS からは読み取れません
ストリーム、なぜなら ジャックマー データベース上で複数のパスを実行する必要があります。

出力形式は人間が読めるように設計されていますが、多くの場合、非常に大量であるため
それを読むことは非現実的であり、それを解析することは苦痛です。 NS --tbout および --domtblout オプション
出力を、簡潔で解析しやすい単純な表形式で保存します。 の -o オプション
/dev/null に捨てるなど、メイン出力をリダイレクトできます。

OPTIONS


-h ヘルプ; コマンドラインの使用法と利用可能なすべてのオプションの簡単なリマインダーを印刷します。

-N 最大反復回数を次のように設定します。 。 デフォルトは 5 です。N=1 の場合、結果は次のようになります。
と等価です ファーマー 検索。

OPTIONS 制御 出力


デフォルトでは、各反復の出力は、ある程度人間が読める形式で標準出力に表示されます。
ある程度解析可能な形式。 これらのオプションにより、出力をリダイレクトしたり保存したりできます。
ファイルへの追加の種類の出力 (反復ごとのチェックポイント ファイルなど)。

-o 人間が判読できる出力をファイルに出力する .

-A 最後の反復の後、すべてのヒットの注釈付きの複数のアライメントを保存します。
包含しきい値を満たす (元のクエリも含む) in
ストックホルム形式。

--tbout
最後の反復の後、上位シーケンス ヒットの表形式の概要を次のファイルに保存します。
容易に解析可能な、空白で区切られた列形式の形式。

--domtblout
最後の反復の後、上位のドメイン ヒットの表形式の概要を次のファイルに保存します。
容易に解析可能な、空白で区切られた列形式の形式。

--chkhmm
各反復の開始時に、クエリ HMM のチェックポイントを作成し、クエリ HMM を という名前のファイルに保存します。
- 。ふーむ コラボレー 反復番号 (1..N から) です。

--chkali
各反復の最後に、次の条件を満たすすべてのドメインのアライメントにチェックポイントを入れます。
包含しきい値 (たとえば、次の反復のクエリ HMM になるもの)、
という名前のファイルに保存します <チェックポイント file プレフィックス>- .sto ストックホルム形式では、
コラボレー 反復番号 (1..N から) です。

--acc プロファイルで使用可能な場合は、メイン出力で名前の代わりにアクセッションを使用します
および/またはシーケンス。

-ノアリ
メイン出力から位置合わせセクションを省略します。 これにより、出力が大幅に減少する可能性があります
ボリューム。

--notextw
メイン出力の各行の長さを無制限にします。 デフォルトは120の制限です
XNUMX行あたりの文字数。これは、端末で出力をきれいに表示するのに役立ちます。
エディターでは、ターゲットプロファイルの説明行を切り捨てることができます。

--textw
メイン出力の行長制限をに設定します XNUMX行あたりの文字数。 デフォルトは
120.

OPTIONS 制御 SINGLE シーケンス スコアリング (初め 反復)


デフォルトでは、最初の反復では単一のクエリから構築された検索モデルが使用されます。
順序。 このモデルは、剰余の標準的な 20x20 置換行列を使用して構築されています。
確率、および位置に依存しないギャップオープンとギャップのための XNUMX つの追加パラメータ
確率を拡張します。 これらのオプションでは、デフォルトの単一シーケンスのスコアリング パラメーターを使用できます。
変更されます。

--ポップン
単一シーケンス クエリ モデルのギャップ オープン確率を次のように設定します。 。 デフォルト
0.02です。 0 以上、0.5 未満である必要があります。

--pextend
単一シーケンス クエリ モデルのギャップ拡張確率を次のように設定します。 を選択します。
デフォルトは0.4です。 0 以上、1.0 未満である必要があります。

--mx
という名前の組み込み置換行列から残基アライメント確率を取得します。
。 いくつかの標準行列が組み込まれており、そこから読み取る必要はありません。
ファイル。 マトリックス名 PAM30、PAM70、PAM120、PAM240、BLOSUM45、
BLOSUM50、BLOSUM62、BLOSUM80、またはBLOSUM90。 そのうちの XNUMX つだけ --mx および --mxfile
オプションが使用される場合があります。

--mxfile
ファイル内の置換行列から残基のアライメント確率を取得します。
。 デフォルトのスコア行列は BLOSUM62 です (この行列は HMMER の内部にあります)
ファイルとして利用できる必要はありません)。 置換行列の形式
BLAST、FASTA、およびその他のシーケンスで受け入れられる標準形式です
分析ソフトウェア。

OPTIONS 制御 報告 しきい値


レポートしきい値は、出力ファイル (メイン出力、
--tbout, --domtblout)。 各反復で、シーケンス ヒットとドメイン ヒットがランク付けされます。
統計的有意性 (E 値) によって判断され、出力は per- と呼ばれる XNUMX つのセクションで生成されます。
ターゲットおよびドメインごとの出力。 ターゲットごとの出力では、デフォルトで、すべてのシーケンスが
E 値 <= 10 が報告されます。 ドメインごとの出力では、パスごとに渡されたターゲットごとに、
ターゲット レポートしきい値、ドメインごとのレポートしきい値を満たすすべてのドメインは
報告。 デフォルトでは、これらは条件付き E 値が 10 以下のドメインです。以下は
オプションを使用すると、デフォルトの E 値レポートしきい値を変更したり、ビット スコアを使用したりできます。
代わりにしきい値を設定します。

-E E 値 <= のレポートシーケンス シーケンスごとの出力。 デフォルトは 10.0 です。

-T E 値しきい値の代わりにシーケンスごとの出力にビット スコアしきい値を使用する
(任意の設定 -E は無視されます)。 >= のビット スコアを持つシーケンスを報告します 。 によって
デフォルトでは、このオプションは設定されていません。

-Z データベースの合計サイズを次のように宣言します。 E 値を目的としたシーケンス
計算。 通常、E 値はデータベースのサイズに応じて計算されます。
実際に検索した(たとえば、 ターゲットシーケンスデータベース)。 一部では
場合 (たとえば、ターゲット配列データベースを複数に分割した場合)
検索の並列化のためのファイル)、実際のサイズがどのくらいかをよく知ることができるかもしれません
あなたの検索スペースは次のとおりです。

- ドーム
条件付き E 値 <= を持つレポート ドメイン ドメインごとの出力に加えて
重要な配列ヒットごとに最高スコアのドメインに移動します。 デフォルトは 10.0 です。

--domT
E 値しきい値の代わりに、ドメインごとの出力にビット スコアしきい値を使用する
(任意の設定 --domT は無視されます)。 ビットスコア >= のドメインをレポートします in
重要なシーケンスごとの最高スコアのドメインに加えて、ドメインごとの出力
打つ。 デフォルトでは、このオプションは設定されていません。

--domZ
有効なシーケンスの数を宣言します。 シーケンスの目的
追加のドメイン重要性のための条件付き E 値計算。 通常は
条件付き E 値は、通過するシーケンスの数に応じて計算されます。
シーケンスごとのレポートしきい値。

OPTIONS 制御 インクルージョン しきい値


包含閾値は、マルチプルアライメントとプロファイルにどのヒットを含めるかを制御します。
次の検索反復のために構築されます。 デフォルトでは、シーケンスにはパー
シーケンス E 値 <= 0.001 (を参照) -E オプション) を含める必要があり、追加のドメインがあれば、
最高得点以外に、条件付き E 値 <= 0.001 が必要です (「 - ドーム
オプション)。 レポートしきい値と包含しきい値の違いは次のとおりです。
包含しきい値は、どのヒットが実際に次の反復 (または
最終出力の複数のアライメントの場合、 -A オプションが使用されます)、しきい値はレポートされます
出力に表示される内容を制御します。 レポートのしきい値は通常より緩いため、
ノイズの上部にある、興味のある可能性のある境界線のヒットを確認します。

--incE
E 値 <= のシーケンスを含める 後続の反復または最終的な調整で
によって出力 -A。 デフォルトは0.001です。

--incT
E 値の代わりにシーケンスごとの包含にビット スコアしきい値を使用する
しきい値 (任意の設定) --incE は無視されます)。 ビットスコアが のシーケンスを含める
>= 。 デフォルトでは、このオプションは設定されていません。

--incdomE
条件付き E 値 <= を持つドメインを含める 後続の反復または最終的に
によるアライメント出力 -A、重要なごとに最高得点のドメインに加えて、
シーケンスヒット。 デフォルトは 0.001 です。

--incdomT
E 値しきい値の代わりに、ドメインごとの包含にビット スコアしきい値を使用する
(任意の設定 --incT は無視されます)。 ビットスコア >= のドメインを含める 。 によって
デフォルトでは、このオプションは設定されていません。

OPTIONS 制御 加速度 経験則


HMMER3 検索は、MSV フィルター、
ビタビ フィルターとフォワード フィルター。 最初のフィルターは最も高速かつ最も効果的です。
近似; 最後のアルゴリズムは完全な Forward スコアリング アルゴリズムで、最も遅いですが最も正確です。
MSV とビタビの間にはバイアス フィルター ステップもあります。 すべてのステップを通過したターゲット
アクセラレーション パイプライン内のドメインは後処理を受けます -- ドメインの識別
そして、前方/後方アルゴリズムを使用してスコアリングします。

基本的に、HMMER のヒューリスティック フィルターを制御する唯一の自由なパラメーターは、P-
通過する非相同配列の予想される割合を制御する値のしきい値
フィルター。 デフォルトのしきい値を高く設定すると、通過する割合が高くなります。
非相同配列。速度を犠牲にして感度を高めます。 逆に、
P 値のしきい値を低く設定すると、通過する割合が小さくなり、感度が低下します。
そしてスピードが増していく。 フィルターの P 値のしきい値を 1.0 に設定すると、フィルターは通過します。
すべてのシーケンスを削除し、フィルターを効果的に無効にします。

フィルターのしきい値を変更すると、ターゲットが考慮から除外または除外されるだけです。 変化
フィルターのしきい値は、ビット スコア、E 値、またはアライメントを変更しません。
後処理でのみ決定されます。

--最大 最高の感度。 バイアスフィルターを含むすべてのフィルターをオフにし、フルで実行します。
すべてのターゲットに対する前方/後方後処理。 これにより感度が上がります
わずかですが、速度が大幅に犠牲になります。

--F1
最初のフィルターしきい値。 MSV フィルター ステップの P 値のしきい値を設定します。 の
デフォルトは 0.02 で、最高スコアの約 2% が非相同であることを意味します。
ターゲットはフィルターを通過することが期待されます。

--F2
XNUMX 番目のフィルターしきい値。 ビタビ フィルター ステップの P 値のしきい値を設定します。
デフォルトは0.001です。

--F3
XNUMX 番目のフィルターしきい値。 前方フィルター ステップの P 値のしきい値を設定します。 の
デフォルトは 1e-5 です。

--ノビアス
バイアスフィルターをオフにします。 これにより感度は多少向上しますが、
特にクエリに偏った残基構成がある場合(たとえば、
反復配列領域、または大きな領域を持つ膜タンパク質の場合
疎水性)。 バイアス フィルターを使用しないと、多くのシーケンスがフィルターを通過する可能性があります。
偏ったクエリを使用すると、予想よりもパフォーマンスが低下します。
計算集約的な前方/後方アルゴリズムは異常に重い処理を負担します。
ロードします。

OPTIONS 制御 プロフィール 建てる (後で 反復)


これらのオプションは、複数のアラインメントでコンセンサス列を定義する方法を制御します。
プロファイルの構築。 デフォルトでは、 ジャックマー 元のクエリ シーケンスが常に含まれます。
すべての反復でのアライメント結果、およびコンセンサス位置はそのクエリによって定義されます
シーケンス: つまり、デフォルト ジャックマー プロファイルは常に元のものと同じ長さになります
反復ごとにクエリを実行します。

- 速い コンセンサス列を分数 >= を持つ列として定義します。 シンフラック 残基の
ギャップに反対。 (詳細については以下を参照してください) --symfrac オプションです。)これはデフォルトですが、
プロファイル構築オプションは別の場所 ( うーんビルド、特に)、それは可能性があります
~における望ましくない影響 ジャックマー、プロファイルが繰り返しウォークインする可能性があるため、
元のクエリからシーケンス スペースを離し、コンセンサス列をほとんどまたはまったく残さないようにします。
その残基に対応します。

- 手 複数への参照アノテーションを使用して、次のプロファイルでコンセンサス列を定義します。
アライメント。 ジャックマー 参照アノテーションを前のプロファイルから次のプロファイルに伝播します。
マルチアライメント、そして次のプロファイルへ。 これがデフォルトです。

--symfrac
次の場合にコンセンサス列を定義するために必要な残基画分しきい値を定義します。
- 速い オプション。 デフォルトは 0.5 です。 各列の記号分数は次のとおりです。
相対的なシーケンスの重み付けを考慮し、ギャップを無視した後に計算されます。
配列フラグメントの終わりに対応する文字 (内部の文字列とは対照的に)
挿入/削除)。 これを 0.0 に設定すると、すべての配置列が
コンセンサスとして割り当てられるため、場合によっては役立つ場合があります。 1.0に設定すると
ギャップ (内部挿入/削除) が 0 個含まれる列のみが対象となることを意味します。
コンセンサスとして割り当てられました。

--フラグスレシュ
整列された配列が既知である場合にのみ、末端ギャップを欠失としてカウントしたいと考えます。
フラグメントの場合ではなく、完全長である必要があります(たとえば、その一部だけであるため)
配列決定されました)。 HMMER は、単純なルールを使用してフラグメントを推測します。
L は分数以下です 列単位の整列長の倍、
シーケンスはフラグメントとして扱われます。 デフォルトは 0.5 です。 設定
--フラグスレシュ0 フラグメントとして (空ではない) シーケンスを定義しません。 あなたはしたいかもしれない
慎重に厳選された全長のアライメントがあることがわかっている場合は、これを実行してください。
シーケンス。 設定 --フラグスレシュ1 すべてのシーケンスをフラグメントとして定義します。 あなたはそうかもしれません
アライメントが完全にフラグメントで構成されていることがわかっている場合は、これを実行します。
メタゲノムショットガンデータの翻訳されたショートリードとして。

OPTIONS 制御 相対 WEIGHTS


プロファイルがマルチプル アライメントから構築されるときは常に、HMMER はアドホック シーケンスを使用します。
密接に関連するシーケンスをダウンウエイトし、遠く関連するシーケンスをアップウエイトする重み付けアルゴリズム
もの。 これには、不均一な系統発生によるモデルの偏りを軽減する効果があります。
表現。 たとえば、XNUMX つの同一のシーケンスは通常、それぞれ半分の値を受け取ります。
XNUMX つのシーケンスにかかる重み (これが理由です) ジャックマー いつも気にしていない
元のクエリ シーケンスが見つかった場合でも、各反復のアライメントに含めます。
検索しているデータベースに再度アクセスします)。 これらのオプションは、使用するアルゴリズムを制御します。

--wpb Henikoff 位置ベースのシーケンス重み付けスキームを使用します [Henikoff および Henikoff、
J.Mol. バイオル。 243:574、1994]。 これがデフォルトです。

--wgsc Gerstein/Sonnhammer/Chothia重み付けアルゴリズムを使用する[Gersteinら、J.Mol.
バイオル。 235:1067、1994]。

--wblosum
BLOSUM の計算時にデータの重み付けに使用されたのと同じクラスタリング スキームを使用します。
置換行列 [Henikoff and Henikoff、Proc. 国立アカド。 Sci 89:10915、1992]。
シーケンスは、同一性しきい値 (デフォルトは 0.62、参照) で単一連鎖クラスター化されます。
--幅) そして c シーケンスの各クラスター内で、各シーケンスは相対的な重みを取得します。
1/c。

--wone
相対的な重みはありません。 すべてのシーケンスには均一の重みが割り当てられます。

--幅
単一リンククラスタリングを使用する場合に使用されるアイデンティティしきい値を設定します。 --wblosum.
他の重み付けスキームでは無効です。 デフォルトは 0.62 です。

OPTIONS 制御 効果的な シーケンス


相対的な重みが決定された後、合計が有効になるように正規化されます。
シーケンス番号、 eff_nseq。 この数は、実際のシーケンスの数である可能性があります。
しかし、ほとんどの場合、それよりも小さくなります。 デフォルトのエントロピー重み付け
方法 (--ent) 有効なシーケンス番号を減らして情報コンテンツを削減します。
コンセンサス位置ごとの(相対エントロピー、または真のホモログの平均期待スコア)。 の
ターゲットの相対エントロピーは XNUMX つのパラメーター関数によって制御されます。
パラメータは次のように設定できます --えれ および --エシグマ.

--ent 実効シーケンス番号を調整して、特定の相対エントロピーを達成します。
位置(参照 --えれ)。 これがデフォルトです。

--eclust
有効シーケンス番号を一度に単一リンケージクラスターの数に設定します。
特定の ID しきい値 (「 --イード)。 このオプションは推奨されません。 それはのためです
どれだけ優れているかを評価する実験 --ent です。

--エノン
有効なシーケンス番号の決定をオフにして、実際のシーケンス番号のみを使用します。
シーケンス。 これを行う理由の XNUMX つは、相対的な値を最大化しようとすることです。
モデルのエントロピー/位置。短いモデルに役立つ場合があります。

--eset
すべてのモデルの実効シーケンス番号を明示的に設定します。 .

--えれ
最小相対エントロピー/位置ターゲットを次のように設定します。 。 必要です --ent。 デフォルト
シーケンスのアルファベットに依存します。 タンパク質シーケンスの場合、それは 0.59 ビット/位置です。

--エシグマ
モデル全体のアライメントによって寄与される最小相対エントロピーを設定します。
その全長。 これにより、短いモデルの相対値が高くなる効果があります。
位置ごとのエントロピーよりも --えれ 一人で与えるだろう。 デフォルトは 45.0 ビットです。

--イード
単一連鎖クラスタリングで使用される分数ペアワイズ ID カットオフを設定します。
  --eclust オプション。 デフォルトは 0.62 です。

OPTIONS 制御 先住民族


プロファイル構築では、デフォルトで重み付きカウントが平均事後値に変換されます。
混合ディリクレ事前分布を使用した確率パラメータ推定。 デフォルト混合ディリクレ
タンパク質モデルと核酸 (RNA および DNA) モデルの事前パラメーターが構築されます。
次のオプションを使用すると、デフォルトの事前確率をオーバーライドできます。

--pnone 事前設定は使用しないでください。 確率パラメータは単に観測された値になります。
相対シーケンス重み付け後の周波数。

--plaplace デフォルトの混合ディリクレ事前分布の代わりにラプラス +1 事前分布を使用します。

OPTIONS 制御 Eバリュー 較正


MSV フィルターの予想されるスコア分布の位置パラメーターの推定
スコア、ビタビ フィルター スコア、およびフォワード スコアには XNUMX つの短いランダム シーケンスが必要です
シミュレーション。

--EML
位置パラメータ mu を推定するシミュレーションでシーケンスの長さを設定します。
MSV フィルターの E 値。 デフォルトは 200 です。

--EmN
位置パラメータ mu を推定するシミュレーションでのシーケンスの数を設定します。
MSV フィルターの E 値の場合。 デフォルトは 200 です。

--EvL
位置パラメータ mu を推定するシミュレーションでシーケンスの長さを設定します。
ビタビ フィルターの E 値。 デフォルトは 200 です。

--EvN
位置パラメータ mu を推定するシミュレーションでのシーケンスの数を設定します。
ビタビ フィルターの E 値の場合。 デフォルトは 200 です。

--EfL
位置パラメータ tau を推定するシミュレーションでのシーケンス長を設定します。
順方向 E 値の場合。 デフォルトは 100 です。

--EfN
位置パラメータを推定するシミュレーションにおけるシーケンスの数を設定します。
tau は Forward E 値です。 デフォルトは 200 です。

--エフト
位置を推定するシミュレーションに適合するように尾部の質量分率を設定します。
Forward evalue のパラメータ tau。 デフォルトは 0.04 です。

その他 OPTIONS


--nonnull2
偏った構成の null2 スコア補正をオフにします。

-Z 検索のターゲットの合計数が次であることをアサートします。 、 目的のために
実際のターゲット数ではなく、シーケンスごとの E 値の計算
見た。

--domZ
検索のターゲットの合計数が次であることをアサートします。 、 目的のために
ターゲットの数ではなく、ドメインごとの条件付き E 値計算の数
報告しきい値を超えたもの。

- シード
乱数ジェネレータに次のシードを与えます 、整数 >= 0。 >0、任意
確率的シミュレーションは再現可能です。 同じコマンドで同じ結果が得られます
結果。 もしも が 0 の場合、乱数ジェネレーターは任意にシードされ、
確率的シミュレーションは、同じコマンドの実行ごとに異なります。 デフォルト
シードは42です。

--qformat
入力を宣言します クエリシーケンスファイル 形式になっています 。 受け入れられた配列ファイル
形式には、FASTA、EMBL、GenBank、DDBJ、UniProt、ストックホルム、および SELEX が含まれます。 デフォルト
ファイルの形式を自動検出することです。

--tformat
入力を宣言します ターゲットシーケンスデータベース 形式になっています 。 受け入れられた配列ファイル
形式には、FASTA、EMBL、GenBank、DDBJ、UniProt、ストックホルム、および SELEX が含まれます。 デフォルト
ファイルの形式を自動検出することです。

- CPU
並列ワーカースレッドの数をに設定します 。 デフォルトでは、HMMER はこれを次のように設定します。
マシン内で検出された CPU コアの数 - つまり、最大化を試みます
利用可能なプロセッサ コアの使用。 設定 の数よりも高い
利用可能なコア数はたとえあったとしてもほとんど価値がありませんが、何かに設定するとよいでしょう。
以下。 環境変数を設定してこの数値を制御することもできます。
HMMER_NCPU.

このオプションは、HMMER が POSIX スレッドをサポートしてコンパイルされた場合にのみ使用できます。
これはデフォルトですが、サイトのコンパイル時にオフになっている可能性があります。
または何らかの理由で機械。

- ストール
MPIマスター/ワーカーバージョンをデバッグする場合:開始後に一時停止して、
実行中のマスタープロセスとワーカープロセスにデバッガーをアタッチする開発者。 送信
一時停止を解除するSIGCONTシグナル。 (gdbの下: (gdb) 信号 シグコント) (それだけ
オプションのMPIサポートがコンパイル時に有効になっている場合に使用できます。)

--mpi MPIマスター/ワーカーモードで実行し、 ムピルン。 (オプションの MPI の場合のみ利用可能
サポートはコンパイル時に有効になりました。)

onworks.net サービスを使用してオンラインで jackhmmer を使用する



最新のLinuxおよびWindowsオンラインプログラム