GoGPT Best VPN GoSearch

OnWorksファビコン

swarm - クラウド上のオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターを介して、OnWorks の無料ホスティング プロバイダーで swarm を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド群です。

プログラム:

NAME


swarm — ほぼ同一のヌクレオチドアンプリコンのクラスターを見つけます

SYNOPSIS


群れ [ オプション ] ファイル名

DESCRIPTION


環境または臨床分子研究では、大量のアンプリコン (例: 16S) が生成されます。
または 18S SSU-rRNA 配列)を分子操作分類にクラスター化する必要がある
ユニット (OTU)。 一般的なクラスタリング手法は、入力順序に依存した貪欲な手法に基づいています。
グローバル クラスター サイズとクラスター重心を任意に選択するアルゴリズム。 に
その問題に対処するために、私たちは開発しました 群れ、再帰的にグループ化する高速かつ堅牢な方法
アンプリコンと d またはそれ以下の差。 群れ 自然で安定したクラスターを中心に生成します
局所的な存在量ピークに基づいて、セントロイド選択によって引き起こされる入力順序依存性がありません。

単純な全対全アプローチを使用する場合、大規模なデータセットでは正確なクラスタリングは現実的ではありません
(より正確には、繰り返しのない 2 つの組み合わせ)、非現実的な数を意味するため、
ペアごとの比較。 群れ 差異の最大数に基づいています d 二人の間
アンプリコンに焦点を当てており、非常に密接な局所関係のみに焦点を当てています。 のために d = 1 (デフォルト値)、
swarm は、次の方法で正確な文字列マッチングを実行する線形複雑度のアルゴリズムを使用します。
ハッシュ値を比較しています。 のために d = 2 以上、swarm は二次アルゴリズムを使用します
ペアごとの文字列比較を実行する複雑さ。 効率的な k-mer ベースのフィルタリング
また、クラスタリング プロセス中に得られた比較結果を巧みに使用することで、
素朴なアプローチで必要となるアンプリコン比較のほとんどを回避します。 高速化するには
残りのアンプリコンの比較、 群れ 非常に高速な Needleman-Wunsch を実装します
最新の x2-86 CPU のストリーミング SIMD 拡張機能 (SSE64) を利用するアルゴリズム。 もし
SSE2命令は利用できません。 群れ エラーメッセージで終了します。

群れ 名前付き入力を読み取ります ファイル名、ヌクレオチドアンプリコンの fasta ファイル。 アンプリコン
識別子は、「>」記号と最初のスペースで構成される文字列として定義されます。
または行末のどちらか早い方です。 として 群れ アンプリコンのリストを出力します
識別子、アンプリコン識別子は、曖昧さを避けるために一意である必要があります。 群れは
識別子が一意でない場合は、エラー メッセージが表示されます。 アンプリコン識別子は「_」で終わる必要があります
その後にアンプリコンのコピー数 (または存在量) を表す正の整数が続きます。
注釈; usearch/vsearch ユーザーはオプション -z を使用してその動作を変更できます)。
豊富なアノテーションはクラスタリング プロセスで重要な役割を果たし、swarm は次のように終了します。
その情報が利用できない場合は、エラー メッセージが表示されます。 アンプリコン配列は次のように定義されます。
[acgt] または [acgu] シンボルの文字列 (大文字と小文字は区別されません)。
識別子行と次の識別子行またはファイル終了の前で終了。 群れ 終了する
他のシンボルが存在する場合は、エラー メッセージが表示されます。

全般 オプション
-b, - 境界 正の 整数
オプション --fastidious (-f) を使用する場合、大きな OTU の最小質量を定義します。
このオプションで指定された数値として。 デフォルト値は 3 で、
質量 3 以上の OTU は「大きい」とみなされます。 デフォルトでは、OTU は次の場合に「小さい」です。
質量が 2 以下であることは、次のいずれかのアンプリコンで構成されていることを意味します。
存在量 2、または存在量 1 の 1 つのアンプリコン。XNUMX より大きい任意の正の値
を指定することができます。 より高い境界値を使用すると、XNUMX 番目のパスが高速化されますが、
分類学的解像度も低下します 群れ 結果。

-c, - シーリング 正の 整数
オプション --fastidious (-f) を使用する場合は、次のように定義します。 群れの最大メモリ使用量
(メガバイト単位)。 群れ ブルームフィルターの --bloom-bits (-y) 値を調整します
指定されたメモリ量内に収まるようにします。 そのオプションは次によってアクティブではありません
デフォルト。

-d, --相違点 ゼロ or 正の 整数
XNUMX つのアンプリコン間で許容される差異の最大数。つまり、XNUMX つのアンプリコン間で許容される差異の最大数。
アンプリコンは、次の場合にグループ化されます。 整数 (またはそれ以下の)違い。 これは
群れの最も重要なパラメータです。 差異の数は次のように計算されます。
XNUMX つの間の不一致 (置換、挿入、または削除) の数
最適なペアワイズ グローバル アライメントが見つかったら、アンプリコンを作成します (「
そのステップに影響を与える「ペアワイズ アラインメントの詳細オプション」)。 どれでも 整数
0 ~ 256 の間で使用できますが、値が高くなります。 d 値は分類学的に減少します
の解像度 群れ 結果。 よく使われる d 値は 1、2、または 3 ですが、これより大きくなることはほとんどありません。
使用時 d = 0、 群れ 厳密な条件に対応する結果を出力します
データセットの複製解除、つまり同一のアンプリコンのマージ。 警告、 群れ
存在量の値を表示するには、引き続き fasta エントリが必要です。 デフォルトの数
違いは1です。

-f, --気難しい
で作業するとき d = 1、XNUMX 番目のクラスタリング パスを実行して、クラスタリングの数を減らします。
小型 OTU (推奨オプション)。 クラスタリングプロセス中に d = 1、
純粋に確率的な理由で中間アンプリコンが欠落し、中断される可能性があります。
集計プロセス。 このオプションにより仮想アンプリコンが作成され、次のことが可能になります。
小さな OTU を大きな OTU に接ぎ木します。 デフォルトでは、OTU に質量がある場合、OTU は「小さい」になります。
2 以下 (この値を増やすには、--boundary オプションを参照してください)。 物事をスピードアップするために
アップ、 群れ ブルーム フィルターを使用して中間結果を保存します。 警告、その XNUMX 番目
パスは最初のパスより 2 ~ 3 倍遅くなる可能性があり、さらに多くのものが必要になります
メモリ。 メモリを制御するには、オプション --bloom-bits (-y) または --ceiling (-c) を参照してください。
ブルームフィルターのフットプリント。 警告、fastidious オプションはクラスタリングを変更します
結果。 オプション --log (-l)、--output-file (-o)、
--mothur (-r)、--uclust-file、および --seeds (-w) は、これらを反映するように更新されます。
修正。 ファイル --statistics-file (-s) は部分的に更新されます (列 6)
および 7 は更新されません); 出力ファイル --internal-struction (-i) は更新されません。

-h, - 助けて
このヘルプを表示して終了します。

-n, --no-otu-breaking
組み込みの OTU 改良を無効にします (推奨されません)。 アンプリコンの豊富さ
値は、接続中の OTU 間の遷移を識別し、分離するために使用されます。
それらにより、より高解像度のクラスタリング結果が得られます。 そのオプションはそれを防ぎます
分離により、実際にはアンプリコン A 間のリンクの作成が可能になります。
たとえ B の存在量が A の存在量よりも高いとしても。

-t, -スレッド 正の 整数
使用する計算スレッドの数。 スレッドの数を少なくするか、
利用可能な CPU コアの数と同じです。 デフォルトのスレッド数は 1 です。

-v, - バージョン
バージョン情報を出力して終了します。

-y, --ブルームビット 正の 整数
オプション --fastidious (-f) を使用する場合、各エントリのサイズ (ビット単位) を定義します。
ブルームフィルターで。 このオプションにより、効率 (つまり速度) のバランスをとることができます。
ブルームフィルターのメモリフットプリント。 値を大きくするとブルームが発生します
フィルタの効率は向上しますが、より多くのメモリが必要になります。 4 ~ 20 の任意の値
に使える。 デフォルト値は 16 です。詳細については、--ceiling (-c) オプションを参照してください。
メモリ使用量を制御する代替方法。

入出力 オプション
-a, --追加-豊富 正の 整数
入力ファイル内の一部またはすべてのアンプリコンが不足している場合に使用する豊富な値を設定します
豊かさの価値観。 警告、使用はお勧めしません 群れ データセット上で
豊かさの値はすべて同じです。 私たちはそのオプションを厚意として提供しています
上級者の方は慎重にご使用ください。 群れ エラーメッセージを表示して終了する場合
存在量の値が欠落しており、このオプションが使用されていない場合。

-i, - 内部構造 ファイル名
ほぼ同一のアンプリコンのすべてのペアを出力します ファイル名 XNUMX 列を使用する
タブ区切り形式:

1.アンプリコンAラベル。

2.アンプリコンBラベル。

3.アンプリコン A と B 間の差異の数 (正の 整数).

4.OTU番号(正の 整数)。 OTU には次の順序で番号が付けられます。
1 から始まる描写。
同じ OTU は同じ番号を受け取ります。

5. OTU シードからアンプリコン B までのステップ数 (正の 整数).

-l, - ログ ファイル名
すべてのメッセージをに出力します ファイル名 標準 エラーただし、
もちろんエラーメッセージも。 このオプションは、書き込み先の状況で役立ちます。
標準 エラー は問題があります (たとえば、特定のジョブ スケジューラの場合)。

-o, -出力ファイル ファイル名
クラスタリング結果を出力する ファイル名。 結果は OTU のリストと XNUMX つの OTU で構成されます
行ごとに。 OTU は、スペースで区切られたアンプリコン識別子のリストです。 デフォルト
標準出力に書き込むことです。

-r, --お母さん
クラスタリングの結果は Mothur と互換性のある形式で出力されます。 その選択肢
修正 群れのデフォルトの出力形式。

-s, --統計ファイル ファイル名
統計を出力する ファイル名。 このファイルはタブで区切られたテーブルであり、各 OTU が XNUMX つずつ含まれています。
行と XNUMX 列の情報:

1. OTU 内の固有のアンプリコンの数、

2. OTU 内のアンプリコンの総コピー数、

3. 初期シードの識別子、

4. 初期シードコピー数、

5. OTU内のコピー数1のアンプリコンの数、

6. OTU が本来の値に達するまでの最大反復回数
制限)、

7. OTU の理論上の最大半径 (つまり、累積された OTU の数)
シードと OTU 内の最も遠いアンプリコンの間の違い)。
OTU の実際の最大半径は、多くの場合、さらに小さくなります。

-u, --uclust ファイル ファイル名
クラスタリングの結果を uclust に似たファイル形式で指定されたファイルに出力します。 それ
オプションは変更しません 群れのデフォルトの出力形式。

-w, --種子 ファイル名
OTU 代表者をに出力します ファイル名 ファスタ形式で。 豊かさの価値は、
各代表値は、OTU 内のすべてのアンプリコンの存在量の合計です。

-z, --usearch-豊富
usearch/vsearch のスタイルでアンプリコン存在量の値を受け入れる
(>ラベル;サイズ=整数[;])。 そのオプションは豊富さの注釈スタイルに影響します
出力ファイルで使用されます。

ペアワイズ アラインメント 高度な オプション
使用している場合 d > 1、 群れ 高度なコマンドライン オプションを認識し、ペアごとに変更します
グローバル アライメント スコアリング パラメーター:

-m, -- マッチ報酬 正の 整数
ヌクレオチド一致に対する報酬を設定します。 デフォルトは 5 です。

-p, --不一致ペナルティ 正の 整数
ヌクレオチドの不一致に対するペナルティを設定します。 デフォルトは 4 です。

-g, --ギャップオープンペナルティ 正の 整数
ギャップオープンペナルティを設定します。 デフォルトは 12 です。

-e, --ギャップ拡張ペナルティ 正の 整数
ギャップ延長ペナルティを設定します。 デフォルトは 4 です。

As 群れ 親密な関係に焦点を当てます(つまり、 d = 2 または 3)、クラスタリングの結果は次のとおりです。
ペアワイズアライメントモデルパラメータの変更に対する耐性があります。 モデルパラメータの変更
より高いレベルを使用してクラスタリングする場合に、より強い影響を及ぼします。 d の値です。


データセットをクラスタ化する myfile.fasta 可能な限り最高の解像度で OTU に変換します (1
差分、組み込み破壊、気難しいオプション) 4 つの計算スレッドを使用します。 OTUは
ファイルに書き込まれた myfile.swarms、OTU の代表者は以下の宛先に書簡を送ります。
myfile.representatives.fasta.

群れ -t 4 -f -w myfile.representatives.fasta < myfile.fasta > myfile.swarms

作者


コンセプトはフレデリック・マヘ、実装はトールビョルン・ログネス。

引用


Mahé F、Rognes T、Quince C、de Vargas C、Dunthorn M. (2014) Swarm: 堅牢かつ高速
アンプリコンベースの研究のためのクラスタリング手法。 PeerJ 2:e593
<http://dx.doi.org/10.7717/peerj.593>

Mahé F、Rognes T、Quince C、de Vargas C、Dunthorn M. (2015) Swarm v2: 拡張性が高く、
高解像度アンプリコン クラスタリング。 PeerJ 3:e1420http://dx.doi.org/10.7717/peerj.1420>

報告 バグ


提案やバグレポートは次のアドレスに送信してください。 、 送る
プルリクエスト、または友好的または不機嫌なメッセージを作成します
フレデリック・マヘに電子メールを送信する[メール保護]>とトールビョルン・ログネス[メール保護]>.

可用性


ソフトウェアは以下から入手できます

COPYRIGHT


著作権 (C) 2012、2013、2014、2015 フレデリック・マヘ & トールビョルン・ログネス

このプログラムは自由なソフトウェアです:あなたはそれを再配布および/またはそれを以下の条件の下で修正することができます
Free Software Foundation によって発行された GNU Affero 一般公衆利用許諾書、または
ライセンスのバージョン3、またはそれ以降のバージョン。

このプログラムは、役立つことを期待して配布されていますが、いかなる保証もありません。
商品性または特定目的への適合性の黙示の保証もありません。
詳細については、GNU Affero 一般公衆利用許諾書を参照してください。

これと一緒に GNU Affero General Public License のコピーも受け取っているはずです
プログラム。 そうでない場合は、を参照してくださいhttp://www.gnu.org/licenses/>.

onworks.net サービスを使用してオンラインで swarm を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad




×
Advertisement
❤️ここでショッピング、予約、購入してください。料金はかかりません。これにより、サービスが無料で維持されます。