英語フランス語スペイン語

Ad


OnWorksファビコン

ipdSummary - クラウドでオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターを介して、OnWorks の無料ホスティング プロバイダーで ipdSummary を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、MAC OS オンライン エミュレーターなど、複数の無料オンライン ワークステーションのいずれかを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド ipdSummary です。

プログラム:

NAME


ipdSummary - 動的シグネチャから DNA 塩基修飾を検出します.

DESCRIPTION


kineticsTool は、ゲノムの各位置で観測された IPD を読み込み、それらの IPD を比較します
変更されていない DNA に期待される値に変更し、この統計テストの結果を出力します。
修飾されていない DNA の予想される IPD 値は、 インシリコ コントロール または
増幅しました コントロール. インシリコ コントロールは PacBio によってトレーニングされ、
パッケージ。 現在の周辺のローカル シーケンス コンテキストを使用して IPD を予測します。
位置。 増幅されたコントロール データセットは、修飾されていない DNA を配列決定することによって生成されます。
テストサンプルと同じシーケンス。 増幅されたコントロールサンプルは、通常、以下によって生成されます。
元のサンプルの全ゲノム増幅。

修正 検出
kineticsTools の基本モードでは、各位置の IPD を独立して比較します。
ストランドごとにゲノムを解析し、さまざまな統計を CSV および GFF に出力します (
有意性フィルター)。

修正 識別
kineticsツール また 持っています a 修正 識別 モード それ できる デコード マルチサイト IPD
「指紋」 a 減少 セッションに of 呼び出し of 特定の 変更。 この 簡潔な 持っています  
フォロー中 利点:

· 同じ塩基で発生する異なる修飾を区別できます (
例 m5C および m4C)

· XNUMX つの変更からのシグナルが XNUMX つの統計に結合され、改善されます
感度を高め、余分なピークを取り除き、通話を正しくセンタリングする

OPTIONS


このプログラムを呼び出してください - 助けて 利用可能なオプションを確認します。

アルゴリズム


合成 管理
IPD とシーケンス コンテキストの関係の研究により、ほとんどの
ゲノム全体の平均 IPD の変動は、12 塩基配列のコンテキストから予測できます
DNAポリメラーゼの活性部位を取り囲んでいます。 関連するコンテキストの境界
ウィンドウは、図に見られるように、ポリメラーゼと接触している DNA のウィンドウに対応します。
DNA/ポリメラーゼの結晶構造。 DNA 修飾を見つけるプロセスを簡素化するには
PacBio データを使用すると、ツールには 12 mer DNA をマッピングする事前トレーニング済みのルックアップ テーブルが含まれます
C2化学で観察されたIPDを意味する配列。

フィルタリング & トリミング
kineticsTools は、BLASR によって生成され、cmp.h5 ファイルに保存されているマッピング QV を使用して、
自信を持ってマッピングされていない読み取りを無視します。 必要なデフォルトの最小マッピング QV は
10、BLASRが持っていることを意味します 90\% 読み取りが正しくマッピングされているという確信。 なぜなら
PacBio データに固有の読み取り長の範囲。これは、
--mapQvThreshold コマンド ライン引数、または SMRTPortal 構成ダイアログを介して
変更の検出。

達成するために特別な注意を必要とする PacBio データのいくつかの機能があります。
良好な変更検出性能。 kineticsTools は、
観察された塩基と参照配列 -- IPD 測定を行うために
解析に含めるには、PacBio リード シーケンスがリファレンス シーケンスと一致する必要があります。 k
同族基地周辺。 現在のモジュールで K = 1 ある遺伝子座での IPD 分布は
敏感な「通常の」取り込みプロセスIPDの間の混合物と考えられています
ローカル シーケンス コンテキストと DNA の変更と汚染の「一時停止」プロセスに
持続時間がはるかに長い (通常よりも 10 倍以上長い) IPD ですが、めったに発生しません。
(IPD の約 1%)。 注: 私たちの現在の理解では、一時停止は役に立たないということです
DNA のメチル化状態に関する情報を提供しますが、より慎重な分析が必要になる場合があります。
保証します。 また、約 1% の
観測された IPD は、一時停止イベントによって生成されます。 グローバル 99 番目に観測された IPD をキャッピング
パーセンタイルは、堅牢な仮説検定からの理論によって動機付けられています。 一部のシーケンス コンテキスト
それらのコンテキストであまりにも多くのデータを制限することを避けるために、自然に長い IPD を持つ可能性があります。
しきい値は、次のようにコンテキストごとに調整されます: capThreshold = max(global99,
5*モデル予測、パーセンタイル(ipdObservations、75))

統計的 テスト
サンプルの特定の遺伝子座で観察された IPD には、
修飾されていない DNA の同じ遺伝子座で観察される IPD よりも長いことを意味します。 生成した場合
DNA 修飾を削除する全ゲノム増幅データセット、ケース コントロールを使用します。
XNUMX サンプル t 検定。 このツールは、事前に調整された「合成制御」モデルも提供します
これは、12 塩基配列のコンテキストが与えられた場合に、変更されていない IPD を予測します。 合成では
制御ケースでは、XNUMX サンプル t 検定を使用します。
合成制御モデル。

入力


aligned_reads.cmp.h5
標準の cmp.h5 ファイルにはアライメントが含まれており、IPD 情報は運動データを提供します。
変更検出を実行するために使用されます。 SMRTportal ジョブの標準の cmp.h5 ファイルは次のとおりです。
データ/aligned_read.cmp.h5。

参照 シーケンス
このツールには、アラインメントの実行に使用される参照配列が必要です。 現在、これは必須です
SMRTportal リファレンス リポジトリ エントリへのパスを介して提供されます。

OUTPUTS


変更検出ツールは、さまざまな形式で結果を提供します。
詳細な統計分析、クイック リファレンス、および視覚化ツールによる消費
PacBio SMRTView など。 結果は通常、参照位置によって索引付けされ、
参照ストランド。 すべての場合において、ストランドの値は、
DNA サンプルの変更。 修正の動力学的効果は
反対側の鎖に整列する読み取りシーケンスで観察されます。 したがって、に合わせて読み取ります
プラスのストランドは、マイナスのストランドとバイスの変更に関する情報を運びます
逆もまた同様ですが、このツールキットでは、推定値を含むストランドを常に報告します
変形。

変更.csv
modified.csv ファイルには、(参照位置​​、ストランド) ペアごとに XNUMX つの行が含まれています。
少なくとも x のカバレッジでデータセットに表示されたもの。 x のデフォルトは 3 ですが、
「--minCoverage」フラグで ipdSummary.py に設定可能。 基準位置インデックスは
R 環境の gff ファイルとの互換性のために 1 ベース。

出力 コラム
インシリコ コントロール モード

┌───────┬─────────── ──┐
│コラム │ 説明 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│refId │ この参照配列 ID │
│ │ 観察 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│tpl │ 1 ベースのテンプレート位置 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│ストランド │ ネイティブ サンプル ストランド どこ │
│ │ キネティクスが生成されました。 「0」は│
│ │ 原作のストランド │
│ │ FASTA、'1' は逆鎖 │
│ │ ファスタから │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│ベース │ この同族ベース │
│ │ 参照位置 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│score │ Phred 変換された pvalue │
│ │ キネティック偏差はこの位置に存在します │
│ │ 位置 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┘

│tMean │ 正規化された IPD のキャップされた平均 │
│ │ この位置で観察 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│tErr │ キャップ付き標準誤差 │
│ │ この時点で観測された正規化された IPD │
│ │ 位置 (標準偏差 / │
│ │ sqrt(カバレッジ) │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│modelPrediction │ によって予測される正規化された平均 IPD │
│ │ の合成制御モデル │
│ │ このシーケンス コンテキスト │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│ipdRatio │ tMean / モデル予測 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│カバレッジ │ この時点で有効な IPD の数 │
│ │ 位置 (フィルタリングのセクションを参照 │
│ │詳細はこちら) │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│frac │ 分数の推定 │
│ │ 運ぶ │ 分子
│ │ 変更 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│fracLow │ frac の 2.5% 信頼限界 │
│ │ お見積り │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│fracUpp │ frac の 97.5% 信頼限界 │
│ │ お見積り │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┘

ケースコントロール モード

┌───────┬─────────── ──┐
│コラム │ 説明 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│refId │ この参照配列 ID │
│ │ 観察 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│tpl │ 1 ベースのテンプレート位置 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│ストランド │ ネイティブ サンプル ストランド どこ │
│ │ キネティクスが生成されました。 「0」は│
│ │ 原作のストランド │
│ │ FASTA、'1' は逆鎖 │
│ │ ファスタから │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│ベース │ この同族ベース │
│ │ 参照位置 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│score │ Phred 変換された pvalue │
│ │ キネティック偏差はこの位置に存在します │
│ │ 位置 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│caseMean │ 正規化されたケース IPD の平均 │
│ │ この位置で観察 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│controlMean │ 正規化されたコントロール IPD の平均 │
│ │ この位置で観察 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│caseStd │ ケース IPD の標準偏差 │
│ │ この位置で観察 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│controlStd │ コントロールの標準偏差 │
│ │ この位置で観測されたIPD │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┘

│ipdRatio │ tMean / モデル予測 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│testStatistic │ t検定統計 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│カバレッジ │ ケースとコントロールの意味 │
│ │ 取材 │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│controlCoverage │ での有効な制御 IPD の数 │
│ │ この位置 (フィルタリング │ を参照)
│ │ 詳細はセクション) │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┤
│caseCoverage │ この時点での有効なケース IPD の数 │
│ │ 位置 (フィルタリングのセクションを参照 │
│ │詳細はこちら) │
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ──┘

修正.gff
modified.gff は、GFF バージョン 3 仕様に準拠しています (‐
http://www.sequenceontology.org/gff3.shtml)。 各テンプレート位置/ストランドペア
p 値が p 値のしきい値を超えている場合は、行として表示されます。 テンプレートの位置は 1 ベースです。
GFF仕様による。 ストランド列は、検出された
これは、修飾の検出に使用されたものとは反対の鎖です。 の
GFF信頼列は、Phred変換された検出のp値です。

Note on ゲノム ブラウザ 互換性

modified.gff ファイルは、ほとんどのゲノム ブラウザでは直接動作しません。 あなたはするであろう
GFF ファイルのコピーを作成し、_seqid_ 列を
PacBio によって生成された一般的な 'ref0000x' 名を、オリジナルに存在する FASTA ヘッダーに
FASTA ファイルを参照してください。 マッピング テーブルは、modifications.gff のヘッダーに書き込まれます。
内のファイル #シーケンスヘッダー タグ。 この問題は、 の 1.4 リリースで解決される予定です。
kineticsツール。

GFF ファイルの補助データ列には、役立つ可能性があるその他の統計が含まれています。
ダウンストリーム分析またはフィルタリング。 特に、以前に使用された読み取りのカバレッジレベル
コールを行い、サイトを囲む +/- 20bp シーケンス コンテキスト。

┌────────────┬──────────────────────────────────┐
│コラム │ 説明 │
├────────────┼──────────────────────────────────┤
│seqid │ Fasta コンティグ名 │
├────────────┼──────────────────────────────────┤
│ソース │ ツール名 -- 'kinModCall' │
├────────────┼──────────────────────────────────┤
│type │ 修飾タイプ -- in │
│ │ 識別モードこれになります │
│ │ 識別された場合は m6A、m4C、または m5C │
│ │ ベース、または一般的なタグ │
│ │ キネティックの場合は 'modified_base' │
│ │ イベントが検出されました │
│ │ 既知の変更に一致 │
│ │ 署名 │
├────────────┼──────────────────────────────────┤
│start │ コンティグ上の修飾位置 │
├────────────┼──────────────────────────────────┤
│end │ コンティグ上の修飾位置 │
├────────────┼──────────────────────────────────┤
│スコア │ Phred 変換された p 値 │
│ │ 検出 - これが │
│ │ シングルサイト検出 p 値 │
├────────────┼──────────────────────────────────┤
│ストランド │ サンプルストランド含有 │
│ │ 変更 │
└────────────┴──────────────────────────────────┘

│段階 │ 該当なし │
├────────────┼──────────────────────────────────┤
│attributes │ base に関連する追加フ​​ィールド │
│ │ モッズ。 IPDRatioはトラディショナル│
│ │ IPDRatio、コンテキストは │
│ │ 参照配列 -20bp ~ │
│ │ 修飾前後+20bp、 │
│ │ カバーレベルは数値 │
│ │後に使用される IPD 観測の │
│ │ QV フィルタリングのマッピングと │
│ │ 精度フィルタリング。 行の場合 │
│ │ 特定された結果 │
│ │ 変更も含みます │
│ │識別Qvタグ付き│
│ │ 変更から │
│ │ 本人確認手続き。 │
│ │識別Qvは│
│ │ phred 変換された確率 │
│ │ 間違った身分証明 │
│ │ と特定された拠点 │
│ │ ある │
│ │ 変更。 frac、fracLow、│
│ │ fracUp は推定 │
│ │ 運ぶ分子の割合 │
│ │変更、および 5% │
│ │ の信頼区間 │
│ │ 見積もり。 メチル化 │
│ │ 分数の見積もりは │
│ │ ベータ レベルの機能であり、すべきこと │
│ │ 探索用にのみ使用 │
│ │ 目的。 │
└────────────┴──────────────────────────────────┘

モチーフ.gff
Motif Finder ツールを実行すると、再処理されたバージョンの motifs.gff が生成されます。
以下の変更を加えた modified.gff の検出された変更が
モチーフ ファインダーによって検出されたモチーフは、モチーフ データで注釈が付けられます。 アン
モチーフ文字列を含む属性「motif」が追加され、属性「id」が追加されます
ペアになっていないモチーフのモチーフ文字列であるモチーフ ID を含む、または
ペアのモチーフの場合は「motifString1/motifString2」。 モチーフインスタンスがゲノムに存在する場合、
Modifications.gff で検出されなかった場合、motifs.gff にエントリが追加され、
そのモチーフの存在とその部位で観察された動力学。

モチーフ_まとめ.csv
Motif Finder ツールを実行すると、motif_summary.csv が生成され、変更された
ツールによって発見されたモチーフ。 CSV には、検出されたモチーフごとに XNUMX つの行が含まれています。
次の列

┌───────────────────┬────────────────────────────── ─────┐
│コラム │ 説明 │
├───────────────────┼────────────────────────────── ─────┤
│motifString │ 検出されたモチーフ配列 │
├───────────────────┼────────────────────────────── ─────┤
│centerPos │ をモチーフにした位置 │
│ │ 修正(0ベース) │
├───────────────────┼────────────────────────────── ─────┤
│fraction │ this のインスタンスの割合 │
│ │ 上記QVを改変したモチーフ │
│ │ QV 閾値 │
├───────────────────┼────────────────────────────── ─────┤
│nDetected │ このインスタンスの数 │
│ │ 閾値以上のモチーフ │
└───────────────────┴────────────────────────────── ─────┘

│nGenome │ このインスタンスの数 │
│ │ 参照配列のモチーフ │
├───────────────────┼────────────────────────────── ─────┤
│groupTag │ モチーフを特定する文字列 │
│ │ グループ化。 ペアモチーフはこちら│
│ │ は │
│ │」 / 、 │
│ │ 対になっていないモチーフの場合、これは │
│ │ モチーフストリング │
├───────────────────┼────────────────────────────── ─────┤
│partnerMotifString │モチーフ対になったモチーフのストリング│
│ │(モチーフ付│
│ │ 逆相補 │
│ │モチーフ文字列)│
├───────────────────┼────────────────────────────── ─────┤
│meanScore │ 検出された平均修飾 Qv │
│ │ インスタンス │
├───────────────────┼────────────────────────────── ─────┤
│meanIpdRatio │ 検出された平均 IPD 比率 │
│ │ インスタンス │
├───────────────────┼────────────────────────────── ─────┤
│meanCoverage │ 検出された平均カバレッジ │
│ │ インスタンス │
├───────────────────┼────────────────────────────── ─────┤
│objectiveScore │ このモチーフの客観的スコア │
│ │ モチーフ検索アルゴリズム │
└───────────────────┴────────────────────────────── ─────┘

onworks.net サービスを使用してオンラインで ipdSummary を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad