これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド pbsim です。
プログラム:
NAME
pbsim - PacBio シーケンス読み取り用のシミュレーター
SYNOPSIS
pbsim オプション
DESCRIPTION
当学校区の pbsim コマンドは、参照 FASTA シーケンス用にシミュレートされた PacBio 読み取りを生成します
。
モデル ファイル ( --モデル-qc オプション) は、
/usr/share/pbsim/models ディレクトリ。
OPTIONS
pbsim のオプションは、一般、サンプリングベース、モデルベースに分類できます。
シミュレーションオプション。
全般 オプション
--prefix
出力ファイルのプレフィックス (sd)。
- データ・タイプ
データ・タイプ。 CLR または CCS (CLR)。
- 深さ
カバレッジの深さ (CLR: 20.0、CCS: 50.0)。
--長さ-分
最小の長さ (100)。
--length-max
最大長 (CLR: 25000、CCS: 2500)。
--精度-最小
最小精度 (CLR: 0.75、CCS: 0.75 に固定)。 このオプションは次の場合にのみ使用できます。
CLRの場合。
--精度-最大
最大精度(CLR:1.00、CCS:1.00固定)。 このオプションは次の場合にのみ使用できます。
CLRの場合。
--差分比
差の比率。 置換:挿入:削除。 各値は最大 1000 (CLR:
10:60:30, CCS:6:21:73).
- シード 擬似乱数生成器用 (Unix 時間)。
オプション の サンプリングベースの
--サンプル-fastq
サンプルする FASTQ 形式のファイル。
--サンプルプロファイル ID
Sample-fastq (フィルタリングされた) プロファイル ID。 使用するとき --サンプル-fastq、プロフィールが保存されます。
サンプル_プロファイル_ .fastq, サンプル_プロファイル_ _.stats が作成されます。 そうでないときは
--サンプル-fastq、プロファイルは再利用されます。 プロファイルを使用する場合は、
--長さの最小値、最大値, --精度-最小、最大 プロフィールと同じになります。
オプション の モデルベース
--model_qc
品質コードのモデル。
--長さの平均
平均長さモデル (CLR: 3000.0、CCS: 450.0)。
--length-sd
長さモデルの標準偏差 (CLR: 2300.0、CCS: 170.0)。
--精度-平均
平均精度モデル (CLR: 0.78、CCS: 0.98 に固定)。 このオプションは使用できます
CLRの場合のみ。
--精度-SD
精度モデルの標準偏差 (CLR: 0.02、CCS: 0.02 に固定)。 このオプション
CLRの場合のみ使用可能です。
例
モデルベースのシミュレーションを実行するには:
pbsim --data-type CLR \
--深さ20\
--model_qc /usr/share/pbsim/models/model_qc_clr \
リファレンス.fasta
上の例では、シミュレートされた読み取りシーケンスはリファレンスからランダムにサンプリングされます。
シーケンス (「reference.fasta」) とサンプリングされたリードの差異 (エラー) が紹介されます。
データタイプは CLR、カバレッジ深さは 20 です。参照配列がマルチ FASTA ファイルの場合、
シミュレートされたデータは FASTA ごとに作成されます。 それぞれに XNUMX つの出力ファイルが作成されます。
ファスタ。 「sd_0001.ref」は、参照配列からコピーされた単一の FASTA ファイルです。
「sd_0001.fastq」は、FASTQ 形式の模擬読み取りデータセットです。 「sd_0001.maf」はリストです
MAF 形式でのリファレンス配列とシミュレートされたリード間のアライメントの確認。 長さ
読み取りの精度は、PacBio 読み取りのモデルに基づいてシミュレートされています。
サンプリングベースのシミュレーションを実行するには:
pbsim --data-type CLR \
--深さ20\
--sample-fastq サンプル.fastq \
参照.fastaq
サンプリングベースのシミュレーションでは、読み取り長と品質スコアは、
サンプル PacBio データセット (「sample.fastq」) でランダムに取得された読み取り。
onworks.net サービスを使用してオンラインで pbsim を使用する