这是 pbsim 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
模拟仿真 - PacBio测序读数模拟器
概要
模拟仿真 选项
商品描述
这个 模拟仿真 命令生成模拟 PacBio 读数以供参考 FASTA 序列
.
模型文件(参数 --模型-qc 选项)可以在
/usr/share/pbsim/models 目录。
配置
pbsim的选项可以分为general,sampling-based和model-based
模拟选项。
一般用途总体评估 选项
- 字首
输出文件的前缀 (sd)。
- 数据类型
数据类型。 CLR 或 CCS (CLR)。
- 深度
覆盖深度(CLR:20.0,CCS:50.0)。
--长度-分钟
最小长度 (100)。
--长度最大
最大长度(CLR:25000,CCS:2500)。
--精度最小值
最低准确度(CLR:0.75,CCS:固定为 0.75)。 此选项只能用于
CLR的情况。
--最大准确度
最大精度(CLR:1.00,CCS:固定为 1.00)。 此选项只能用于
CLR的情况。
--差比
差异的比率。 替换:插入:删除。 每个值最多 1000 (CLR:
10:60:30, CCS:6:21:73).
- 种子 对于伪随机数生成器(Unix 时间)。
可选项 HPMC胶囊 基于抽样 模拟
--样本-fastq
要采样的 FASTQ 格式文件。
--样本配置文件 ID
sample-fastq(过滤)配置文件 ID。 使用时 --样本-fastq, 配置文件被存储。
sample_profile_ .fastq和 sample_profile_ _.stats 被创建。 当不
运用 --样本-fastq, 配置文件被重新使用。 请注意,当使用配置文件时,
--长度-最小,最大, --准确度-最小值,最大值 将与配置文件相同。
可选项 HPMC胶囊 基于模型 模拟
--model_qc
质量代码模型。
--长度均值
长度模型的平均值(CLR:3000.0,CCS:450.0)。
--长度-sd
长度模型的标准偏差(CLR:2300.0,CCS:170.0)。
--准确度均值
精度模型的平均值(CLR:0.78,CCS:固定为 0.98)。 可以使用这个选项
仅在 CLR 的情况下。
--准确度-sd
精度模型的标准偏差(CLR:0.02,CCS:固定为 0.02)。 这个选项
只能在 CLR 的情况下使用。
示例
要运行基于模型的仿真:
pbsim --数据类型 CLR \
--深度 20 \
--model_qc /usr/share/pbsim/models/model_qc_clr \
参考.fasta
在上面的例子中,模拟读取序列是从参考中随机采样的
引入了采样读数的序列(“reference.fasta”)和差异(错误)。
数据类型为CLR,覆盖深度为20。如果参考序列是多FASTA文件,
模拟数据是为每个 FASTA 创建的。 为每个创建三个输出文件
法斯塔。 “sd_0001.ref”是从参考序列复制的单个 FASTA 文件。
“sd_0001.fastq”是FASTQ格式的模拟读取数据集。 “sd_0001.maf”是一个列表
MAF 格式中参考序列和模拟读数之间的比对。 长度
读取的准确性和准确性基于我们的 PacBio 读取模型进行模拟。
运行基于采样的模拟:
pbsim --数据类型 CLR \
--深度 20 \
--sample-fastq 样本.fastq \
参考.fastaq
在基于采样的模拟中,读取长度和质量得分与
在样本 PacBio 数据集(“sample.fastq”)中随机读取。
使用 onworks.net 服务在线使用 pbsim