英语法语西班牙语

Ad


OnWorks 网站图标

cmcalibrate - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 cmcalibrate

这是 cmcalibrate 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


cmcalibrate - 为协方差模型 E 值确定拟合指数尾部

概要


校准 [选项] 文件

商品描述


校准 通过生成确定 E 值的指数尾参数
随机序列,用 CM 搜索它们并收集结果的分数
命中。 命中位得分的直方图拟合指数尾部,并且
拟合尾部的参数被保存到CM文件中。 指数尾参数
然后用于估计在 厘米搜索
厘米扫描。

CM 文件必须校准 校准 在它可以用于之前 厘米搜索 or 厘米扫描,
有一个例外:没有必要校准仅包含
运行前具有零碱基对的模型 厘米搜索。

校准 很慢。 校准单个平均尺寸需要几个小时
单个 CPU 上的 CM。 校准 如果 Infernal 将在所有可用内核上并行运行
构建在支持 POSIX 线程的系统上(请参阅
用户指南以获取更多信息)。 使用 核心将导致大致 -折
加速与单个 CPU。 MPI(消息传递接口)也可用于
与并行化 --mpi 如果 Infernal 是在启用 MPI 的情况下构建的,但使用
不推荐超过 161 个处理器,因为增加超过 161 不会加速
校准。 有关详细信息,请参阅用户指南的安装部分。

- 预报 选项可用于估计程序运行一段时间所需的时间
特定 文件 在当前机器上。 预测运行时间 处理器
MPI,另外使用 --n预测 选项。

搜索到的随机序列 校准 由经过训练的 HMM 生成
具有各种 GC 内容的真实基因组序列。 目标是让 GC 分布
随机序列中的与实际基因组序列中的相似。

执行四轮搜索和随后的指数尾拟合,每轮一次
可用于的四种不同的 CM 算法 厘米搜索厘米扫描: 全球CYK,
glocal Inside、本地 CYK 和本地 Inside。

E 值参数由 校准 仅由 厘米搜索厘米扫描
程式。 如果您不打算使用这些程序,请不要浪费时间校准
你的模型。

配置


-h 帮助; 打印命令行用法和可用选项的简短提醒。

-L 设置要搜索的随机序列的总长度为 兆碱基 (Mb)。 经过
默认, is 1.6 兆字节。 增加 将使指数尾部更适合
精确和 E 值更准确,但需要更长的时间(加倍 大概会
运行时间翻倍)。 递减 不推荐,因为它会使
拟合不太准确,E 值不太准确。

配置 用于 预测 所需 时间 AND 记忆


- 预报
预测校准的运行时间 文件 (带有提供的选项)在
当前机器并退出。 不执行校准。 预测
应该被认为是粗略的估计。 如果启用了多线程(请参阅
用户指南的安装部分),时间会考虑数量
可用内核数。

--n预测
- 预报, 指明 处理器将用于校准。
这对于预测 MPI 运行的运行时间可能很有用
处理器。

--内存请求
预测校准所需的内存量 文件 (提供
选项)在当前机器上并退出。 不执行校准。

配置 控制 指数 尾巴 适合


--gtailn
将 glocal Inside 和 glocal CYK 的指数尾部拟合到 最高分
在直方图尾部,其中 is 搜索的 Mb 数量的倍数。 这
默认值 是 250。选择值 250 是因为它运行良好
经验上相对于其他值。

--ltailn
将局部 Inside 和局部 CYK 的指数尾部拟合到 最高分
在直方图尾部,其中 is 搜索的 Mb 数量的倍数。 这
默认值 是 750。选择值 750 是因为它运行良好
经验上相对于其他值。

--tailp
忽略 --gtailn--ltailn 前缀选项并适合 分数尾
对于所有搜索模式,直方图到指数尾部。

可选 OUTPUT FILES


--h文件
保存适合文件的直方图 . 这个文件的格式是两个空格
每行分隔列。 第一列是位得分的 x 轴值
每个垃圾箱。 第二列是每个 bin 的命中数的 y 轴值。 每个
系列由带有单个字符“&”的行分隔。 该文件将包含
四个指数尾部拟合的每个序列按以下顺序排列:
glocal CYK、glocal Inside、本地 CYK 和本地 Inside。

--s文件
将生存图信息保存到文件 . 这个文件的格式是两个空格
每行分隔列。 第一列是位得分的 x 轴值
每个垃圾箱。 第二列是满足或满足的命中分数的 y 轴值
超过每个 bin 的分数。 每个系列由一行分隔
特点 ”&”。 该文件将包含四个 CM 中每一个的三个系列数据
按以下顺序搜索模式:glocal CYK、glocal Inside、本地 CYK 和
本地内部。 第一个系列是直方图中的经验生存图
对随机序列的命中。 第二个系列是指数尾拟合
经验分布。 第三个系列是指数尾拟合,如果 lambda
被固定并设置为 2 (0.691314718) 的自然对数。

--qq文件
将分位数-分位数绘图信息保存到文件 . 这个文件的格式是
每行两个空格分隔的列。 第一列是 x 轴值,以及
第二列是 y 轴值。 点到点的距离
恒等线 (y=x) 是衡量指数尾部拟合的好坏程度,
点离身份线越近,拟合越好。 每个系列都是
由带有单个字符“&”的行分隔。 该文件将包含一个系列
四个指数尾部中每一个的经验数据拟合如下
顺序:glocal CYK、glocal Inside、本地CYK和本地Inside。

--f文件
将不同指数尾部拟合的空间分隔统计数据保存到文件 .
该文件将包含适合指数尾的 lambda 和 mu 值
不同大小的直方图尾部。 文件中的字段被标记
翔实的。

--x文件
将每个拟合直方图尾部的分数列表保存到文件 . 每一行
此文件将具有不同的分数,表明尾部存在一个命中
那个分数。 每个系列都由带有单个字符“&”的行分隔。 这
文件将包含四个指数尾部拟合中的每一个的一个系列
以下顺序:glocal CYK、glocal Inside、本地CYK和本地Inside。

其他 配置


- 种子
用种子随机数生成器 , 一个整数 >= 0。如果 非零,
随机模拟将是可重复的; 相同的命令将给出相同的
结果。 如果 为 0,随机数生成器被任意播种,并且
随机模拟会因同一命令的运行而异。 默认的
种子是181。

--测试版
默认情况下,使用查询相关条带 (QDB) 来加速 CM 搜索
beta 尾丢失概率为 1E-15 的算法。 这个 beta 值可以是
变成 --测试版 . beta参数是概率的大小
带计算过程中排除的质量,更高的 beta 值提供更大的加速
但比较低的值牺牲更多的准确性。 使用的默认值是 1E-15。
(有关 QDB 的更多信息,请参阅 Nawrocki 和 Eddy,PLoS Computational Biology
3(3): e56。)

--无带
在 E 值校准期间关闭 QDB。 这会减慢校准速度。

--非空3
关闭 null3 事后附加空模型。 不建议这样做,除非
您打算使用相同的选项 厘米搜索厘米扫描。

- 随机的
使用CM的背景空模型来生成随机序列,而不是
更现实的 HMM。 除非 CM 是使用 - 空值 选项
厘米构建, 背景空模型将为 A、C、G 和 U 各 25%。

- GC
使用序列的核苷酸分布生成随机序列
文件 .

- 中央处理器
指定 使用并行 CPU 工作者。 如果 设置为“0”,则
程序将以串行模式运行,不使用线程。 你也可以控制
这个数字通过设置环境变量, INFERNAL_NCPU。 此选项将
仅当构建 Infernal 的机器能够使用时才可用
POSIX 线程(有关更多信息,请参阅用户指南的安装部分)
信息)。

--mpi 作为 MPI 并行程序运行。 此选项仅在 Infernal 具有
已使用“--enable-mpi”标志进行配置和构建(请参阅安装
有关详细信息,请参阅用户指南的部分)。

使用 onworks.net 服务在线使用 cmcalibrate


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad