英语法语西班牙语

Ad


OnWorks 网站图标

hmmsim - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 hmmsim

这是 hmmsim 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


hmmsim - 收集随机序列的分数分布

概要


嗯嗯 [选项]

商品描述


嗯嗯 程序生成随机序列,用模型对它们进行评分 ,
并为结果输出各种直方图、图和拟合分布
分数。

嗯嗯 不是 HMMER 包的主流部分。 大多数用户没有理由
用它。 它用于开发和测试用于确定 P 值的统计方法
和 HMMER3 中的 E 值。 例如,它被用来生成 2008 年的大部分结果
关于 H3 的局部对齐统计的论文 (PLoS Comp Bio 4:e1000069, 2008;
http://www.ploscompbiol.org/doi/pcbi.1000069).

因为它是一个研究测试平台,所以您不应期望它与其他平台一样强大
包中的程序。 例如,选项可能以奇怪的方式交互; 我们没有
测试或试图预测所有不同的可能组合。

主要任务是将最大似然 Gumbel 分布拟合到 Viterbi 分数或
高分前向分数的最大似然指数尾,并测试这些
拟合分布服从两个维特比 Gumbel 的 lambda ~ log_2 的猜想
和前向指数尾。

输出是一个数字表,每个模型一行。 四种不同的参数拟合
对得分数据进行测试:(1)最大似然适合两个位置(mu/tau)和
斜率(λ)参数; (2) 假设 lambda=log_2,最大似然拟合到
仅位置参数; (3) 相同但假设边缘校正的 lambda,使用当前
H3 中的程序 [Eddy, 2008]; (4) 使用由 H3 的电流确定的两个参数
程序。 拟合优度的标准简单、快速和肮脏的统计数据是“E@10”,
计算出的排名第 10 的最高命中的 E 值,我们预计约为 10。

详细地,输出的列是:

姓名 型号名称。

尾巴 用于拟合分布的最高分数的分数。 对于维特比、MSV 和
混合分数,默认为 1.0(Gumbel 分布适用于所有
数据)。 对于前向分数,这默认为 0.02(指数尾拟合到
最高 2% 的分数)。

亩/头 拟合数据的最大似然的位置参数。

拉姆达 拟合数据的最大似然斜率参数。

电子@10 使用 ML mu/tau 为排名第 10 位的高分 ('E@10') 计算的 E 值
和拉姆达。 根据定义,如果 E 值估计是
准确的。

多路复用器 位置参数,用于具有已知(固定)斜率的最大似然拟合
log_2 (0.693) 的参数 lambda。

E@10固定
使用 mufix 和预期的第 10 位得分计算的 E 值
拉姆达 = log_2 = 0.693。

多路复用器2 位置参数,用于与边缘效应校正的最大似然拟合
拉姆达。

E@10fix2
使用 mufix10 和边缘效应为排名第 2 的分数计算的 E 值 -
修正 lambda。

mu 由 H3 的估计程序确定的位置参数。

拉姆达
由 H3 的估计程序确定的斜率参数。

pE@10 使用 pmu、plambda 为排名第 10 的分数计算的 E 值。

在此表的末尾,再打印一行,以 # 开头并总结了
模拟使用的总 CPU 时间。

一些可选的输出文件采用 xmgrace xy 格式。 xmgrace 强大且自由
可用的绘图软件。

其他条款 配置


-h 帮助; 打印命令行用法和所有可用选项的简短提醒。

-a 从每个模拟序列中收集预期的维特比对齐长度统计信息。
这仅适用于维特比分数(默认值;请参阅 --维特)。 两个额外的
字段打印在每个模型的输出表中:维特比的平均长度
比对和标准差。

-v (详细)。 也打印分数,每行一个分数。

-L 将随机采样(非同源)序列的长度设置为 。 该
默认值为 100。

-N 将随机采样序列的数量设置为 . 默认值为 1000。

--mpi 在 MPI 并行模式下运行,在 米匹伦. 它在发送级别并行化
一次一个配置文件到 MPI 工作进程,因此并行化仅在以下情况下才有帮助
您有多个个人资料 ,并且您希望至少具有
许多配置文件作为 MPI 工作进程。 (仅当可选的 MPI 支持为
在编译时启用。)

配置 控制 OUTPUT


-o 将主输出表保存到文件 而不是将其发送到标准输出。

- 一份文件
在收集维特比对齐统计数据时( -a 选项),对于每个采样
序列,每行输出两个字段到一个文件 : 最佳长度
对齐和维特比位得分。 要求该 -a 选项也被使用。

--e文件
以 XMGRACE xy 格式将等级与 E 值图输出到文件 . x 轴是
这个序列的排名,从最高分到最低分; y 轴是 E 值
为这个序列计算。 E 值使用 H3 的默认程序计算
(即输出表中的 pmu、plambda 参数)。 你期待一场粗略的比赛
如果准确估计 E 值,则在等级和 E 值之间。

--f文件
输出一个“filter power”文件到 :对于每个模型,一行包含三个字段:
模型名称、通过 P 值阈值的序列数以及
通过 P 值阈值的序列。 看 --pthresh 用于设置 P 值
阈值,默认为 0.02(H3 中的默认 MSV 过滤器阈值)。 P-
值由 H3 的默认程序决定(pmu,plambda 参数在
输出表)。 如果一切顺利,您希望看到滤波器功率等于
阈值的预测 P 值设置。

--p文件
输出累积生存图 (P(S>x)) 到文件 XMGRACE xy 格式。 那里
是三个图:(1)观察到的分数分布; (2)最大似然
拟合分布; (3) 拟合位置参数的最大似然
(mu/tau) 而
假设 lambda=log_2。

--x文件
将位分数输出为双精度浮点数的二进制数组(每个字节 8 个字节)
分数)归档 . Easel 之类的程序 esl-直方图 可以读取这样的二进制文件。
这在生成极大样本量时很有用。

配置 控制 模型 配置 (MODE)


H3 只使用多点局部对齐( --fs 模式),这就是我们相信
统计拟合。 Unihit 局部对齐分数(Smith/Waterman; --sw 模式)也服从我们的
统计猜想。 全局对齐统计(multihit 或 unihit)是
仍然没有充分理解也没有充分适应。

--fs 收集多重局部对齐分数。 这是默认设置。 对齐为
'片段搜索模式'。

--sw 收集 unihit 局部对齐分数。 H3 J 状态被禁用。 对齐为
“史密斯/沃特曼搜索模式”。

--ls 收集 multihit glocal 对齐分数。 在全局(全局/本地)对齐中,
整个模型必须与目标的子序列对齐。 H3本地出入境
转移概率被禁用。 'ls' 来自 HMMER2 的历史
多点局部对齐的术语为“局部搜索模式”。

--s 收集 unihit glocal 对齐分数。 H3 J 状态和本地进入/退出
转移概率被禁用。 's' 来自 HMMER2 的历史
unihit 全局对齐的术语。

配置 控制 计分 算法


--维特 收集维特比最大似然比对分数。 这是默认设置。

--转发 收集前向对数赔率可能性分数,对对齐集合求和。

--hyb 收集“混合”分数,如 Yu 和 Hwa 的论文中所述(例如,
生物信息学 18:864, 2002)。 这些涉及计算正向矩阵并取
最大单元格值。 这个数字本身在统计上有点缺乏动力,
但该分布预计是一个表现良好的极值分布
(甘贝尔)。

--msv 收集 MSV(多无间隙段维特比)分数,使用 H3 的主要
加速启发式。

- 快速地 对于上述任何选项,请使用 H3 的优化生产实现(使用
SIMD 向量化)。 默认是使用实现牺牲一个小的
数值精度。 这可能会将混杂的噪音引入
统计模拟和拟合,所以当人们过度关注精确
细节,最好能够将噪声源排除在外。

配置 控制 合身 尾巴 群众 用于 前锋


在一些实验中,将前向分数拟合到一系列不同的尾部很有用
大众,而不仅仅是一个。 这些选项提供了一种机制,用于均匀地拟合
不同尾部质量的间隔范围。 对于每个不同的尾部质量,生成一条线
在输出中。

--tmin
设置尾部质量分布的下限。 (默认值为 0.02
默认单尾质量。)

--tmax
设置尾部质量分布的上限。 (默认值为 0.02
默认单尾质量。)

--t点
设置要采样的尾质量数,从 --tmin 并结束于 --tmax.
(默认值为 1,默认为 0.02 单尾质量。)

--t线性
对一系列具有均匀线性间距的尾部质量进行采样。 默认是使用
均匀对数间距。

配置 控制 H3 参数 估算 方法


H3 使用三个短随机序列模拟来估计位置参数
MSV 分数、Viterbi 分数和 Forward 分数的预期分数分布。 这些
选项允许修改这些模拟。

--EML
设置模拟中的序列长度,用于估计位置参数 mu
MSV E 值。 默认值为 200。

--EmN
设置模拟中估计位置参数 mu 的序列数
对于 MSV E 值。 默认值为 200。

--EvL
设置模拟中的序列长度,用于估计位置参数 mu
维特比 E 值。 默认值为 200。

--EVN
设置模拟中估计位置参数 mu 的序列数
维特比 E 值。 默认值为 200。

--EfL
设置模拟中估计位置参数 tau 的序列长度
对于前向 E 值。 默认值为 100。

--EfN
设置模拟中估计位置参数的序列数
tau 用于前向 E 值。 默认值为 200。

——埃夫特
设置尾部质量分数以适应估计位置的模拟
用于前向评估的参数 tau。 默认值为 0.04。

调试 配置


--失速
用于调试 MPI master/worker 版本:启动后暂停,以启用
开发人员将调试器附加到正在运行的主进程和工作进程。 发送
SIGCONT 信号以释放暂停。 (在 gdb 下: (GDB) 信号 信号控制) (仅有的
如果在编译时启用了可选的 MPI 支持,则可用。)

- 种子
将随机数种子设置为 . 默认为 0,这使得随机数
生成器使用任意种子,以便不同的运行 嗯嗯 几乎会
当然会生成不同的统计样本。 对于调试,很有用
通过固定随机数种子来强制重现结果。

实验 配置


这些选项用于少量不同的探索性实验。

--bgflat
将背景残基分布设置为均匀分布,两者都为
用于计算分数的空模型的目的,以及用于生成
随机序列。 默认是使用标准氨基酸背景频率
分布。

--bgcomp
将背景残留分布设置为轮廓的平均成分。
这用于探索有偏见的构图的一些影响。

--x-无长度模型
关闭 H3 目标序列长度模型。 设置 N、C、J 的自转换
并将空模型改为 350/351; 这模拟了 HMMER2。 不是一个好主意
一般的。 这用于演示 H2 与 H3 的主要差异之一。

——努
设置 MSV 算法的 nu 参数——期望的无间隙本地数量
每个目标序列的比对。 默认为2.0,对应一个E->J
转移概率为 0.5。 这用于测试变化的 nu 是否具有
对结果的显着影响(似乎没有,在合理范围内)。 仅此选项
工作,如果 --msv 被选中(它只影响 MSV),它不会与 - 快速地
(因为优化的实现硬连线假设 nu=2.0)。

--pthresh
设置滤波器 P 值阈值以用于生成滤波器功率文件
--f文件. 默认值为 0.02(适用于测试 MSV 分数,
因为这是 H3 加速管道中的默认 MSV 过滤器阈值。)
其他适当的选择(匹配加速管道中的默认值)将是
Viterbi 为 0.001,Forward 为 1e-5。

使用 onworks.net 服务在线使用 hmmsim


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad