这是命令 cmbuild 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
cmbuild - 从结构注释的 RNA 多序列构建协方差模型
对齐方式
概要
构建 [选项]
商品描述
对于每个多序列比对 建立协方差模型并将其保存到
一个新文件 .
比对文件必须是斯德哥尔摩或 SELEX 格式,并且必须包含共识
二级结构注释。 构建 使用共识结构来确定
CM 的架构。
可能是“-”(破折号),这意味着从 标准输入 而不是一个文件。
要使用“-”,您还必须指定对齐文件格式 --信息 , 如在
--信息 斯德哥尔摩 (由于我们实现中的当前限制,MSA 文件
无法在不可重绕的输入流中自动检测格式。)
未必 '-' (标准输出), 因为将 CM 文件发送到 标准输出 会不会冲突
与程序的其他文本输出。
除了将 CM(s) 写入 , 构建 还为每个输出一行
模型创建到标准输出。 每行有以下字段: “aln”:索引
用于构建 CM 的对齐; “idx”:CM 在 ; “姓名”:
CM 的名称; “nseq”:用于构建 CM 的比对中的序列数;
“eff_nseq”:用于构建模型的有效序列数; “alen”:长度
用于构建 CM 的对齐方式; “clen”:对齐的列数
定义为共识(匹配)列; “bps”:CM 中碱基对的数量; “比夫”:
CM 中分叉的数量; “rel entropy: CM”:总相对熵
模型除以共识列数; “rel entropy: HMM”:总相对
忽略二级结构的模型熵除以共识数量
列。 “描述”:模型/对齐的描述。
配置
-h 帮助; 打印命令行用法和可用选项的简短提醒。
-n 命名新的 CM . 默认是使用对齐的名称(如果是
出现在 ), 或者,如果失败,则名称 . If
包含多个对齐, -n 不起作用,每个对齐
必须在名称中注释 (如斯德哥尔摩 #=GF ID 注释)。
-F 让 被覆盖。 没有这个选项,如果 已经
存在, 构建 出现错误退出。
-o 将摘要输出定向到文件 , 而不是 标准输出。
-O 构建每个模型后,将带注释的源对齐重新保存到文件
斯德哥尔摩格式。 序列用什么相对序列权重来注释
被分配。 路线也用参考注释线注释
指示哪些列被指定为共识。 如果源对齐有
参考注释(“#=GC RF”)它将被替换为
共识列和“.”的模型对于插入列,除非 - 手
选项用于指定共识立场,在这种情况下,它将是
不变。
--开发帮助 打印帮助,如 -h , 但也包括专家选项
显示与 -h . 这些专家选项预计与
绝大多数用户等都没有在手册页中描述。 唯一的
了解他们实际做什么的资源是简短的一行
描述输出时 --开发帮助 已启用,以及源代码。
配置 控制 模型 架构
这些选项控制如何在对齐中定义共识列。
- 快速地 自动将共识列定义为分数 >= 的列 符号压裂 of
残基而不是间隙。 (见下文 --symfrac 选项。)这是
默认。
- 手 使用参考坐标注释(#=GC RF 线,在斯德哥尔摩)来确定哪个
列是共识,哪些是插入。 任何非空白字符表示
共识栏。 (例如,将共识列标记为“x”,并插入列
用“.”。)这个选项被调用 --射频 在之前版本的 Infernal (0.1
到 1.0.2 年)。
--symfrac
在以下情况下定义定义一致列所需的残留分数阈值
不使用 - 手。 默认值为 0.5。 每列中的符号分数是
考虑相对序列权重后计算。 将此设置为
0.0 表示每个对齐列都将被分配为共识,这可能是
在某些情况下很有用。 将其设置为 1.0 意味着只有包含 0 个间隙的列
将作为共识分配。 此选项取代 --间隙阈值 选项
从之前版本的 Infernal(0.1 到 1.0.2), 等于 (1.0 -
)。 例如,重现命令的行为 构建 --间隙阈值 0.8
在以前的版本中,使用 构建 --symfrac 0.2 有了这个版本。
——诺斯 忽略二级结构注释,如果有的话, 并建立一个CM
零碱基对。 该模型将类似于配置文件 HMM 和 厘米搜索 和
厘米扫描 为此,程序将使用比 CM 算法更快的 HMM 算法
模型。 此外,零碱基对模型不需要用 校准
跑步前 厘米搜索 用它。 的 ——诺斯 如果没有,则必须使用选项
二级结构注释 .
--研究
使用文件中的 RIBOSUM 矩阵参数化排放分数 a la RSEARCH .
--研究 启用,所有对齐 必须包含一个
序列或 - 称呼 还必须启用选项。 每个序列中的所有位置
将被视为共识“专栏”。 实际上,这些的排放分数
由于建模的差异,模型将与 RIBOSUM 分数不同
Infernal 和 RSEARCH 之间的策略,但它们将尽可能相似。
RIBOSUM 矩阵文件包含在 Infernal 的“matrices/”子目录中
顶级“infernal-xxx”目录。 RIBOSUM 矩阵是替代分数
专门为具有单独单链的结构 RNA 训练的矩阵
残基和碱基对替换分数。 有关更多信息,请参阅 RSEARCH
出版物(Klein 和 Eddy,BMC 生物信息学 4:44,2003 年)。
其他 模型 架构 配置
- 空值
从中读取空模型 . 空模型定义了每个 RNA 的概率
背景序列中的核苷酸,默认为每个核苷酸使用 0.25。
空文件的格式在用户指南中指定。
- 事先的
先读一个狄利克雷 , 替换默认的混合狄利克雷。 这
先前文件的格式在用户指南中指定。
使用 --开发帮助 查看其他未记录的模型构建选项。
配置 控制 相对 WEIGHTS
构建 使用特殊的序列加权算法来降低密切相关的权重
序列和权重远相关的。 这具有使模型更少的效果
受到不均匀的系统发育表征的偏见。 例如,两个相同的序列将
通常,每个序列的权重只有一个序列的一半。 这些选项控制
使用哪种算法。
--wpb 使用 Henikoff 基于位置的序列加权方案 [Henikoff and Henikoff,
J.摩尔。 生物。 243:574, 1994]。 这是默认设置。
——工作组 使用 Gerstein/Sonnhammer/Chothia 加权算法 [Gerstein et al, J. Mol.
生物。 235:1067, 1994]。
--没有
关闭序列加权; 例如,明确地将所有序列权重设置为 1.0。
--w给定
使用输入对齐文件中注释中给出的序列权重。 如果不
给出了权重,假设它们都是 1.0。 默认是确定新的
Gerstein/Sonnhammer/Chothia 算法的序列权重,忽略任何
注释权重。
--wblosum
使用 BLOSUM 过滤算法对序列进行加权,而不是默认
GSC 加权。 以给定的同一性百分比对序列进行聚类(参见 --宽度);
为每个集群分配 1.0 的总权重,在成员之间平均分配
那个集群的。
--wid
控制行为 --wblosum 通过设置百分比加权选项
用于将对齐聚类到的标识 .
配置 控制 有效 顺序 NUMBER
确定相对权重后,将它们归一化以求和为总有效
序列号, eff_nseq。 这个数字可能是序列中的实际数量
对齐,但它几乎总是比那小。 默认熵权重
方法 (--e) 减少有效序列号以减少信息内容
(相对熵,或真实同源物的平均预期分数)每个共识位置。 这
目标相对熵由一个双参数函数控制,其中两个
参数可设置 --埃雷 和 ——埃西格玛。
--事件 使用熵权重策略确定有效序列号
给出一个目标平均匹配状态相对熵。 这个选项是默认的,并且
可以关闭 ——恩诺。 默认目标均值匹配状态相对
具有至少 0.59 个碱基对的模型的熵为 1 位,模型的熵为 0.38 位
具有零碱基对,但随着 ——是的。 0.59 或 0.38 位的默认值为
如果模型的总相对熵(总和匹配)自动更改
状态相对熵)小于一个截止值,默认为 6.0 位,但
可以与专家一起更改,未记录 - 前任 选项。 如果你真的想
使用该选项,请查阅源代码。
--烯酮
关闭熵权重策略。 有效序列号只是
比对中的序列数。
--埃雷
设置目标均值匹配状态相对熵为 . 默认目标
对于至少具有 0.59 个匹配位置的模型,每个匹配位置的相对熵为 1 位
basepair 和 0.38 对于具有零碱基对的模型。
--eminseq
定义最小允许有效序列号为 .
--嗯嗯
设置目标 HMM 均值匹配状态相对熵为 . 熵为
碱基配对匹配状态使用边缘化碱基对发射计算
概率。
--eset
设置熵权重的有效序列号为 .
配置 控制 FILTER P7 HMM 架构
对于每个 CM 构建 构造,一个伴随的过滤器 p7 HMM 是根据输入构建的
对齐也是如此。 这些选项控制过滤器 HMM 构造:
--p7ere
将滤波器 p7 HMM 的目标均值匹配状态相对熵设置为 . By
默认每个匹配位置的目标相对熵为 0.38 位。
--p7ml 使用从 CM 构建的最大似然 p7 HMM 作为过滤器 HMM。 这个 HMM 将
尽可能与 CM 相似(同时必然不了解次要
结构体)。
使用 --开发帮助 查看其他未记录的过滤器 HMM 构造选项。
配置 控制 FILTER P7 HMM 校准
在构建每个过滤器 HMM 之后, 构建 确定要使用的适当 E 值参数
在过滤过程中 厘米搜索 和 厘米扫描 通过对一组序列进行采样并对其进行搜索
每个 HMM 过滤器配置和算法。
--EmN 将本地 MSV 滤波器 HMM 校准的采样序列数设置为 .
默认为 200。
--EVN 将本地维特比滤波器 HMM 校准的采样序列数设置为
. 默认为 200。
--精灵N 将本地前向滤波器 HMM 校准的采样序列数设置为
. 默认为 200。
--EgfN 设置 glocal 前向滤波器 HMM 校准的采样序列数
至 . 默认为 200。
使用 --开发帮助 查看其他未记录的过滤器 HMM 校准选项。
配置 用于 精制 “ INPUT 对准
--细化
在使用期望构建 CM 之前尝试优化对齐 -
最大化(EM)。 像往常一样,首先从初始对齐构建 CM。 然后,
比对中的序列进行了最佳重新比对(使用 HMM 带状 CYK
算法,最优意味着给定频带最优)到 CM,并构建一个新的 CM
从结果对齐。 然后将序列与新的 CM 重新对齐,然后一个
新的 CM 就是根据该对齐方式构建的。 这一直持续到收敛,
特别是当两次连续迭代的对齐不是
显着不同(所有序列的总和
两次连续迭代之间的对齐变化小于 1%)。 决赛
对齐(用于构建被写入的 CM 的对齐) ) is
写入 .
-l ——细化, 打开局部对齐算法,允许对齐
如有必要,跨越两个或多个子序列(例如,如果查询的结构
模型和目标序列只是部分共享),允许某些大
结构中的插入和删除将受到与正常不同的惩罚
插入缺失。 默认是将查询模型全局对齐到目标序列。
--吉布斯
修改行为 --细化 所以使用 Gibbs 采样代替 EM。 这
不同的是,在对齐阶段,对齐不一定是
最优,而是从每个序列中采样一个比对(解析树)
由内部算法确定的比对的后验分布。 由于
这个采样步骤 --吉布斯 是不确定的,所以不同的运行具有相同的
对齐可能会产生不同的结果。 这不是真的 --细化 用来
没有 --吉布斯 选项,在这种情况下,最终对齐和 CM 将始终是
相同。 什么时候 --吉布斯 启用后, - 种子 选项可用于播种
随机数生成器可预测,使结果可重现。 的目标
此 --吉布斯 选项是帮助专家 RNA 比对策展人改进结构
通过允许他们观察替代的高分比对。
- 种子
用种子随机数生成器 , 一个整数 >= 0。这个选项只能
结合使用 ——吉布斯。 If 非零,随机抽样
对齐将是可重复的; 相同的命令将给出相同的结果。 如果
为0,随机数生成器任意播种,随机
采样可能因同一命令的运行而异。 默认种子为 0。
--cyk ——细化, 与 CYK 算法对齐。 默认最佳精度
使用算法。 有关这方面的更多信息,请参阅 厘米对齐 手册页。
--notrunc
——细化, 关闭截断对齐算法。 还有更多
有关这方面的信息在 厘米对齐 手册页。
使用 --开发帮助 将其他未记录的对齐细化选项视为
以及其他输出文件选项和用于为单个构建多个模型的选项
对准。
使用 onworks.net 服务在线使用 cmbuild