这是命令 cmsearch,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
cmsearch - 针对序列数据库搜索协方差模型
概要
厘米搜索 [选项]
商品描述
厘米搜索 用于针对序列搜索一个或多个协方差模型 (CM)
数据库。 对于每个 CM , 使用该查询 CM 搜索目标数据库
序列在 , 并输出具有最重要意义的序列的排序列表
与 CM 匹配。 要从多个比对构建 CM,请参阅 厘米构建。
查询 必须已针对 E 值进行校准 cm校准。 作为特别
例外,任何模型在 具有零碱基对的不需要校准。 为了
这些模型中,将使用配置文件 HMM 搜索算法而不是 CM 搜索算法,如所讨论的
下面进一步。
查询 可能是“-”(破折号),在这种情况下,查询 CM 输入将是
从一个读管道而不是来自文件。 这 可能不是“-”,因为
当前的实现需要能够倒带数据库,这是不可能的
标准输入 输入。
输出格式被设计为人类可读的,但通常如此庞大以至于
阅读它是不切实际的,解析它是一种痛苦。 这 --tblout 选项将输出保存在一个
简单的表格格式,简洁且易于解析。 这 -o 选项允许
重定向主输出,包括将其丢弃在 /dev/null 中。
厘米搜索 使用专门的算法重新检查目标序列的 5' 和 3' 末端
用于检测 被截断 命中,在实际完整的 5' 和/或 3' 端的哪一部分
目标序列文件中缺少长度同源序列。 这些类型的点击
将在由未组装测序读取组成的序列文件中最常见。 经过
默认情况下,任何 5' 截断的命中都需要包含目标的第一个残基
它来自于的序列 , 并且任何 3' 截断的命中都需要包括
它源自的目标序列的最终残基。 任何 5' 和 3' 截断命中必须
包括其来源的目标序列的第一个和最后一个残基。 这 --anytrunc
选项将放宽对命中包含序列端点的要求,并被截断
允许命中在目标序列的任何位置开始和停止。 重要的
尽管如此,与 --anytrunc, 命中 E 值将不太准确,因为模型校准确实如此
不考虑截断命中的可能性,因此请谨慎使用。 这 --notrunc
选项可用于关闭截断命中检测。 --notrunc 会减少跑步
的时间 厘米搜索, 对目标最重要 包含许多短的文件
序列。
截断命中检测会在以下情况下自动关闭 - 最大限度, ——不,嗯, --qdb, or
--无带 使用选项是因为它依赖于使用加速 HMM 带状
被任何这些选项关闭的对齐策略。
配置
-h 帮助; 打印命令行用法和所有可用选项的简短提醒。
-g 打开 全球本土化 对齐算法,对于查询模型是全局的,并且
本地相对于目标数据库。 默认情况下,局部对齐
使用的算法对于目标序列和
模型。 在本地模式下,如有必要,对齐跨越两个或多个子序列
(例如,如果查询模型和目标序列的结构只是部分
共享),允许结构中的某些大的插入和删除
惩罚不同于正常的插入缺失。 本地模式在经验上表现更好
基准并且对远程同源性检测明显更敏感。
根据经验,glocal 搜索返回的点击次数比本地搜索少得多,因此 glocal
某些应用程序可能需要。 和 -G, 所有模型都必须校准,即使
那些具有零碱基对的。
-Z 像搜索空间大小一样计算 E 值 兆碱基 (Mb)。 没有
使用这个选项,搜索空间的大小被定义为总的数量
核苷酸 乘以 2,因为每个目标序列的两条链都会
被搜查。
--开发帮助
打印帮助,如 -h , 还包括未显示的专家选项
- -h . 这些专家选项预计与广大
大多数用户等都没有在手册页中描述。 唯一的资源
为了理解他们实际所做的是简短的一行描述输出
,尤其是 --开发帮助 已启用,以及源代码。
配置 用于 控制 OUTPUT
-o 将主要的人类可读输出定向到文件 而不是默认的标准输出。
-A 保存所有重要命中的多重对齐(那些满足 包容
阈值) 到文件 .
--tblout
保存一个简单的表格(空格分隔)文件总结找到的命中,一个
每个命中的数据线。 Infernal 用户指南中描述了此文件的格式。
--acc 在主输出中使用名称而不是名称,如果可用于配置文件
和/或序列。
--诺阿里
省略主输出中的对齐部分。 这样可以大大减少输出
卷。
--notew
无限制主输出中每行的长度。 默认限制为 120
每行字符,这有助于在终端上清晰地显示输出和
在编辑器中,但可以截断目标配置文件描述行。
--textw
将主输出的行长度限制设置为 每行字符。 默认是
120.
--详细
在主输出中包含额外的搜索管道统计信息,包括过滤器
截断命中检测的生存统计数据和丢弃的信封数量
由于矩阵大小溢出。
配置 控制 REPORTING 阈值
报告阈值控制在输出文件(主要输出和
--tblout) 命中按统计显着性(E 值)排序。 默认情况下,所有命中
报告 E 值 <= 10。 以下选项允许您更改默认设置
E 值报告阈值,或改为使用比特分数阈值。
-E 在每个目标的输出中,报告 E 值为 <= 的目标序列 . 这个
默认为 10.0,这意味着平均会报告大约 10 个误报
每个查询,所以你可以看到噪音的顶部并自己决定它是否
真的很吵。
-T 不是在 E 值上对每个 CM 输出进行阈值处理,而是使用
位得分 >= .
配置 用于 包容 阈值
包含阈值比报告阈值更严格。 包含阈值控制
哪些命中被认为足够可靠以包含在输出对齐中或
在可能的后续搜索轮中,或标记为重要(“!”)而不是
在命中输出中有问题(“?”)。
--ince
使用 <= 的 E 值 作为命中包含阈值。 默认值为 0.01,
这意味着平均而言,每 1 次预计会有 100 次误报
使用不同的查询序列进行搜索。
--incT
不使用 E 值来设置包含阈值,而是使用一点
得分 >= 作为命中包含阈值。 默认情况下,此选项未设置。
配置 用于 特定型号 SCORE 阈值
策划的 CM 数据库可以为每个 CM 定义特定的比特分数阈值,取代任何
仅基于统计显着性的阈值。
要使用这些选项,配置文件必须包含适当的(GA、TC 和/或 NC)
可选的分数阈值注释; 这是由 构建 从斯德哥尔摩格式
对齐文件。 每个阈值选项都有一个分数 位,并表现得好像 -T
--incT 已专门使用每个模型的策划阈值应用。
--cut_ga
使用模型中的 GA(收集)位分数来设置命中报告和包含
阈值。 GA 阈值通常被认为是可靠的策划
界定家庭成员的门槛; 例如,在 Rfam 中,这些阈值
根据使用 Rfam Seed 的搜索定义包含在 Rfam Full 对齐中的内容
楷模。
--cut_nc
使用模型中的 NC(噪声截止)位得分阈值来设置命中报告
和包含阈值。 NC 阈值通常被认为是
得分最高的已知误报。
--cut_tc
使用模型中的 TC(可信截止)位得分阈值来设置命中报告
和包含阈值。 TC 阈值通常被认为是
得分最低的已知真阳性,高于所有已知假阳性。
配置 控制 “ 加速 管道
Infernal 1.1 搜索在六级过滤器管道中得到加速。 前五个
阶段使用配置文件 HMM 来定义传递到阶段 XNUMX CM CYK 的包络
筛选。 使用 CM 为所有过滤器中幸存下来的任何信封分配最终分数
内部算法。 (有关更多信息,请参阅用户指南。)
配置文件 HMM 过滤器由 构建 程序并存储在 .
每个连续的过滤器都比前一个慢,但比它好
区分可能包含高分 CM 命中的子序列和包含高分 CM 命中的子序列
不是。 前三个 HMM 滤波器级与 HMMER3 中使用的相同。 第一阶段(F1)
是针对长序列修改的本地 HMM SSV 过滤器。 阶段 2 (F2) 是本地 HMM
维特比过滤器。 第 3 阶段 (F3) 是本地 HMM 前向滤波器。 前三个中的每一个
stage 在本地模式下使用配置文件 HMM,它允许目标子序列与
HMM 的任何区域。 Stage 4 (F4) 是一个全局 HMM 过滤器,它需要一个目标
与全长轮廓 HMM 对齐的子序列。 第 5 阶段(F5)是全局 HMM
包络定义过滤器,它使用 HMMER3 的域识别启发式来定义
包络边界。 在从 2 到 5 的每个阶段之后,一个偏置滤波器步骤(F2b、F3b、F4b 和
F5b) 用于删除由于偏向而似乎已通过过滤器的序列
单独组成。 任何在 F1 到 F5b 阶段存活的信封然后通过
本地 CM CYK 过滤器。 CYK 过滤器使用从 HMM 派生的约束(带)
对齐包络以减少所需的计算次数并节省时间。
任何通过 CYK 的信封都使用本地 CM Inside 算法评分,再次使用 HMM
带加速。
定义子序列所需的最低分数的默认过滤器阈值
生存每个阶段是根据数据库的大小定义的 (或大小
以兆碱基 (Mb) 为单位指定 -Z or --FZ 选项)。 对于较大的数据库,
过滤器更严格导致更大的加速度,但可能会造成更大的损失
灵敏度。 基本原理是,对于较大的数据库,命中必须具有更高的分数才能
达到统计显着性,因此更严格的过滤消除了较低的评分
微不足道的命中是可以接受的。
所有可能的搜索空间大小和所有过滤器阶段的 P 值阈值是
接下来列出。 (0.01 的 P 值阈值意味着大约 1% 的最高得分
期望非同源子序列通过过滤器。)Z 定义为
完整目标序列文件中的核苷酸乘以 2,因为两条链都将
搜索每个模型。
如果 Z 小于 2 Mb:F1 为 0.35; F2和F2b关闭; F3、F3b、F4、F4b和F5为0.02;
F6 是 0.0001。
如果 Z 介于 2 Mb 和 20 Mb 之间:F1 为 0.35; F2和F2b关闭; F3、F3b、F4、F4b 和 F5
是 0.005; F6 是 0.0001。
如果 Z 介于 20 Mb 和 200 Mb 之间:F1 为 0.35; F2和F2b为0.15; F3、F3b、F4、F4b 和 F5
是 0.003; F6 是 0.0001。
如果 Z 介于 200 Mb 和 2 Gb 之间:F1 为 0.15; F2和F2b为0.15; F3, F3b, F4, F4b, F5,
F5b 为 0.0008; F6 为 0.0001。
如果 Z 介于 2 Gb 和 20 Gb 之间:F1 为 0.15; F2和F2b为0.15; F3、F3b、F4、F4b、F5 和
F5b 为 0.0002; F6 为 0.0001。
如果 Z 大于 20 Gb:F1 为 0.06; F2和F2b为0.02; F3、F3b、F4、F4b、F5 和 F5b
是 0.0002; F6 为 0.0001。
这些阈值是根据内部基准测试的性能选择的
不同的可能设置。
有五个选项可用于控制一般过滤级别。 这些选项是,在
从最不严格(最慢但最敏感)到最严格(最快但最不敏感)的顺序
敏感的): - 最大限度, ——不,嗯, - 中, - 默认, (这是默认设置), --rfam。 和
——嗯。 通过 - 默认 过滤器阈值将取决于数据库大小。 见
有关更多信息,请在下面对每个选项进行说明。
此外,专家用户可以精确控制每个过滤阶段得分阈值
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 --F1, --F1b, --F2, --F2b, --F3, --F3b, --F4, --F4b, --F5, --F5b, 和 --F6 选项。 作为
以及打开或关闭每个阶段 --noF1, --doF1b, --noF2, --noF2b, --noF3,
--noF3b, --noF4, --noF4b, --noF5, 和 --noF6。 选项。 这些选项仅显示
如果 --开发帮助 选项用于保持显示选项的数量 -h
合理,因为它们只对少数用户有用。
作为特例,对于任何模型 具有零碱基对,配置文件 HMM
运行搜索而不是 CM 搜索。 HMM 算法比 CM 更有效
算法,并且对于没有辅助的模型,CM 算法的好处将丢失
结构(零碱基对)。 这些配置文件 HMM 搜索的运行速度将明显快于
CM 搜索。 您可以使用 --嗯嗯 选项。 更多
有关仅 HMM 搜索的信息,请参阅 --嗯嗯 下面的选项,和
用户指南。
- 最大限度 关闭所有过滤器,并在每个全长目标上运行非带状内部
序列。 这在一定程度上提高了灵敏度,但速度上的代价非常大。
——诺姆
关闭所有 HMM 滤波器级(F1 到 F5b)。 CYK 过滤器,使用 QDB,将
在每个全长目标序列上运行,并将强制执行 P 值阈值
0.0001。 每个在 CYK 中幸存下来的子序列都将被传递给 Inside,这将
也使用 QDB(但更松散的集合)。 这在一定程度上提高了灵敏度
速度成本高。
- 中 关闭 HMM SSV 和 Viterbi 滤波器级(F1 到 F2b)。 设置剩余 HMM
过滤阈值(F3 到 F5b)默认为 0.02,但可以更改为 -
--Fmid 序列。 这可能会以显着的速度成本增加灵敏度。
- 默认
使用默认过滤策略。 该选项默认开启。 过滤器
阈值是根据数据库大小确定的。
--rfam 使用为大型数据库(超过 20 Gb)设计的严格过滤策略。 这个
将以潜在的敏感性代价加速搜索。 它不会有
如果数据库大于 20 Gb,则会产生影响。
--嗯嗯
仅使用过滤器配置文件 HMM 进行搜索,不要使用 CM。 只过滤
将执行阶段 F1 到 F3,使用严格的 P 值阈值(0.02
F1,F0.001 为 2,F0.00001 为 3)。 另外一个偏置组合过滤器是
在 F1 阶段后使用(P=0.02 生存阈值)。 任何幸存下来的打击
所有阶段并且具有高于报告阈值的 HMM E 值或位得分将
被输出。 用户可以更改 HMM-only 过滤器阈值和选项
--嗯F1, --嗯F2, --嗯F3, --hmmnobias, --嗯nonull2, 和 --嗯最大。 默认情况下,
搜索任何具有零碱基对的模型将在 HMM-only 模式下运行。 这个可以
被关闭,强制 CM 搜索这些模型 ——诺姆蒙利 选项。
这些选项仅在以下情况下显示 --开发帮助 选项被使用。
--FZ
将过滤器阈值设置为数据库使用的默认值 兆碱基 (Mb)。
如果与 大于 20000 (20 Gb) 此选项与
--rfam。
--Fmid
随着 - 中 选项将 HMM 过滤器阈值(F3 到 F5b)设置为 . By
默认, 是0.02。
其他 配置
--notrunc
关闭截断命中检测。
--anytrunc
允许截断的命中在目标序列中的任何位置开始和结束。 经过
默认情况下,5' 截断的命中必须包括其目标序列的第一个残基
并且 3' 截断的命中必须包括其目标序列的最终残基。 和
使用此选项,您可能会观察到较少的全长命中,这些命中延伸到开头和
查询CM结束。
--非空3
关闭对有偏见的组合的 null3 CM 分数校正。 这个修正是
在 HMM 过滤阶段不使用。
--mx大小
将允许的最大 CM DP 矩阵大小设置为 兆字节。 默认这个尺寸
是 128 Mb。 这对于绝大多数搜索来说应该足够大,
特别是对于较小的模型。 如果 厘米搜索 遇到 CYK 中的信封或
需要更大矩阵的舞台内部,信封将从
考虑。 这种行为就像一个额外的过滤器,可以防止昂贵的
(慢)CM DP 计算,但潜在的敏感性成本。 请注意,如果
厘米搜索 正在运行 多核机器上的多个线程,然后每个线程
线程可能有一个最大大小的分配矩阵 Mb 在任何给定时间。
--smx大小
将允许的最大 CM 搜索 DP 矩阵大小设置为 兆字节。 默认情况下
这个大小是 128 Mb。 此选项仅在 CM 不使用 HMM 时相关
带状矩阵,即如果 - 最大限度, ——不,嗯, --qdb, --fqdb, --无带, or
--f非带状 选项也被使用。 请注意,如果 厘米搜索 正在运行
多核机器上的多个线程,那么每个线程可能有一个分配的
最大大小的矩阵 Mb 在任何给定时间。
--cyk 使用 CYK 算法而不是 Inside 来确定所有命中的最终分数。
--阿奇克 使用 CYK 算法来对齐命中。 默认情况下,Durbin/Holmes 最佳精度
使用算法,它找到最大化预期精度的对齐方式
所有对齐的残基。
--wcx
对于每个 CM,将 W 参数(命中的预期最大长度)设置为
乘以模型的共识长度。 默认情况下,W 参数是从
CM 文件,并根据模型的转移概率计算
by 厘米构建。 您可以使用以下命令找出模型的默认 W 值 厘米统计。 本篇
应谨慎使用该选项,因为它会影响多个过滤管道
以不明显的方式不同的阶段。 只推荐给专家用户
搜索比用于构建的任何同系物长得多的命中
示范 厘米构建, 例如具有大内含子或其他大插入的那些。 这个
选项不能与 ——不,嗯, --fqdb or --qdb 选项
因为在这些情况下 W 受查询相关频带的限制。
--toponly
只搜索目标序列的顶部(Watson)链 . 默认情况下,
搜索两条链。 这将使数据库大小 (Z) 减半。
--仅底部
只搜索目标序列的底部 (Crick) 链 . 默认情况下,
搜索两条链。 这将使数据库大小 (Z) 减半。
--t格式
断言目标序列数据库文件是格式 . 接受的格式
包括 法斯塔, 标志, 基因库, ddbj, 斯德哥尔摩, pfam, 2米, 阿发, 集群, 和 飞利浦
默认是自动检测文件的格式。
- 中央处理器
将并行工作线程的数量设置为 . 默认情况下,Infernal 设置这个
到它在您的机器中检测到的 CPU 内核数量 - 也就是说,它试图
最大限度地利用可用的处理器内核。 环境 高于
可用内核的数量几乎没有价值,但您可能希望将其设置为
少一些。 你也可以通过设置环境来控制这个数字
变数 INFERNAL_NCPU。 此选项仅在编译 Infernal 时可用
具有 POSIX 线程支持。 这是默认设置,但它可能已在
出于某种原因,您的站点或机器的编译时间。
--失速
用于调试 MPI master/worker 版本:启动后暂停,以启用
开发人员将调试器附加到正在运行的主进程和工作进程。 发送
SIGCONT 信号以释放暂停。 (在 gdb 下: (GDB) 信号 信号) (只要
如果在编译时启用了可选的 MPI 支持,则可用。)
--mpi 在 MPI 主/工作模式下运行,使用 姆皮伦。 使用 --mpi, 序列文件必须
首先使用“索引” esl-sfetch 程序,其中包含
无间道,在 画架/小程序/ 子目录。 (仅当可选 MPI
在编译时启用了支持。)
使用 onworks.net 服务在线使用 cmsearch
