英语法语西班牙语

Ad


OnWorks 网站图标

jackhmmer - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 jackhmmer

这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 jackhmmer,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


jackhmmer - 针对蛋白质数据库迭代搜索序列

概要


手提钻 [选项]

商品描述


手提钻 迭代搜索每个查询序列 反对目标
序列在 . 第一次迭代与 普默 搜索。 为了
下一次迭代,查询与所有目标序列的多重比对
满足 包容 门槛 组装完成后,根据此对齐方式构建了一个轮廓
(与使用相同 构建 对齐),以及轮廓搜索 已经完成了
(等同于 嗯搜索 与配置文件)。

查询 可能是“-”(破折号),在这种情况下,查询序列是
从一个读管道而不是来自文件。 这 不能从
流,因为 手提钻 需要对数据库进行多次传递。

输出格式被设计为人类可读的,但通常如此庞大以至于
阅读它是不切实际的,解析它是一种痛苦。 这 --tblout--domtblout 选项
以简洁且易于解析的简单表格格式保存输出。 这 -o 选项
允许重定向主输出,包括将其丢弃在 /dev/null 中。

配置


-h 帮助; 打印命令行用法和所有可用选项的简短提醒。

-N 将最大迭代次数设置为 . 默认为 5。如果 N=1,则结果
相当于一个 普默 搜索。

配置 控制 OUTPUT


默认情况下,每次迭代的输出都以某种人类可读的方式出现在标准输出上,
有点可解析的格式。 这些选项允许重定向输出或保存
其他类型的文件输出,包括每次迭代的检查点文件。

-o 将人类可读的输出定向到文件 .

-A 最后一次迭代后,保存所有命中的带注释的多重对齐
满足包含阈值(也包括原始查询)以 in
斯德哥尔摩格式。

--tblout
在最后一次迭代之后,将顶部序列命中的表格摘要保存到
易于解析的、柱状的、以空格分隔的格式。

--domtblout
在最后一次迭代之后,将顶级域命中的表格摘要保存到
易于解析的、柱状的、以空格分隔的格式。

--chkhmm
在每次迭代开始时,检查点查询 HMM,将其保存到名为
—— 。唔 哪里 是迭代次数(从 1..N)。

--chkali
在每次迭代结束时,检查点所有域的对齐满足
包含阈值(例如什么将成为下一次迭代的查询 HMM),
将其保存到一个名为 <检查点 文件 前缀>- .sto 在斯德哥尔摩格式,
哪里 是迭代次数(从 1..N)。

--acc 在主输出中使用名称而不是名称,如果可用于配置文件
和/或序列。

--诺阿里
省略主输出中的对齐部分。 这样可以大大减少输出
卷。

--notew
无限制主输出中每行的长度。 默认限制为 120
每行字符,这有助于在终端上清晰地显示输出和
在编辑器中,但可以截断目标配置文件描述行。

--textw
将主输出的行长度限制设置为 每行字符。 默认是
120.

配置 控制 单盒 顺序 计分 (第一 迭代)


默认情况下,第一次迭代使用从单个查询构建的搜索模型
序列。 该模型是使用标准的 20x20 替换矩阵构建的,用于残基
概率,以及与位置无关的缺口打开和缺口的两个附加参数
扩展概率。 这些选项允许默认的单序列评分参数
被改变。

--popen
将单序列查询模型的缺口打开概率设置为 。 默认值
是0.02。 必须 >= 0 且 < 0.5。

--扩展
将单序列查询模型的间隙扩展概率设置为 。 该
默认值为 0.4。 必须 >= 0 且 < 1.0。

--mx
从名为的内置替换矩阵中获取残基比对概率
. 几个标准矩阵是内置的,不需要从中读取
文件。 矩阵名称 可以是 PAM30、PAM70、PAM120、PAM240、BLOSUM45、
BLOSUM50、BLOSUM62、BLOSUM80 或 BLOSUM90。 只有其中之一 --mx--mx文件
可以使用选项。

--mx文件
从文件中的替换矩阵中获取残基比对概率
. 默认的分数矩阵是 BLOSUM62(这个矩阵是 HMMER 内部的
并且不必作为文件提供)。 替代矩阵的格式
是BLAST、FASTA等序列接受的标准格式
分析软件。

配置 控制 REPORTING 阈值


报告阈值控制在输出文件(主要输出、
--tblout--domtblout)。 在每次迭代中,对序列命中和域命中进行排名
通过统计显着性(E 值)和输出在两个部分生成,称为 per-
目标和每个域的输出。 在每个目标的输出中,默认情况下,所有序列命中
报告 E 值 <= 10。 在每个域的输出中,对于每个已经通过的目标,
目标报告阈值,所有满足每个域报告阈值的域都是
报道。 默认情况下,这些是条件 E 值 <= 10 的域。以下
选项允许您更改默认的 E 值报告阈值,或使用位得分
取而代之的是阈值。

-E 报告 E 值 <= 的序列 按顺序输出。 默认值为 10.0。

-T 对每个序列的输出使用位得分阈值而不是 E 值阈值
(任何设置 -E 被忽略)。 报告位得分 >= 的序列 。 通过
默认此选项未设置。

-Z 声明数据库的总大小为 序列,用于 E 值
计算。 通常 E 值是相对于数据库的大小计算的
您实际搜索过(例如 目标序列数据库)。 在一些
情况(例如,如果您已将目标序列数据库拆分为多个
用于并行化搜索的文件),您可能更了解实际大小
您的搜索空间是。

--domE
报告具有条件 E 值 <= 的域 在每个域的输出中,另外
到每个重要序列命中的最高分域。 默认值为 10.0。

--domT
对每个域的输出使用位得分阈值而不是 E 值阈值
(任何设置 --domT 被忽略)。 报告位得分 >= 的域 in
每个域的输出,以及每个重要序列的得分最高的域
打。 默认情况下,此选项未设置。

--domZ
声明重要序列的数量 序列,为了
附加域重要性的条件 E 值计算。 一般
条件 E 值是相对于通过的序列数计算的
每个序列报告阈值。

配置 控制 包容 阈值


包含阈值控制哪些命中包含在多重对齐和配置文件中
为下一次搜索迭代构建。 默认情况下,一个序列必须有一个 per-
<= 0.001 的序列 E 值(见 -E 选项),以及任何其他域
除了得分最高的人之外,它必须具有 <= 0.001 的条件 E 值(请参阅 --domE
选项)。 报告阈值和包含阈值之间的区别在于
包含阈值控制在下一次迭代中实际使用的命中(或
最终输出多重对齐,如果 -A 选项),而报告阈值
控制您在输出中看到的内容。 报告阈值通常更宽松,因此您可以
查看可能感兴趣的噪声顶部的边界命中。

--ince
包含 E 值 <= 的序列 在后续迭代或最终对齐中
由输出 -A. 默认值为 0.001。

--incT
对每个序列包含使用位得分阈值而不是 E 值
阈值(任何设置 --ince 被忽略)。 包括位得分为
>= . 默认情况下,此选项未设置。

--incdomE
包括具有条件 E 值 <= 的域 在随后的迭代或最终
对齐输出 -A, 除了每个重要的得分最高的域
序列命中。 默认值为 0.001。

--incdomT
对每个域的包含使用位得分阈值而不是 E 值阈值
(任何设置 --incT 被忽略)。 包括位得分 >= 的域 。 通过
默认此选项未设置。

配置 控制 加速 启发式


HMMER3 搜索在三步过滤器管道中加速:MSV 过滤器、
维特比滤波器和前向滤波器。 第一个过滤器是最快和最多的
近似; 最后是完整的 Forward 评分算法,最慢但最准确。
在 MSV 和 Viterbi 之间还有一个偏置滤波器步骤。 通过所有步骤的目标
然后在加速管道中进行后处理——域识别
并使用前向/后向算法评分。

本质上,控制 HMMER 启发式过滤器的唯一自由参数是 P-
控制通过的非同源序列的预期分数的阈值
过滤器。 将默认阈值设置得更高将通过更高比例的
非同源序列,以牺牲速度为代价增加灵敏度; 反过来,
设置较低的 P 值阈值将通过较小的比例,降低灵敏度
并提高速度。 将过滤器的 P 值阈值设置为 1.0 意味着它将通过
所有序列,并有效地禁用过滤器。

更改过滤器阈值只会从考虑中删除或包括目标; 改变
过滤阈值不会改变比特分数、E 值或对齐,所有这些都是
仅在后处理中确定。

- 最大限度 最大灵敏度。 关闭所有过滤器,包括偏置过滤器,并完全运行
对每个目标进行前向/后向后处理。 这会增加灵敏度
稍微,以速度为代价。

--F1
第一过滤阈值; 为 MSV 过滤步骤设置 P 值阈值。 这
默认值为 0.02,这意味着大约 2% 的最高得分非同源
预计目标将通过过滤器。

--F2
第二个过滤阈值; 为维特比滤波器步骤设置 P 值阈值。
默认值为0.001。

--F3
第三过滤阈值; 设置前向过滤步骤的 P 值阈值。 这
默认值为 1e-5。

——诺比亚斯
关闭偏置滤波器。 这在一定程度上提高了灵敏度,但可能会
速度成本高,特别是如果查询有偏差的残基组成(例如
重复序列区域,或者如果它是具有大区域的膜蛋白
疏水性)。 如果没有偏置过滤器,太多的序列可能会通过过滤器
有偏见的查询,导致性能低于预期,因为
计算密集的前向/后向算法肩负着异常沉重的负担
加载。

配置 控制 架构 (之后 迭代)


这些选项控制如何在多个对齐中定义共识列
建筑配置文件。 默认情况下, 手提钻 始终包含您的原始查询序列
每次迭代的对齐结果,共识位置由该查询定义
序列:即默认 手提钻 配置文件的长度始终与原始文件的长度相同
查询,在每次迭代中。

- 快速地 将共识列定义为分数 >= 的列 符号压裂 残基作为
反对间隙。 (见下文 --symfrac 选项。)虽然这是默认设置
其他地方的配置文件构建选项(在 构建,特别是),它可能有
不良影响 手提钻,因为配置文件可以迭代地进入
远离原始查询的序列空间,留下很少或没有一致的列
对应于其残基。

- 手 使用对多个的引用注释在下一个配置文件中定义共识列
对准。 手提钻 将引用注释从先前的配置文件传播到
多重对齐,然后到下一个配置文件。 这是默认设置。

--symfrac
在以下情况下定义定义一致列所需的残留分数阈值
使用 - 快速地 选项。 默认值为 0.5。 每列中的符号分数是
考虑相对序列权重,忽略gap后计算
对应于序列片段结尾的字符(相对于内部
插入/删除)。 将此设置为 0.0 意味着每个对齐列都将
被分配为共识,这在某些情况下可能有用。 将其设置为 1.0
意味着只有包含 0 个间隙(内部插入/删除)的列才会被
作为共识分配。

--fragthresh
如果比对序列已知,我们只想将末端间隙计数为缺失
是全长的,而不是如果它是一个片段(例如,因为只有它的一部分
被测序)。 HMMER 使用一个简单的规则来推断片段:如果序列长度
L 小于或等于一个分数 乘以列的对齐长度,
然后将序列作为片段处理。 默认值为 0.5。 环境
--fragthresh0 将没有(非空)序列定义为片段; 你可能想要
如果您知道自己有一个精心策划的全长对齐方式,请执行此操作
序列。 环境 --fragthresh1 将所有序列定义为片段; 你可能
如果您知道您的比对完全由片段组成,那么想要这样做,例如
作为宏基因组散弹枪数据中翻译的短读。

配置 控制 相对 WEIGHTS


每当从多重比对构建配置文件时,HMMER 都会使用临时序列
加权算法对密切相关的序列进行权重,对远相关的序列进行权重
那些。 这具有使模型较少受不均匀系统发育影响的效果
表示。 例如,两个相同的序列通常会各自接收一半
一个序列的权重(这就是为什么 手提钻 不关心总是
在每次迭代的对齐中包括您的原始查询序列,即使它找到它
再次在您正在搜索的数据库中)。 这些选项控制使用哪种算法。

--wpb 使用 Henikoff 基于位置的序列加权方案 [Henikoff and Henikoff,
J.摩尔。 生物。 243:574, 1994]。 这是默认设置。

——工作组 使用 Gerstein/Sonnhammer/Chothia 加权算法 [Gerstein et al, J. Mol.
生物。 235:1067, 1994]。

--wblosum
使用在计算 BLOSUM 时用于加权数据的相同聚类方案
替代矩阵 [Henikoff and Henikoff, Proc. 国家队阿卡德。 科学 89:10915, 1992]。
序列在同一阈值(默认为 0.62;见
--wid) 并且在每个 c 序列簇内,每个序列获得相对权重
1/c。

--没有
没有相对权重。 所有序列都分配了统一的权重。

--wid
设置单链接聚类使用时的身份阈值 --wblosum.
与任何其他加权方案一起无效。 默认值为 0.62。

配置 控制 有效 顺序 NUMBER


确定相对权重后,将它们归一化以求和为总有效
序列号, eff_nseq. 这个数字可能是序列中的实际数量
对齐,但它几乎总是比那小。 默认熵权重
方法 (--e) 减少有效序列号以减少信息内容
(相对熵,或真实同源物的平均预期分数)每个共识位置。 这
目标相对熵由一个双参数函数控制,其中两个
参数可设置 --埃雷--埃西格玛.

--事件 调整有效序列号以达到每个特定的相对熵
位置(见 --埃雷)。 这是默认设置。

--eclust
设置有效序列号为一个单联簇的个数
特定身份阈值(见 --开斋节)。 不推荐使用此选项; 这是为了
评估有多好的实验 --事件 是。

--烯酮
关闭有效序列号确定,只使用实际数量
序列。 您可能想要这样做的原因之一是尝试最大化相对
模型的熵/位置,这可能对短模型有用。

--eset
将所有模型的有效序列号显式设置为 .

--埃雷
将最小相对熵/位置目标设置为 . 需要 --事件。 默认
取决于序列字母表; 对于蛋白质序列,它是 0.59 位/位置。

--埃西格玛
设置整个模型对齐贡献的最小相对熵,超过
它的全长。 这具有使短模型具有更高相对
每个位置的熵比 --埃雷 一个人会给。 默认值为 45.0 位。

--开斋节
设置由单链接聚类使用的分数成对身份截止点
--eclust 选项。 默认值为 0.62。

配置 控制 先前


在配置文件构建中,默认情况下,加权计数被转换为平均后验
使用混合狄利克雷先验的概率参数估计。 默认混合狄利克雷
建立蛋白质模型和核酸(RNA 和 DNA)模型的先验参数
in. 以下选项允许您覆盖默认先验。

--pnone 不要使用任何先验。 概率参数将只是观察到的
相对序列加权后的频率。

--广场 使用拉普拉斯 +1 先验代替默认混合狄利克雷先验。

配置 控制 价值 校准


估计 MSV 过滤器预期分数分布的位置参数
分数、维特比过滤器分数和前向分数需要三个短随机序列
模拟。

--EML
设置模拟中的序列长度,用于估计位置参数 mu
MSV 过滤器 E 值。 默认值为 200。

--EmN
设置模拟中估计位置参数 mu 的序列数
用于 MSV 过滤器 E 值。 默认值为 200。

--EvL
设置模拟中的序列长度,用于估计位置参数 mu
维特比滤波器 E 值。 默认值为 200。

--EVN
设置模拟中估计位置参数 mu 的序列数
维特比滤波器 E 值。 默认值为 200。

--EfL
设置模拟中估计位置参数 tau 的序列长度
对于前向 E 值。 默认值为 100。

--EfN
设置模拟中估计位置参数的序列数
tau 用于前向 E 值。 默认值为 200。

——埃夫特
设置尾部质量分数以适应估计位置的模拟
用于前向评估的参数 tau。 默认值为 0.04。

其他 配置


--非空2
关闭对有偏见的合成的 null2 分数校正。

-Z 断言搜索中的目标总数是 , 为目的
每个序列的 E 值计算,而不是目标的实际数量
看到。

--domZ
断言搜索中的目标总数是 , 为目的
每个域的条件 E 值计算的数量,而不是目标的数量
通过报告阈值的。

- 种子
用种子随机数生成器 , 一个整数 >= 0. 如果 是 >0,任何
随机模拟将是可重复的; 相同的命令将给出相同的
结果。 如果 为 0,随机数生成器被任意播种,并且
随机模拟会因同一命令的运行而异。 默认的
种子是42。

--q格式
声明输入 查询序列文件 是格式 . 接受的序列文件
格式包括 FASTA、EMBL、GenBank、DDBJ、UniProt、Stockholm 和 SELEX。 默认
是自动检测文件的格式。

--t格式
声明输入 目标序列数据库 是格式 . 接受的序列文件
格式包括 FASTA、EMBL、GenBank、DDBJ、UniProt、Stockholm 和 SELEX。 默认
是自动检测文件的格式。

- 中央处理器
将并行工作线程的数量设置为 . 默认情况下,HMMER 将此设置为
它在您的机器中检测到的 CPU 内核数量 - 也就是说,它试图最大化
使用可用的处理器内核。 环境 高于数量
可用内核几乎没有任何价值,但您可能希望将其设置为某些东西
较少的。 你也可以通过设置环境变量来控制这个数字,
HMMER_NCPU.

此选项仅在 HMMER 编译时支持 POSIX 线程时可用。
这是默认设置,但它可能已在编译时为您的站点关闭
或机器出于某种原因。

--失速
用于调试 MPI master/worker 版本:启动后暂停,以启用
开发人员将调试器附加到正在运行的主进程和工作进程。 发送
SIGCONT 信号以释放暂停。 (在 gdb 下: (GDB) 信号 信号控制) (仅有的
如果在编译时启用了可选的 MPI 支持,则可用。)

--mpi 在 MPI 主/工作模式下运行,使用 米匹伦. (仅当可选 MPI
在编译时启用了支持。)

使用 onworks.net 服务在线使用 jackhmmer


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad