英语法语西班牙语

Ad


OnWorks 网站图标

cmalign - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 cmalign

这是命令 cmalign 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


cmalign - 将序列与协方差模型对齐

概要


厘米对齐
[选项]

商品描述


厘米对齐 对齐 RNA 序列 到协方差模型 (CM) .
新的对齐输出到 标准输出 斯德哥尔摩格式,但可以重定向到文件
-o 选项。

or (但不是两者)可能是“-”(破折号),这意味着阅读这个
输入来自 标准输入 而不是一个文件。

序列文件 必须是 FASTA 或 Genbank 格式。

厘米对齐 默认情况下使用 HMM 分带技术来加速对齐,如所述
下面为 --带状 选项。 可以使用以下命令关闭 HMM 条带 --无带 选项。

默认情况下, 厘米对齐 计算具有最大预期精度的对齐方式,即
与从 HMM 派生的约束(带)一致,使用带状版本的
Durbin/Holmes 最优精度算法。 这种行为可以通过 --cyk or
- 样本 选项​​。

厘米对齐 特别注意正确对齐截断的序列,其中一些核苷酸
从实际全长生物序列的开头 (5') 和/或结尾 (3') 是
不存在于输入序列中(参见 DL Kolbe 和 SR Eddy, Bioinformatics, 25:1236-1243,
2009)。 默认情况下,此行为处于启用状态,但可以通过以下方式关闭 --notrunc。 在以前的
版本 厘米对齐--sub 需要选项来适当处理截断
序列。 这 --sub 选项在此版本中仍然可用,但新的默认方法
处理截断序列的方法应该与子方法一样好或优于子方法
所有情况。

--马帕里 选项允许包含用于构建的固定训练对齐
来自文件的CM 在输出对齐中 对齐。

可以使用 Easel 合并由同一 CM 创建的两个或多个对齐
小程序 ESL-阿利梅格 (包含在 Infernal 的easel/miniapps/ 子目录中)。 以前的
版本 厘米对齐 包括合并对齐的选项,但它们已被弃用
发展 esl-alimerge, 这显着提高了内存效率。

默认情况下, 厘米对齐 将对齐输出到标准输出。 对齐可以重定向
到输出文件 -o 选项。 和 -o, 每个对齐的信息
序列,包括分数和模型对齐边界将被打印到标准输出(更多
在下面)。

默认情况下,输出对齐将采用斯德哥尔摩格式。 这可以更改为 Pfam,
对齐 FASTA (AFA)、A2M、Clustal 或 Phylip 格式,使用 --输出格式 选项,
哪里 是所需格式的名称。 作为一种特殊情况,如果输出对齐
大(超过 10,000 个序列或超过 10,000,000 个总核苷酸)比
输出格式将为 Pfam 格式,每个序列出现在一行中,对于
内存效率的原因。 对于比这更大的比对,使用 - 我离开了 将迫使
交错的斯德哥尔摩格式,但用户应该意识到这可能需要很多
记忆。 - 我离开了 仅适用于最多 100,000 个序列或 100,000,000 个序列的比对
总核苷酸。

如果输出对齐格式为 Stockholm 或 Pfam,则输出对齐格式为
用后验概率注释,估计每个对齐的置信水平
核苷酸。 此注释显示为以“#=GR”开头的行PP", 每一个
序列,每个紧邻对应的对齐序列“ ”。
PP 行中的字符有 12 个可能的值:“0-9”、“*”或“.”。 如果“.”,位置
对应于序列中的间隙。 值“0”表示后验概率
在 0.0 到 0.05 之间,“1”表示在 0.05 到 0.15 之间,“2”表示在 0.15 到 XNUMX 之间
0.25 等等直到“9”,表示介于 0.85 和 0.95 之间。 “*”值表示
0.95 到 1.0 之间的后验概率。 较高的后验概率对应
更有信心对齐的核苷酸属于它出现在
结盟。 和 --无带, 后验概率的计算考虑了所有
目标序列与 CM 的可能比对。 没有 --无带 (即默认
模式),计算只考虑 HMM 频带内可能的对齐。 更远,
后验概率取决于对齐的截断模式。 为了
例如,如果序列比对被截断 5',则 PP 值“9”表示之间
所有 0.85' 截断比对中的 0.95 和 5 包括在给定位置的给定核苷酸
位置。 可以使用以下命令关闭后部注释 - 没问题 选项。 如果 - 小的
启用后,也必须使用关闭后注释 - 没问题。

打印到标准输出的表格输出,如果 -o 使用的选项包括一行
每个序列和每行十二个字段:“idx”:输入中序列的索引
file, "seq name": 序列名称; “长度”:序列的长度; “厘米从”和
“cm to”:对齐的模型开始和结束位置; "trunc": "no" 如果序列
未被截断,如果序列的开头截断了 5',则为“5'”,如果序列的结尾被截断,则为“3'”
序列被截断,如果开头和结尾都被截断,则为“5'&3'”;
“bit sc”:对齐的比特分数,“avg pp”平均后验概率
比对中的所有比对核苷酸; “band calc”、“alignment”和“total”:时间
以秒为单位计算 HMM 频带、计算对齐并完成
分别处理序列; “mem (Mb)”:所有动态的大小(Mb)
对齐序列所需的编程矩阵。 这个表格数据可以保存
归档 --s文件 选项。

配置


-h 帮助; 打印命令行用法和可用选项的简短提醒。

-o 将斯德哥尔摩格式的路线保存到文件中 . 默认是写
到标准输出。

-g 配置模型以将查询模型全局对齐到目标
序列。 默认情况下,模型配置为局部对齐。 当地的
比对中可以包含称为“局部末端”的大插入和删除
结构将受到与正常 indel 不同的惩罚。 这些被注释为
输出对齐的 RF 行中的“~”列。 这 -g 选项可用于
禁止这些本地端。 这 -g 选项是必需的,如果 --sub 选项也是
用过的。

配置 用于 控制 对准 算法


--optacc
使用 Durbin/Holmes 最佳精度算法对齐序列。 这是
默认。 最佳精度对齐将受到 HMM 频带的约束
加速度除非 --无带 选项已启用。 最佳精度
算法确定最大化后验概率的对齐方式
其中对齐的核苷酸。 使用后验概率确定
(可能是 HMM 带状)内部和外部算法的变体。

--cyk 不要使用 Durbin/Holmes 最佳精度对齐来对齐序列,
而是使用 CYK 算法来确定最佳评分(最大
可能性)序列与模型的对齐,给定 HMM 带(除非
--无带 也启用)。

- 样本
从对齐的后验分布中采样对齐。 后路
分布是使用 HMM 带状确定的(除非 --无带) 的变体
内部算法。

- 种子
用种子随机数生成器 , 一个整数 >= 0。这个选项只能
结合使用 - 样本。 If 非零,随机抽样
对齐将是可重复的; 相同的命令将给出相同的结果。 如果
为0,随机数生成器任意播种,随机
采样可能因同一命令的运行而异。 默认种子为 181。

--notrunc
关闭截断对齐算法。 输入文件中的所有序列都将是
假定为全长,除非 --sub 也使用,在这种情况下,程序可以
仍然处理截断的序列,但将使用替代策略来处理它们
对准。

--sub 打开子模型构建和对齐程序。 对于每个序列,一个
HMM首先用于预测模型开始和结束共识列,新的
sub CM 的构建仅对从头到尾的共识列进行建模。 这
然后将序列与该子 CM 对齐。 子对齐是一种比
默认用于对齐可能被截断的序列。 默认情况下, 厘米对齐
使用特殊的 DP 算法来处理截断的序列,这应该更多
大多数情况下比子方法准确。 --sub 仍然作为一个选项包括在内
主要用于针对此默认截断序列处理进行测试。 这个“子CM”
程序与 Weinberg 和 Ruzzo 描述的“子 CM”不同。

配置 用于 控制 SPEED AND 记忆 参赛要件


--带状
默认情况下启用此选项。 通过修剪区域来加速对齐
HMM 认为可以忽略的 CM DP 矩阵。 首先,每个序列是
使用前向和后向 HMM 从 CM 派生的 CM 计划 9 HMM 评分
计算每个核苷酸与每个核苷酸对齐的后验概率的算法
HMM 的状态。 这些后验概率用于导出约束
(波段)在 CM DP 矩阵上。 最后,目标序列与CM对齐
使用带状DP矩阵,在此期间带外的单元被忽略。
通常大部分完整的 DP 矩阵位于波段之外(通常超过 95%),
使这项技术更快,因为需要更少的 DP 计算,而且更多
内存效率高,因为只需要分配带内的单元格。

重要的是,HMM 分带牺牲了确定最优
准确或最佳对齐,如果它位于带外,则会被遗漏。
tau 参数是被认为可以忽略的概率质量的数量
HMM频段计算; 较低的 tau 值产生更大的加速,但也更大
错过最佳对齐的机会。 默认 tau 为 1E-7,确定
经验上作为灵敏度和速度之间的一个很好的权衡,尽管这个值可以
被改变 --tau 选项。 加速度水平随着
家族的长度和一级序列保守水平。 例如,
使用默认的 tau 1E-7,tRNA 模型(低一级序列保守性与
约 75 个核苷酸的长度)显示约 10 倍的加速,SSU 细菌 rRNA
模型(高一级序列保守性,长度约为 1500 个核苷酸)
显示大约 700X。 可以使用以下命令关闭 HMM 条带 --无带 选项。

--tau
将 HMM 频带计算期间使用的尾部丢失概率设置为 . 这是
HMM 后验概率中的概率质量量是
认为微不足道。 默认值为 1E-7。 一般来说,较高的值将
导致更大的加速度,但增加了错过最佳的机会
由于 HMM 频带对齐。

--mx大小
将最大允许的总 DP 矩阵大小设置为 兆字节。 默认这个
大小为 1028 Mb。 对于绝大多数对齐,这应该足够大,
但是如果不是 厘米对齐 将尝试反复收紧 HMM 频带
用于通过提高 tau 参数并重新计算
带,直到所需的总矩阵大小低于 兆字节或最大值
允许的 tau 值(默认为 0.05,但可以用 --麦克斯陶) 到达了。 在
每次束带收紧迭代,tau 乘以 2.0。 乐队收紧
可以关闭策略 --固定tau 选项。 如果最大 tau 是
达到并且所需的矩阵大小仍然超过 或者如果 HMM 条带不是
正在使用并且所需的矩阵大小超过 然后 厘米对齐 将退出
过早并报告矩阵超过其最大值的错误消息
允许的大小。 在这种情况下, --mx大小 可用于提高大小限制或
最大 tau 可以提高 --maxtau。 通常会超过限制
--无带 选项在没有 - 小的 选项,但仍可能发生
,尤其是 --无带 未使用。 请注意,如果 厘米对齐 正在运行
多核机器上的线程,那么每个线程可能有一个分配的矩阵向上
大小 Mb 在任何给定时间。

--固定tau
关闭解释中描述的 HMM 频带收紧策略
--mx大小 以上选项。

--麦克斯陶
在束带收紧期间设置 tau 的最大允许值,在
的解释 --mx大小 以上,到 . 默认情况下,此值为 0.05。

--无带
关闭 HMM 条带。 返回的对齐方式保证是全局的
最准确的一个(默认情况下)或全局最佳评分的一个(如果 --cyk
已启用)。 这 - 小的 建议与此选项结合使用,
因为没有 HMM 条带的标准对齐需要大量内存(请参阅
- 小的 ).

- 小的
使用 SR Eddy, BMC 中描述的分而治之的 CYK 对齐算法
生物信息学 3:18, 2002。 --无带 选项必须与
这个选项。 此外,建议无论何时 --无带 被用来 - 小的 is
也使用,因为没有 HMM 条带的标准 CM 对齐需要很多
记忆,特别是对于大 RNA。 - 小的 允许在实际中进行 CM 对齐
内存限制,减少对齐 LSU rRNA 所需的内存,最大
已知的 RNA,从 150 Gb 到小于 300 Mb。 此选项只能用于
与...结合 --无带, --notrunc,--cyk。

可选 OUTPUT FILES


--s文件
将每个序列的对齐分数和 timig 信息转储到文件中 . 格式
上面描述了这个文件(它是与表格格式相同的数据
标准输出输出时 -o 选项)。

--t文件
将每个单独序列的表格序列回溯转储到文件中 .
主要用于调试。

--i文件
将每个序列的插入信息转储到文件 . 文件的格式是
由包含在文件顶部的“#”前缀注释行描述 .
插入信息是有效的,即使 --仅匹配 选项被使用。

--el文件
将每个序列的 EL 状态(本地端)插入信息转储到文件 . 格式
文件的顶部由包含“#”前缀的注释行描述
文件 . EL 插入信息即使在 --仅匹配 选项是
用过的。

其他 配置


--马帕里
从文件中读取对齐 用于构建模型将其作为单个对齐
反对CM; 例如对齐 保持固定。 这使您可以
将序列与模型对齐 厘米对齐 并在现有的上下文中查看它们
受信任的多重对齐。 必须是构建 CM 的对齐文件
从。 程序验证文件的校验和是否与文件的校验和匹配
用于构建 CM。 与此类似的选项被称为 --维萨利 in
以前的版本 对齐。

--mapstr
必须结合使用 --马帕里 . 传播结构信息
对于存在于 到输出对齐。 类似的选项
这个被称为 --withstr 在以前的版本中 对齐。

--信息
断言输入 是格式 . 不要运行 Babelfish 格式
自检。 这在一定程度上增加了程序的可靠性,因为
Babelfish 会犯错误; 特别推荐用于无人值守、高
Infernal 的吞吐量运行。 可接受的格式有:FASTA、GENBANK 和 DDBJ。
不区分大小写。

--输出格式
指定输出对齐格式为 . 可接受的格式有:Pfam、AFA、
A2M、Clustal 和 Phylip。 AFA 对齐 fasta。 只有 Pfam 和斯德哥尔摩对齐
格式将包括共识结构注释和后验概率
对齐残基的注释。

--DNA输出
将比对输出为 DNA 序列比对,而不是 RNA 比对。

- 没问题
不要用后验概率注释输出对齐。

--仅匹配
仅在输出对齐中包含匹配列,不包含任何插入
相对于共识模型。 在创建非常大的文件时,此选项可能很有用
需要大量内存和磁盘空间的对齐方式,其中大部分是必需的
仅用于处理在大多数序列中存在间隙的插入列。

- 我离开了
以固定宽度的交错斯德哥尔摩格式输出对齐,可能是
考试更方便。 这是默认的输出对齐格式
以前的版本 对齐。 需要注意的是 厘米对齐 需要更多内存时
选项被使用。 为此原因, - 我离开了 仅适用于最多对齐
100,000 个序列或总共 100,000,000 个比对的核苷酸。

- 回归
将没有作者信息的输出对齐的附加副本保存到文件
.

--详细
在表格分数输出中输出附加信息(如果 -o
用于,或 if --s文件 用来)。 这些主要用于测试和
调试。

- 中央处理器
指定 使用并行 CPU 工作者。 如果 设置为“0”,则
程序将以串行模式运行,不使用线程。 你也可以控制
这个数字通过设置环境变量, INFERNAL_NCPU。 此选项将
仅当构建 Infernal 的机器能够使用时才可用
POSIX 线程(有关更多信息,请参阅用户指南的安装部分)
信息)。

--mpi 作为 MPI 并行程序运行。 此选项仅在 Infernal 具有
已使用“--enable-mpi”标志进行配置和构建(请参阅安装
有关详细信息,请参阅用户指南的部分)。

使用 onworks.net 服务在线使用 cmalign


免费服务器和工作站

下载 Windows 和 Linux 应用程序

  • 1
    Alt-F
    Alt-F
    Alt-F 提供了一个免费和开源的
    DLINK 的替代固件
    DNS-320/320L/321/323/325/327L and
    DNR-322L。 Alt-F 有 Samba 和 NFS;
    支持ext2/3/4...
    下载 Alt-F
  • 2
    usm
    usm
    usm 是一个统一的 slackware 包
    处理自动的经理
    依赖解决。 它统一了
    各种软件包存储库,包括
    slackware、slacky、p...
    下载usm
  • 3
    chart.js之
    chart.js之
    Chart.js 是一个 Javascript 库,它
    允许设计师和开发人员绘制
    使用HTML5的各种图表
    画布元素。 Chart js 提供了一个很好的
    大批 ...
    下载 Chart.js
  • 4
    用于JasperReports的iReport-Designer
    用于JasperReports的iReport-Designer
    注意:iReport/Jaspersoft Studio 支持
    公告:从 5.5.0 版开始,
    Jaspersoft Studio 将成为官方
    JasperReports 的设计客户端。 iReport
    将...
    下载 JasperReports 的 iReport-Designer
  • 5
    安装后F
    安装后F
    PostInstallerF 将安装所有
    Fedora Linux 和其他软件
    默认不包括,之后
    第一次运行 Fedora。 它的
    容易...
    下载 PostInstallerF
  • 6
    痕迹
    痕迹
    strace 项目已移至
    https://strace.io. strace is a
    诊断、调试和指导
    Linux 的用户空间跟踪器。 它被使用
    监控一个...
    下载跟踪
  • 更多 ”

Linux 命令

Ad