这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 exonerate,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
exonerate - 用于序列比较的通用工具
概要
开脱 [ 选项 ] <查询 路径> <目标 路径>
商品描述
开脱 是序列比较的通用工具。
它使用 C4 动态规划库。 它被设计为既通用又快速。
它可以产生有间隙或无间隙的对齐,根据各种不同的
对齐模型。 C4 库允许使用减少的空间进行序列比对
动态编程实现,但也允许自动生成启发式
从对齐模型中,使用有界稀疏动态规划,使这些
对齐也可以快速生成。 使用这些启发式生成的对齐方式
将代表通过对齐模型的有效路径,但(不同于详尽的
对齐),结果不能保证是最佳的。
公约
在 exonerate 中使用了许多惯例(和特质)。 一种理解
其中有利于解释输出。
坐标
使用中间坐标系,其中位置在
符号,而不是符号。 此编号方案从零开始。
下面显示了序列“ACGT”的编号:
ACGT
0 1 2 3 4
因此子序列“CG”将具有 start=1、end=3 和 length=2。 这个
坐标系在内部用于 exonerate,并用于所有输出格式
除了“人类可读”对齐显示和 GFF
公约和标准另有规定的输出。
逆转 互补
当在序列的反向互补上报告比对时,
坐标只是在序列的反向互补副本上给出。 因此
序列上的位置永远不会为负。 通常,正向链是
用“+”表示,反向链用“-”表示,以及未知或不适用的
链(如在蛋白质序列的情况下)用“.”表示。
对准 樂譜
目前,仅显示原始对齐分数。 这个分数只是总和
动态规划中使用的转换分数。 例如,在这种情况下
史密斯-沃特曼对齐,这将是替代矩阵分数的总和
和差距处罚。
一般 配置
大多数论点都有长短两种形式。 长表格
随着时间的推移更可能稳定,因此应该在脚本中使用
称无罪。
-h | --简短的帮助
显示帮助。 这将显示可用选项的简明摘要,默认值
和当前设置的值。
- 帮帮我
这将显示所有帮助选项,包括默认值、当前设置的值、
以及可用于设置每个参数的环境变量。 这里将
指示哪些选项是强制性的。 强制选项没有
默认值,并且必须提供一个值供 exonerate 运行。 如果强制选项
按顺序使用,它们的标志可以从命令行跳过(参见示例
以下)。 与此手册页不同,此选项中的信息将始终存在
最新版本的程序。
-v | - 版
显示版本号。 还显示其他信息,例如构建日期
和使用的 glib 版本。
顺序 INPUT 配置
将在所有查询序列和所有目标之间执行成对比较
序列。 通常,为了获得最佳性能,较短的序列(例如 EST、shotgun
读取、蛋白质)应用作查询序列,更长的序列(例如基因组
序列)应用作目标序列。
-q | - 询问
指定所需的查询序列。 这些文件必须是 FASTA 格式的文件。
可以提供单个或多个查询序列。 另外多份
可以在 --query 标志之后提供 fasta 文件,或者使用 with
多个 --query 标志。
-t | - 目标
指定所需的目标序列。 此外,必须是 FASTA 格式的文件。 作为
对于查询序列,可以是单个或多个目标序列和文件
提供。 新: 目标文件名可以替换为服务器名称和端口号
的形式 主机名:端口 使用时 免责服务器。 参见手册页
免责服务器 有关在客户端:服务器模式下运行 exonerate 的更多信息。
-Q | --查询类型 <DNA | 蛋白质>
指定要使用的查询类型。 如果未提供,则假定查询类型
当文件中的第一个序列包含超过 85% [ACGTN] 碱基时,即为 DNA。
否则,它被假定为肽。 此选项强制查询类型为某些
核苷酸和肽序列可能落在该阈值的任一侧。
-T | --目标类型 <DNA | 蛋白质>
指定要使用的目标类型。 一样 --查询类型 (上),除了它
适用于目标。 指定序列类型将避免开销
必须两次读取数据库中的第一个序列(这可能很重要
具有染色体大小的序列)
--querychunkid
--querychunktotal
--targetchunkid
--目标块总数
这些选项有助于在计算场上运行免责,并避免不得不
将序列数据库分成小块以在不同的节点上运行。 如果,对于
例如,您希望将目标数据库分成三部分,您可以运行
三个不同节点上的工作免责,包括选项:
--targetchunkid 1 --targetchunktotal 3
--targetchunkid 2 --targetchunktotal 3
--targetchunkid 3 --targetchunktotal 3
注意。 此选项提供的粒度仅下降到单个序列,因此
当数据库中的块多于序列时,某些进程会这样做
什么都没有。
-V | --详细
详细 - 显示有关分析过程中发生的事情的信息。 这
默认为 1(很少的信息),给出的数字越大,越多
信息被打印。 要使 exonerate 的所有默认输出静音,请使用
--verbose 0 --showalignment 否 --showvulgar 否
分析 配置
-E | --详尽无遗
指定是否应使用穷举对齐。 默认情况下,这是
FALSE,将使用对齐试探法。 如果它被设置为 TRUE,一个详尽的
将计算对齐。 这需要二次时间,而且会很多很多
较慢,但将为给定模型提供最佳结果。
-B | --bigseq
执行大型(多兆碱基)序列的比对。 这是非常记忆
当两个序列都是染色体大小时有效且快速,但目前没有
目前允许使用词邻域(即仅完全匹配的种子)。
--强制扫描 <无 | 询问 | 目标>
强制 FSM 扫描查询序列而不是目标。 这个选项是
有用,例如,如果您有一个基因组序列并且您要
将其与整个 dbEST 进行比较。 通过扫描数据库,而不是查询,
分析将更快完成,因为多个
查询 FSM 构建,多目标读取和拼接位点预测
移除。 默认情况下,exonerate会根据数据库猜测最优策略
序列大小。
--饱和阈值
当设置为零时,此选项不执行任何操作。 否则,一次超过这个数
的单词(除了偶然的预期单词数)匹配
查询上的位置,查询上的位置将被“麻木”(进一步忽略
匹配)用于当前的成对比较。
--自定义服务器
新: 在客户端:服务器模式下使用 exonerate 与非标准服务器时,这
命令允许您向服务器发送自定义命令。 该命令由
客户端(免除)在任何其他命令之前,并作为一种方式提供
传递特定于自定义服务器的参数或其他命令。 见
免责服务器 有关运行 exonerate 的更多信息的手册页
客户端:服务器模式。
FASTA 数据库 配置
--fast后缀
如果任何输入给出 - 询问 or - 目标 是目录,然后免除
将递归下降这些目录,读取所有以此结尾的文件
后缀为fasta格式输入。
缺口 对准 配置
-m | - 模型 <对齐方式 型号>
指定要使用的对齐模型。 目前支持的机型有:
无间隙的
最简单的模型类型,默认使用。 一个合适的模型
为提供的输入序列类型自动选择。
无间隙:反式
这个无间隙模型包括查询和查询的所有帧的翻译
目标序列。 这类似于无间隙的 tblastx 类型搜索。
仿射:全球
这执行间隙全局对齐,类似于 Needleman-Wunsch
算法,除了仿射间隙。 全球对齐要求
整个序列都包含在比对中。
仿射:最适合
这会执行查询的最佳拟合或最佳位置对齐到
目标序列。 整个查询序列将包含在
对齐,但只有在目标上对齐的最佳位置
序列。
仿射:本地
这是与仿射间隙的局部对齐,类似于 Smith-Waterman-
哥托算法。 通用对齐算法。 因为这是本地的
比对,查询和目标序列的任何子序列都可能出现在
对齐。
仿射:重叠
这种类型的对齐会找到查询和目标之间的最佳重叠。
重叠对齐必须包括查询或目标的开始以及
查询或目标序列的末尾,以对齐重叠的序列
末端,或在较长序列的中间部分.. 这是类型
装配算法中经常使用的对齐方式。
est2基因组
该模型类似于 affine:local 模型,但它还包括内含子
对目标序列进行建模以允许拼接到未拼接的对齐
正向和反向基因的编码序列。 这类似于
EST_GENOME 和 sim4 等程序中使用的对齐模型。
NER NER 是非等效区域 - 查询和查询中的大区域
未对齐的目标。 该模型可用于蛋白质比对
其中高度保守的螺旋区域将对齐,但弱保守
循环区域不是。 同样,该模型可用于寻找共同
基因组序列比较中的线性保守区域。
蛋白质2dna
该模型将蛋白质序列与 DNA 序列进行比较,将所有
适当的间隙和移码。
蛋白质2dna:最佳拟合
新: 这是 protein2dna 模型的最佳拟合版本,其中
整个蛋白质包括在比对中。 它目前仅可用
使用穷举对齐时。
蛋白质2基因组
该模型允许将蛋白质序列与基因组 DNA 进行比对。 这是
类似于 protein2dna 模型,增加了内含子的建模
和内含子相。 该模型类似于genewise使用的模型。
蛋白质2基因组:最佳拟合
新: 这是 protein2genome 模型的最佳拟合版本,其中
整个蛋白质包括在比对中。 它目前仅可用
使用穷举对齐时。
编码2编码
该模型类似于 ungapped:trans 模型,除了间隙和
允许移码。 它类似于有间隙的 tblastx 搜索。
编码2基因组
这类似于 est2genome 模型,除了查询序列是
在比较期间翻译,允许更敏感的比较。
cdna2基因组
这结合了 est2genome 和 coding2genome 模型的特性,以
允许对中央编码区位于两侧的整个 cDNA 进行建模
通过非编码 UTR。 当 CDS 开始和结束已知时,可以指定它
使用 --annotation 选项(见下文)只允许正确的编码
出现在对齐中的区域。
基因组2基因组
这个模型类似于coding2coding模型,除了内含子是
以两个序列为模型。 (还不能很好地工作)
简称 u, u:t, a:g, a:b, a:l, a:o, e2g, ner,
p2d, p2d:b p2g, p2g:b, c2c, c2g cd2g 和 g2g 也可用于指定
楷模。
-s | - 分数
这是总分阈值。 对齐将不会在此下方报告
临界点。 对于启发式对齐,此阈值越高,时间越短
分析将采取。
- 百分
仅报告得分至少占最大得分百分比的比对
每个查询。 例如。 用 - 百分 90 报告与最大值的 90% 的对齐
可以为该查询选择的分数。 此选项很有用,不仅因为它减少了
输出中的虚假匹配,但因为它生成特定于查询的
阈值(不像 - 分数 ) 用于一组不同长度的查询,并且将
也大大加快了搜索速度。 NB。 使用此选项,可以
有一个 cDNA 与其对应的基因完全匹配,但仍低于 100%,
由于增加了内含子惩罚分数,因此必须使用此选项
慎用。
--显示对齐
以人类可读的形式显示比对。
--showsugar
显示无间隙对齐的“糖”输出。 糖是简单的无间隙对齐
报告,每行显示一个无间隙对齐。 糖线开始
带有字符串“sugar:”以便于从输出中提取,后跟
以下 9 个字段按以下顺序排列:
查询 ID 查询标识符
查询开始 查询对齐开始时的位置
查询结束 查询位置对齐结束
查询链 匹配的查询链
目标 ID |
目标_开始 | 相同的 4 个字段
目标_结束 | 对于目标序列
目标链 |
得分了 原始对齐分数
--展示雪茄
以“雪茄”格式显示对齐方式。 雪茄是一种紧凑的特殊间隙
对齐报告,每行显示一个有间隙的对齐。 格式开始
具有与糖输出相同的 9 个字段(见上文),然后是一系列
其中操作是匹配、插入或删除之一的对,以及
长度描述了此操作重复的次数。
--低俗
以“粗俗”格式显示对齐方式。 粗俗是冗长有用的标记有缺口的
对齐报告,此格式也以与糖输出相同的 9 个字段开头
(见上文),然后是一系列
三胞胎。 标签可能是以下之一:
M 匹配
C 密码子
G 间隙
N 非等效区域
5 5' 拼接点
3 3' 拼接点
I 内含子
S 分裂密码子
F 移码
--showquerygff
报告查询序列上特征的 GFF 输出。 看
http://www.sanger.ac.uk/Software/formats/GFF 获取更多信息。
--showtargetgff
报告目标序列上特征的 GFF 输出。
--ryo
滚动您自己的输出格式。 这允许指定 printf 式格式
用于指定要在输出中包含哪些信息以及如何包含的行
这是要展示的。 格式字段可能包含以下字段:
%[qt][idlsSt]
对于任一 {query,target},报告
{id,definition,length,sequence,Strand,type} 序列报告在一个
fasta 格式的块(无标题)。
%[qt]a[贝尔]
对于发生的任一 {query,target} 区域 in 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 结盟, 报告
{开始,结束,长度,序列}
%[qt]c[贝尔]
对于出现在 编码 序列 ,在
对齐,报告 {begin,end,length,sequence}
%s 原始分数
%r 排名(在来自最佳搜索的结果中)
%m 型号名称
%e[主义]
等效 {total,id,similarity,mismatches}(即 %em == (%et - %ei))
%p[是] 对齐的等效部分的百分比 {id,similarity}。
(即 %pi == 100*(%ei / %et))
%g 基因方向('+' = 正向,'-' = 反向,'.' = 未知)
%S 糖块(糖输出中使用的 9 个字段(见上文)
%C 雪茄块(糖部分后的雪茄线区域)
%V 粗俗块(糖部分之后的粗俗线的领域)
%% 扩展为百分号 (%)
\n 新队
\t 制表
\\ 扩展为反斜杠 (\)
\{ 开大括号
\} 关闭大括号
{ 开始每个转换输出部分
} 结束每个转换输出部分
%P[qt][萨贝]
{query,target} {sequence,advance,begin,end} 的每个转换输出
%P[nsl]
{name,score,label} 的每个转换输出
此选项非常有用且灵活。 例如,要报告查询的所有部分
以 fasta 格式进行比对的序列,使用:
--ryo ">%qi %qd\n%qas\n"
要输出对齐中的所有符号和分数,请尝试以下操作:
--ryo "%V{%Pqs %分 %Ps\n}"
-n | --最好的
为每个查询报告最好的 N 个结果。 (只有成绩比
分数阈值
会被举报) 该选项减少了生成的输出量,并且
允许 exonerate 加快搜索速度。
-S | --subopt
此选项允许报告(Waterman-Eggert 风格)次优
对齐。 (默认情况下打开。)所有次优(即不相交)
将报告每对序列的比对至少得分
阈值由 - 分数。
当此选项与穷举对齐一起使用时,几个完整的二次时间
需要pass,所以运行时间会大大增加。
-g | --间隙扩展
导致执行间隙扩展阶段,即。 应用动态规划
在 HSP 种子周围的任意形状和动态大小的区域中。 这
扩展阈值由 --extensionthreshold 选项控制。
虽然有时比 BSDP 慢,但间隙扩展提高了灵敏度
弱的、富含间隙的比对,例如在跨物种比较期间。
NB。 本篇 选项 is 现在 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 默认。 选择 it 至 false 反转到旧的 BSDP 类型
对齐。 对于某些大型分析,此选项可能比 BSDP 慢
简单的对齐模型。
--细化
强制免责以使用动态优化启发式生成的对齐
在更大的区域进行编程。 这需要更多时间,但提高了质量
最后的对齐。
可用于细化的策略是:
没有 默认 - 不使用细化。
, 穷举比对是从它们的序列对中计算出来的
整体。
地区 DP 仅应用于启发式算法覆盖的序列区域
对准。
--细化边界
指定一个额外的边界要包含在受对齐约束的区域中
按地区细化。
维特比 算法 配置
-D | --dp内存
详尽的对齐回溯例程使用 Hughey 风格的减少内存
技术。 此选项指定将为此使用多少内存。
一般来说,这里允许的内存越多,对齐的速度就越快
生产的。
守则 代 配置
-C | --编译
此选项允许禁用动态编程生成的代码。 这是
主要用于免责的发展过程中。 当设置为 FALSE 时,“解释”
使用了动态编程实现的版本,速度要慢得多。
启发式 配置
--terminalrangeint
--terminalrangeext
--joinrangeint
--加入范围扩展
--spanrangeint
--spanrangeext
这些选项用于指定 DP 到的子对齐区域的大小
应用于 HSP 的末端。 这可以在 HSP 末端(终端
范围)、HSP 之间(连接范围)或 HSP 之间
大区域,例如内含子或非等效区域(跨度范围)。 这些
可以为 HSP 上的多个匹配指定范围(内部范围)
或从 HSP(外部范围)输出。
使用 onworks.net 服务在线使用 exonerate
