GoGPT Best VPN GoSearch

OnWorks 网站图标

sim4 - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 sim4

这是可以使用我们的多个免费在线工作站之一(例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器)在 OnWorks 免费托管服务提供商中运行的命令 sim4

程序:

您的姓名


sim4 - 将表达的 DNA 序列与基因组序列进行比对

概要


sim4 序列文件1 序列文件2 {[WXKCRDAPNB]=折扣值}

商品描述


sim4 是一种基于相似性的工具,用于比对表达的 DNA 序列(EST、cDNA、mRNA)
带有该基因的基因组序列。 当两个输入时,它还检测结束匹配
序列在一端重叠(即,一个序列的开头与序列的结尾重叠
其他)。 如果 序列文件2 是一个序列数据库,其中的序列 序列文件1 将对齐
中的每个序列 序列文件2.

sim4 采用基于blast的技术首先确定基本匹配块
代表“外显子核心”。 在第一阶段,它检测所有可能的完全匹配
两个序列之间的 W-mers(即大小为 W 的 DNA 词)并将它们扩展到
最大得分无间隙段。 在第二阶段,外显子核心扩展到
使用贪婪比对算法和启发式算法对相邻的尚未匹配的片段
用于支持符合剪接位点识别信号(GT-
AG,CT-AC)。 如有必要,可使用不太严格的参数重复该过程
不匹配的片段。

默认情况下, sim4 搜索两条链并报告最佳匹配,按数字衡量
在比对中发现的匹配核苷酸。 R 命令行选项可用于
将搜索限制在一个方向(链)。

目前,支持五种主要的对齐显示选项,由 A 选项控制。
默认情况下 (A=0),只有内含子的端点、整体相似性和方向
被报道。 箭头符号(`->' 或 `<-')表示内含子的方向(`+' 或
`-' 链),当内含子两侧的信号有三个或更多位置匹配时
GT-AG 或 CT-AC 接头识别信号。 当匹配数相同时
在两个方向都找到了,内含子被报告为不明确的,并表示为
'--'。 符号“==”表示从 cDNA 片段开始的比对中不存在
那个位置。 替代格式(lav-block 格式、文本、PipMaker 类型的“外显子文件”,或
这些选项的某些组合)可以通过指定不同的值来请求
为一个。

如果 P 选项指定为非零值, sim4 将删除任何 3'-end poly-A
它在对齐中检测到的尾部。

偶尔, sim4 当被非常大的内含子包围时,可能会错过一个内部外显子,
通常长于 100 Kb。 当怀疑这个时,可以使用H选项来重置
外显子的权重以补偿内含子间隙惩罚。

序列数据中默认允许使用歧义代码,但 sim4 对待他们非
差别地。 如果需要,B 命令选项可以限制可接受的集合
字符到 A、C、G、T、N 和 X。

sim4 比较输入序列的长度以区分 cDNA(“短”)
以及比较中的基因组(“long”)成分。 什么时候 序列文件2 包含一个集合
的序列,文件中的第一个条目将用于确定此和
所有后续的比较。

在下面的描述中,术语 MSP 表示 M轴向的 S节段 P空气,也就是一对
两个序列中高度相似的片段,是在类似爆炸的过程中获得的
扩展 W-mer 匹配和可能的一些不匹配。

配置


算法参数(包含在下面的前两节中)已经
调谐,通常不需要用户调整。

类似爆炸程序的内部参数:

W 在算法的第一阶段设置爆炸命中的字长。 默认的
值为 12,但可以增加以进行更严格的搜索或减少到
找到较弱的匹配。

X 控制在类似爆炸的阶段中终止单词扩展的限制
算法。 默认值为 12。

K 在确定基本的“外显子核心”时设置 MSP 分数的阈值,
在算法的第一阶段。 (如果未指定此选项,则
阈值是根据序列的长度计算的,使用统计
标准。)例如,基因组序列在几个范围内的良好价值
16 Kb 是 XNUMX。然而,为了避免虚假匹配,可能需要更大的值
对于更长的序列。

C 在对齐尚未匹配的片段时设置 MSP 分数的阈值,
在算法的第二阶段。 默认情况下,较小的常量
12 并选择基于统计的阈值。

附加算法参数:

D 设置外显子中连续 MSP 内“对角线”距离的界限。 这
默认值为 10。

上下文参数:

R 指定搜索的方向。 如果 R=0,则只有“+”(直接)链是
搜索。 如果 R=1,则只寻找“-”(反向补码)匹配。 默认情况下
(R=2),sim4 搜索两条链并报告最佳匹配,由
比对中匹配对的数量。

A 指定输出的格式:仅外显子端点 (A=0)、外显子端点和
基因组序列中编码区 (CDS) 的边界,当指定为
输入 mRNA (A=5), 对齐文本 (A=1), lav-block 格式的对齐 (A=2), 或
外显子端点和对齐文本(A=3 或 A=4)。 如果反向补码匹配
发现,A=0,1,2,3,5 将给出它在较长的“+”链中的位置
序列和较短序列的“-”链。 A=4 将给出它的位置
第一个序列 (seqfile1) 的“+”链和第二个序列的“-”链
序列(seqfile2),无论哪个序列更长。 A=5 选项可以是
与 S 命令行选项一起使用以指定 CDS 的端点
mRNA,并以 PipMaker 所需的“外显子文件”格式生成输出。

P 指定程序是否应该报告比对的片段
包含 poly-A 尾巴(如果找到)。 默认情况下 (P=0) 显示对齐方式
如计算,但指定一个非零值将要求 sim4 删除 poly-A
尾巴。 启用此功能后,所有显示选项都会产生额外的 lav
对齐标题。

H 重置 MSP 的权重以补偿非常大的内含子。 默认值为
H=500,但一些大于 100 Kb 的内含子可能需要更高的值,通常
在 1000 到 2500 之间。这个选项应该谨慎使用,一般情况下
其中 cDNA 不匹配的内部部分可能会掩盖一个缺失的外显子
非常大的内含子。 不推荐用于 EST,因为它们可能会产生虚假的
外显子。

N 请求额外搜索由剪接引导的小边缘外显子 (N=1) -
站点识别信号。 当高精度匹配时可以使用此选项
预期的。 默认值为 N=0,指定不进行额外搜索。

B 控制输入​​序列中允许的字符集。 默认情况下 (B=1),
允许使用歧义字符 (ABCDGHKMNRSTVWXY)。 通过指定 B=0,集合
可接受的字符仅限于 A、C、G、T、N 和 X。

S 允许用户在输入 mRNA 中指定 CDS 的端点,使用
语法:S=n1..n2。 此选项仅适用于 A=5 标志,它产生
以 PipMaker 要求的格式输出。 或者,CDS 坐标可以
出现在 mRNA 序列的 FastA 标头中的构建体 CDS=n1..n2 中。 当。。。的时候
第二个文件是 mRNA 数据库,CDS 的命令行规范将
仅适用于文件中的第一个序列。

示例


sim4 est基​​因组

sim4基因组estdb

sim4 est 基因组 A=1 P=1

sim4 est1 est2 R=1

sim4 mRNA 基因组 A=5 S=123..1020

sim4 mouse_cDNA human_genomic K=15 C=11 A=3 W=10

作者


sim4 由 Liliana Florea 编写[email protected]> 和斯科特·施瓦茨。

本手册页由 Nelson A. de Oliveira 编写[email protected]>,基于
在线文档位于 http://globin.cse.psu.edu/html/docs/sim4.html, 对于 Debian
项目(但可能被其他人使用)。

03年2005月18日,星期三40:58:0300 -XNUMX SIM4(1)

使用 onworks.net 服务在线使用 sim4


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。