这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 transterm,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
transterm - 在细菌基因组中查找与 rho 无关的转录终止子。
概要
transterm -p expterm.dat seq.fasta annotation.ptt > output.tt
商品描述
可以列出任意数量的 fasta 和注释文件,但 fasta 文件应该排在前面
注释文件。 文件类型由扩展名决定:
.ptt 一个 GenBank ptt 注释文件
.coords 或 .crd 一个简单的注释文件
.coords 或 .crd 文件的每一行都具有以下格式:
基因名称开始结束 chrom_id
chrom_id 指定注释应该应用于哪个序列。 对于 .ptt 文件,
chrom_id 被视为删除了路径和扩展名的文件名。 一个文件名
任何其他扩展名都被假定为 fasta 文件。
处理id = ID的染色体注解时,'>'的第一个单词
在输入序列的行中搜索 ID。 因为没有好的标准
'>' 行是如何格式化的,尝试了几种启发式方法在 '>' 行中查找 ID。 在
尝试的顺序,它们是:
>身份证
>垃圾|cmr:ID|垃圾或垃圾|ID|垃圾
>junk|gi|ID|junk 或 >junk|gi|ID.junk|junk
>垃圾:身份证
选项“-p expterm.dat”使用最新的置信方案,其中 expterm.dat 是
TransTermHP 提供的同名文件的路径。 如果省略“-p expterm.dat”,
使用版本 1.0 置信度方案。 有关更多信息,请参阅“命令行选项”部分
详情。
FORMAT OF “ 传输 OUTPUT
生物体的基因按其末端坐标排序并输出终止符
它们之间。 终结符条目如下所示:
学期 19 15310 - 15327 - F 99 -12.7 -4.0 |比迪尔
(名称)(开始 - 结束)(意义)(loc)(conf)(hp)(尾巴)(注释)
其中“conf”是总体置信度分数,“hp”是发夹分数,“tail”是
尾分数。 'Conf'(范围从 0 到 100)是您可能想用来评估的
终结者的品质。 越高越好。 置信度、hp 分数和 tail 分数
在上面引用的论文中进行了描述。 'Loc' 给出终止符所在的区域类型:
'G' = 在基因内部(距末端至少 50bp),
'F' = 两个 + 链基因之间,
'R' = 两条链基因之间,
'T' =在+链基因和-链基因的末端之间,
'H' = 在 + 链基因和 - 链基因的开始之间,
'N' = 以上都不是(对于 DNA 的开始和结束)
由于重叠基因的处理方式,这些名称并不是唯一的。 'G',
'F' 或 'R' 也可以小写,表示终止符在
与区域相反的链。 除非给出 --all-context 选项,否则只有候选
输出似乎在适当的基因组上下文(例如 T、F、R)中的终止子。
TERM 线后面是发夹和 5' 和 3' 尾巴的序列,总是
写成 5' 到 3'。
传输 指挥 LINE 配置
您还可以设置必须考虑的发夹大小:
--min-stem=n 词干必须是 n 个核苷酸长
--min-loop=n 发夹的循环部分必须至少有 n 长
您还可以设置将找到的发夹的最大尺寸:
--max-len=n 发夹的总长度 <= n NT long
--max-loop=n 循环部分不能超过n
最大长度是发夹部分的总长度(2 个茎,1 个环)并且不
不包括 U 型尾。 它以输入序列中的核苷酸来衡量,所以因为
间隙,实际结构可能比 max-len 长。 Max-len 必须小于
编译的常量 REALLY_MAX_UP(默认为 1000)。 为了增加规模
增加这个常数后发现的结构重新编译。
TransTermHP 为潜在终结者的发夹部分和尾部部分分配一个分数。
较低的分数被认为更好。 许多用于评分发夹的常数可以是
从命令行设置:
--gc=f GC 对的分数
--au=f AU对的分数
--gu=f GU 对的分数
--mm=f 任何其他对的分数
--gap=f 发夹间隙的分数
可以使用以下方法设置各种长度循环的成本:
--loop-penalty=f1,f2,f3,f4,f5,...fn
其中 f1 是长度为 --min-loop 的循环的成本,f2 是长度为循环的成本
--min-loop+1,以此类推。 如果项太少无法覆盖最大循环,则最后一项
重复。 因此 --loop-penalty=0,2 会将成本 0 分配给任何长度为 min-loop 的循环,
和 2 到任何更长的循环(直到最大循环,之后更长的循环被赋予无限
分数)。 额外的术语被忽略。
请注意,如果您使用 --pval-conf 置信度方案(见下文),您必须
如果更改上述任何常量,请重新生成 expterm.dat 文件。
要清除任何尾部或发夹分数过大的潜在终结者,您
可以使用以下选项:
--max-hp-score=f 最大允许发夹分数
--max-tail-score=f 最大允许尾部分数
终结者发夹必须与“富含 U”的区域相邻。 您可以调整常数
定义什么构成了富含 U 的区域。 使用选项:
--uwin-大小=s
--uwin-需要=r
要求在 s 核苷酸长窗口中至少有 r 个“U”核苷酸
与发夹相邻。 同样,如果你改变这些常量,你应该重新生成
expterms.dat。
在主输出之前,TransTermHP 会将上述选项的值输出到一个
适合在命令行上使用的格式。
除了尾部和发夹分数之外,每个可能的终结者都被分配了一个
置信度 --- 0 到 100 之间的值,表示序列
是终结者。 评分方案需要一个背景文件(随 TransTermHP 提供)
使用以下方法指定:
--pval-conf expterms.dat
这将使用文件 expterms.dat 中的分发作为背景。 (你可以
将其缩写为“-p expterms.dat”。)虽然提供的 expterms.dat 文件是派生的
从随机序列中,任何背景分布都可以通过提供您自己的
expterms.dat 文件。 有关 expterms.dat 的格式,请参见下文。 expterms.dat 中的值
取决于评分常数、富含 u 的区域的定义以及允许的最大值
尾巴和 hp 分数。 因此,如果您使用上述选项更改这些常量中的任何一个,
你应该重新生成 expterms.dat。
TransTermHP 的主要输出是一个终结符列表,它们交错在一个列表之间
作为输入提供的基因注释。 这个输出可以定制几个
方法:
-S 不输出终止符序列
--min-conf=n 只输出置信度 >= n 的终止符(可以
将其缩写为-cn; 默认值为 76。)
可以使用以下选项获得额外的分析输出:
--bag-output file.bag 输出基因后最好的终结者
--t2t-perf file.t2t 输出哪些tail-to-tail区域的摘要
有好的终结者
重新校准 使用 不同 有无库存
如上所述,如果您更改任何基本评分函数和搜索参数
并且正在使用 2.0 版置信度方案(推荐)然后您必须重新计算
expterm.dat 文件中的值。 如果你安装了 python,这很容易(虽然
也许很费时间)。 您可以发出以下命令:
%calibrate.sh newexpterms.dat [传输选项]
其中“[OPTIONS TO TRANSTERM]”是 TransTermHP 选项(上面讨论过),用于设置
参数到你想要的。 在calibrate.sh 完成后,newexpterms.dat 将
位于当前目录中,并且在使用相同的目录时可以作为 -p 的参数
您传递给calibrate.sh的参数。
请注意,要使 newexpterms.dat 有效,您必须提供相同的基本参数
在后续运行中传输到 TransTermHP。 TransTerm(或 newexpterms.dat)不会记住这些
参数给你。 处理这个问题的最好方法是制作一个 shell 脚本包装器
transterm 总是传入你的新参数。
输出格式参数不需要重新生成 expterms.dat --- 见讨论
以上参数 expterm.dat 取决于。
可以在 /usr/share/doc/transtermhp/examples 目录中找到校准.sh。
FORMAT OF “ EXTERMS.DAT 文件
'pval-conf' 置信度方案,使用选项“--pval-conf expterms.dat”(或
'-p expterms.dat') 计算具有 HP 能量 E 和尾部的终止符的置信度
能量 T 如下。 首先,HP能量和尾能量的范围是均匀的
划分成 bin,并为 E 和 T 找到合适的 bin e 和 t。然后
置信度的计算如 [2] 中所述。
expterms.dat 的第一行包含 6 个数字:
序列号 num_bins
(low_hp, high_hp) 和 (low_tail, high_tail) 范围给出了发夹和
尾分数。 整数 num_bins 给出了相同大小的 bins 的数量,这些 bins
范围被划分。 Seqlen 给出了随机序列的长度
在文件的其余部分生成数据。
此行后面是任意数量的 (at, R, M) 三元组,其中“at”是 AT 内容,R
是一个 4 元组 (low_hp, high_hp, low_tail, high_tail),给出了 HP 和 tail 的范围
在这个 AT 内容的随机序列中观察到的分数,M 是分布矩阵。
这些 (at, R, M) 三元组的格式如下:
在 low_hp high_hp low_tail high_tail
n11 n12 n13 n14 ... n1,num_bins
n21 ...
...
n_num_bins,1 ...
mu_r(e,t) 项是通过选择具有最接近于
计算区域 r 的 %AT。 如果区域 r 序列的总长度为 L_r,则
mu_r(e,t) = n_t_e * L_r/seqlen
其中 n_t_e 是所选矩阵的第 t 行和第 e 列中的条目,并且
seqlen 是文件第一行的第一个数字。
使用 onworks.net 服务在线使用 transterm
