GoGPT Best VPN GoSearch

OnWorks 网站图标

dnaclust - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线仿真器或 MAC OS 在线仿真器在 OnWorks 免费托管服务提供商中运行 dnaclust

这是可以在 OnWorks 免费托管服务提供商中使用我们的多个免费在线工作站之一运行的命令 dnaclust,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


dnaclust - 对大量短 DNA 序列进行聚类的程序

概要


脱氧核糖核酸 {-i | - 输入} 入档 [{-s | - 相似} 门槛]
[{-m | --多重对齐}] [{-d | --标题}] [{-l | --允许留有间隙}]
[{-k | --k-mer-长度} 长度] [{-a | --近似过滤器}] [--no-k-mer-过滤器]

脱氧核糖核酸 [{-h | - 帮帮我} | {-v | - 版}]

商品描述


本手册页简要记录了 脱氧核糖核酸 程序。

脱氧核糖核酸 是一种用于聚类大量短 DNA 序列的工具。 集群是
以每个簇的“半径”不超过指定的方式创建
阈。

要聚类的输入序列应采用 Fasta 格式。 每个序列的id是
基于 Fasta 格式中序列的第一个单词。 第一个词是前缀
直到标题中第一次出现空白字符。 这
输出写入 STDOUT。 如果要将输出写入文件,只需重定向
输出(参见示例)。

输出有两种模式:默认的聚类模式,和多个聚类
序列比对。 在聚类模式下(没有多重对齐),每个聚类都会
打印在单独的行上。 该行将包含序列的 ID
簇。 每行的第一个 id 是聚类中心序列 id。 因为路
我们的簇被构建,簇中心序列的长度总是更大
大于或等于簇中任何序列的长度。 请注意,由于
通常一些簇包含很多序列,输出的行可能很长。 如果
你想直观地检查输出,请使用'less -S',或者一个编辑器
不换行。 可以使用“wc -l”找到集群的数量。

有关多序列比对模式的更多信息,请参阅
--多重对齐 选项。

配置


该程序遵循通常的 GNU 命令行语法,长选项以两个开头
破折号('-')。 下面是选项的摘要。

- 相似 门槛, -s 门槛
相似性阈值指定创建的集群的半径。 这个参数
是一个介于 0 和 1 之间的浮点数。它是基于半全局计算的
序列与簇中心序列的比对。 即相似度 = 1 - (编辑
距离)/(较短序列的长度)。 编辑距离为最小数
将序列与簇对齐所需的插入、删除或替换
中心序列。 当相似度更高时,我们的算法会更快。

--k-mer-长度 长度, -k 长度
当您使用 k-mer 过滤器(默认启用)时,您可以指定
用于过滤的 k-mers 的最大长度。

较长的 k-mer 长度需要更多的内存来存储 k-mer 计数和过滤
会更慢。 然而,随着 k-mer 长度的增加,过滤器将更加具体
因此序列比对搜索可能会更快。

过滤和搜索时间之间存在权衡。 如果不指定
k-mer length 选择 log4(输入序列长度的中位数)的值
自动地。 通过使用此选项,您可以覆盖默认值。

但是请记住,更长的 k-mer 长度需要更多的内存来存储
过滤数据结构。

--近似过滤器 , -a
默认情况下,k-mer 过滤器是 100% 敏感的。 这意味着在输出中
聚类,没有两个聚类中心彼此在阈值距离内。
然而,精确的过滤器有点慢。 此选项通过使用加速过滤器
一个启发式。 使用近似滤波器可能会导致聚类中心为
接近,并且总体上有更多的集群。 然而,近似滤波器通常是
比精确的敏感过滤器快几倍。 如果您是,请使用此选项
聚类主要是为了减少数据中的冗余,而不关心
聚类质量。

--允许左间隙 , -l
使用此选项,距离是基于半全局对齐来测量的。 这
半全局对齐允许在较短的两端没有惩罚的间隙
序列。

默认对齐方式是一侧的半全局对齐方式。 即只允许有间隙
在较短序列的右端没有惩罚。 这种行为对应于
来自某个区域(例如 16S 核糖体 RNA 基因)靶向测序的数据。

--多重对齐, -m
设置输出格式以显示每个簇的多序列比对。 这
对齐中的间隙用破折号“-”字符表示。

MSA 输出的格式如下: 每个簇的 MSA 跨越几个
线。 MSA 以包含字符“#”的行开头,后跟数字
该集群中的序列。 对齐的序列(可能包含间隙)如下
Fasta 格式。 每个 Fasta 记录将由两行组成。 标题行和
序列行。 由于每个对齐的序列都在一行上输出,因此输出
可能包含很长的行。 请使用“less -S”,或不换行的编辑器
检查 MSA 的队伍也很长。

--no-k-mer-过滤器
禁用 k-mer 过滤器。 适用于高聚类非常短的序列
相似度阈值。

-d, --标题
编写程序选项以输出。

-h, - 帮帮我
显示选项摘要。

-v, - 版
显示程序版本。

示例


./dnaclust file.fasta -l -s 0.98 -k 3 > 簇

使用 onworks.net 服务在线使用 dnaclust


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。