这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 sumaclust,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
sumaclust - 基因序列的星团
概要
苏门答腊 [选项]
商品描述
随着新一代测序的发展,需要高效的工具来处理
在合理的时间内处理数百万个序列。 Sumaclust 是由开发的程序
莱卡。 Sumaclust 旨在以一种快速而精确的方式对序列进行聚类
时间。 该工具已开发用于适应 DNA 生成的数据类型
元条形码,即完全测序的短标记。 Sumaclust 聚类序列使用
与 UCLUST 和 CD-HIT 相同的聚类算法。 该算法主要用于
检测扩增和测序过程中产生的“错误”序列,
源自“真实”序列。
配置
-h [H]elp - 打印帮助
-l : 参考序列长度最短。
-L 参考序列长度最大。
-a 参考序列长度是比对长度(默认)。
-n 分数由参考序列长度(默认)归一化。
-r :原始分数,未标准化。
-d :分数以距离表示(默认:分数以相似度表示)。
-t ##.##:聚类的分数阈值。 如果将分数归一化并表示为
相似度(默认),
它是一个恒等式,例如 0.95 表示 95% 的恒等式。 如果分数被归一化并且
以距离表示,它是(1.0 - 同一性),例如 0.05 表示 95% 的同一性。
如果分数没有归一化并用相似度表示,则为
最长公共子序列。 如果分数没有标准化并表示为
距离,它是(参考长度 - LCS 长度)。 仅具有相似性的序列
上面##.## 与一个簇的中心序列被分配给那个簇。
默认值:0.97
-e 精确选项:将序列分配给具有中心序列的集群
呈现最高相似度得分 > 阈值,而不是默认值
'fast' 选项,其中将序列分配给找到的第一个具有中心的簇
呈现分数 > 阈值的序列。
-R ## 两个序列计数之间的最大比率,以便较少丰度的序列可以
被认为是更丰富的变体。 默认值:1.0。
-p ##多线程与##线程使用openMP。
-s ####
按#### 排序。 必须是 'None' 表示没有排序,或者是 fasta 标题中的键
每个序列,除了可以计算的计数(默认:按
数数)。
-o 排序按升序排列(默认:降序)。
-g n 被 a 替换(默认:带有 n 的序列被丢弃)。
-B ### BIOM 格式的OTU 表的输出被激活,并写入文件###。
-O ### OTU 地图(观测地图)的输出被激活,并写入文件###。
-F ### FASTA 格式的输出被写入文件### 而不是标准输出。
-f FASTA 格式的输出被禁用。
参数:要聚类的核苷酸数据集
使用 onworks.net 服务在线使用 sumaclust