这是 cdhit-454 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
cd-hit-454 - 快速分组序列,针对 454 数据进行优化
概要
cdhit-454 [附加选项]
商品描述
====== CD-HIT 4.6 版(构建于 23 年 2016 月 XNUMX 日)======
附加选项
-i fasta 格式的输入文件名,必需
-o 输出文件名,必填
-c 序列身份阈值,默认 0.98 这是一个“全局序列身份”
计算为:比对中相同氨基酸的数量除以完整的
较短序列的长度 + 间隙
-b 对齐带宽,默认 10
-M 程序的内存限制(以 MB 为单位),默认为 800; 0 为无限;
-T 线程数,默认1; 为 0,将使用所有 CPU
-n word_length,默认为10,选择请看用户指南
-aL 较长序列的对齐覆盖率,如果设置为 0.0,则默认为 0.9,
比对必须覆盖 90% 的序列
-AL 较长序列的对齐覆盖控制,如果设置为 99999999,则默认为 60,
并且序列的长度为400,那么比对必须>= 340 (400-60)
残留物
-作为 较短序列的对齐覆盖率,如果设置为 0.0,则默认为 0.9,
比对必须覆盖 90% 的序列
-作为 较短序列的对齐覆盖控制,如果设置为 99999999,则默认为 60,
并且序列的长度为400,那么比对必须>= 340 (400-60)
残留物
-B 1 或 0,默认为 0,默认情况下,如果设置为 1,则序列存储在 RAM 中,序列
存储在硬盘上,建议使用 -B 1 用于大型数据库
-g 1 或 0,默认 0 通过 cd-hit 的默认算法,一个序列被聚类到
第一个满足阈值的集群(快速集群)。 如果设置为 1,程序将
将其聚类到满足阈值的最相似的聚类中(准确但速度较慢
模式)但 1 或 0 不会改变最终集群的代表
-D 每个插入的最大大小,默认为 1
-比赛 匹配分数,默认 2
-不匹配
失配分数,默认 -1
-差距 差距开局得分,默认 -3
-间隙扩展
差距扩展分数,默认 -1
-巴克 写入备份集群文件(1 或 0,默认为 0)
-h 打印此帮助
问题、错误,请联系 Weizhong Li [电子邮件保护]
如果您觉得 cd-hit 有用,请引用:
“高度同源序列的聚类以减少大蛋白质的大小
数据库”, Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatics, (2001)
17:282-283 "Cd-hit:一个用于聚类和比较大集合的快速程序
蛋白质或核苷酸序列”, Weizhong Li & Adam Godzik. Bioinformatics, (2006)
22:1658-1659 《牛北方、傅立民、孙树雷和李伟中.人工和
宏基因组数据的焦磷酸测序读数中的自然重复。 BMC生物信息学
(2010)11:187
使用 onworks.net 服务在线使用 cdhit-454