这是 seqprep 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
序列准备 - 合并配对的末端 Illumina 读数
SeqPrep 是一个将重叠的成对末端 Illumina 读数合并成一个单一的程序
阅读时间更长。 它也可以仅用于其适配器修整功能而无需执行任何操作
配对末端重叠。
用法
序列准备 必须 ARGS [选项]
其他要求 参数:
-F
-r
-1
-2
常规 参数 (可选的):
-3
-4
-h 显示此帮助消息并退出(也适用于无参数)
-6 输入序列是phred+64而不是phred+33格式,输出仍然是phred+33
-q
-L
参数 HPMC胶囊 适配器/底漆 装饰带 (可选的):
-一种
(应通过 grepping 文件进行验证); 默认(基因组非多路复用适配器 1)= AGATCGGAAGAGCGGTTCAG>
-B
(应通过 grepping 文件进行验证); 默认(基因组非多路复用适配器2)= AGATCGGAAGAGCGTCGTGT>
-O
-M
-N
-b
-Q
-t
-e
-Z
-w
-W
-p
-P
-X
可选 参数 HPMC胶囊 合并:
-y
-G- 未实现
-s
-E
-X
-o
-m
-n
注意 1: 输出总是 gzip 压缩的。
注意 2: 如果输出中的质量字符串包含小于 asciii 33 的字符
ascii 表(它们看起来像二进制文件中的行),尝试再次运行
-6 选项。
设置
当存在适配器序列时,这意味着两个读取必须重叠(在大多数情况下)
案例),所以他们被强行合并。 当读取没有适配器序列时,它们必须是
在进行合并时小心处理,因此采用了更具体的方法。 这
选择默认参数时考虑到了特殊性,以便它们可以运行
预计很少读取重叠的库。 虽然保存总是最安全的
图书馆的重叠程序,其中您有一些先验知识
大部分读取将有一些重叠。
在运行 SeqPrep 之前确保检查程序的默认值确实是
您正在寻找的适配器。 尝试从此文件复制默认转发适配器,然后
grep 它针对您的阅读进行字数统计,也尝试使用反向适配器进行相同操作
用grep。 你应该看到一些点击。 您也可以尝试使用(并使用 grep 进行验证) -A
GATCGGAAGACACG -B AGATCGGAAGACGTCGT公司 作为参数。 查找 Illumina 适配器列表
您应该写给 Illumina 技术支持的序列 [email protected] (他们不
喜欢人们在他们的机构之外分享序列列表)。
选择大约 20bp 的适配器序列,其中:
1. 您会看到使用 grep 的点击次数最多。
2.当你运行一个命令时 cat猫 Lane2_0d_2.fastq.gz | 头 -n 1000000 |grep “插入
适配器 这里” | 头 您会看到适配器序列出现在几个开头
读。 -A 和 -B 参数也应该像它们在您的数据中显示的那样,SeqPrep
直接搜索这些序列而不做反向互补
3.检查前进和后退并确保您有大致相同的数量
通过命令来计算点击次数,例如: cat猫 Lane2_0d_2.fastq.gz | 头 -n 1000000
|grep “插入 适配器 这里” | wc -l 作为额外的预防措施,程序会检查
修剪适配器后,可实现良好的读取重叠。 如果适配器被修整并且
读取没有合理的适配器重叠(您可以使用 -X 修改此设置)
然后读取不会打印或合并。
有关测试其他参数的一些信息,请参阅 Test/README.md。 测试/SimTest 有
一些特别酷的测试数据,您可以使用它们来检查灵敏度和
使用不同参数的适配器修整的特异性。 测试结果是
显示在使用谷歌图表 API 的 results.html 中,以便点是
交互式,您可以轻松确定哪些设置做出了哪些点。
低复杂度对齐
我目前处理低复杂度区域的模糊对齐的策略是
如下:
在第一个重叠之后,我对接受重叠有一些最低要求
找到(即两个序列之间重叠最大的那个),如果低复杂度
过滤已启用,我继续搜索是否找到第二个可行的命中,我放弃并说
合并两个读取不是一个好主意。 我检查不明确的对齐方式
读取重叠,但不是在适配器修剪中,最保守的做法是
剥离最积极对齐的适配器(最接近读取的开头)。
为了接受对齐,我允许一些不匹配的部分(目前 0.06 的下限)
适配器的对齐长度和两次读取的对齐长度的 0.02)。 那
意味着在大多数情况下,对于重叠的两个读取,我不允许两者之间有任何不匹配
相邻的读取,但如果在 q50 上有 1bp 的潜在重叠和 20 个错配
例如,我允许。 除了低质量之外,任何低于 50 的东西都需要完美
基地。
由于我们忽略了低质量的基础,我们可能会遇到单个真实匹配的情况
后跟一长串劣质碱基直到读取结束将导致
称为重叠。 这似乎是个坏主意。 为了解决这个问题,我至少需要
重叠长度的一部分是匹配的。 现在我将该参数设置为
0.7 用于适配器修整,0.75 用于读取合并,因此对于只有最后 10 个
碱基重叠,其中至少 7 个必须是匹配的。
由于进行那么多浮点乘法似乎是个坏主意,我只有一个
预先计算所有这些最小匹配和最大不匹配数的表
重叠长度可达最大允许读取长度。
最后我有一个参数,你可以设置它指定最小结果读取长度
在适配器修剪和/或合并之后,不会输出超短修剪读取。
以下是手动测试三个主要合并案例的结果。 现在生成
类似的输出会自动将 -E readable_alignment.txt.gz 参数提供给
程序(输出被 gzip 压缩成指定的文件名)。
序列 合并 没有 适配器 现在:
QUER: NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTC
|| |||||||||||| || | |||||||||||||||||||||||||||||||
主题: TGTGTGTTGGGCAGATGCGGGGGGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCACGTCTCCGTCTCCTGTTG
结果:NCCTGCTACTACCACCCGTTCCGTGCCTGGAGCCTGCATGTTGGGCAGATACGTGCTGCCACAGCCTGTCTCTGCTGGTGCCTGGGCCTCTCCTGTTCCTTGCCCACGTCTCCGTCTTCCTGTTG
质量合并:
QUER: !223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@@@@@@@@@?@@89887:::::.2125@@:@@:::::@@@@@<<::8@@@@@
SUBJ:!!!!!!!!!!!!!!!!!!!!!!!!!!!@@@8DEGE@EDDBB2 D8@DBE>BFIDH@IIEEIIBEIEIIGBIIGIFII
结果:!223387787@@@CCC22C@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@89887:::::.QPQLSSSSSSSSSSQSSSSSSSSSSSSSD8@DBE> BFIDH@IIEEIIBEIEIIGBIIGIFII
序列 合并 适配器 当下, 简便 臭臭的 时尚 (相同的 长度):
主题:NGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
|||||||||||||||||||||||||||||||||||
查询:GGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
结果:GGATATGATTCCCAATCTAAGCAAACTGTCATGGAAAC
质量合并:
SUBJ:!.-/.53444@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
查询:IHGIIIDIIHGEHIGHIFHIFIIIIHIIIIIIIIIIIIHII
结果:ISSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
序列 合并 适配器 但是 长度 不同:
主题:AATTGATGGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||
QUER: AATTGATGGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTA
结果:AATTGATGGGGTGCCCACCCACGGGCCAGACAAAATCATCTGGCAAGCTGGATGCAGCCTACAAGCTGTAAGATTGGA
质量合并:
SUBJ: =DEC??DDBD?4B=BEE@@@GB>GEE:DE8=2::6GDGBGEGDD<=;A?=AGGGG=5.=<BD?B?DDB>B4725:E>
QUER: GDDBBFBGGFBHFIEDGGGBDGGG
结果:SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSB4725:E>
如果有兴趣,我可以在一个网站上发布我对 SeqPrep 不同参数的测试
在模拟数据上。 还有一些不同程序的比较统计数据可以修剪
适配器。 该网站可以在这里访问: http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/
其中页面被命名为 result(date).html。 最新的(截至我收到
周围编辑这个)可以在这里找到:
http://hgwdev.cse.ucsc.edu/~jstjohn/seqprep/results2011-09-15.html
请注意,虽然我的程序比 fastq-clipper 更敏感和更具体,但我
根据这个测试优化了我的默认参数。 真实数据的结果可能会有所不同,
尽管我相信我的方法利用了比其他方法更现实的适配器模型
软件可以。 例如,即使我的程序需要 10bp 的适配器
在读取结束时将其修剪掉(默认情况下)有一个备份适配器修剪
基于强且明确的读取重叠进行修剪的功能。 正因为如此,我的
程序可以修剪适配器,即使它只出现在 read 的最后几个碱基中。
另请注意,fastq-mcf 似乎在灵敏度(0.992 对 0.985)
特异性的非常大的成本(0.497 vs 0.994)。
使用 onworks.net 服务在线使用 seqprep
