这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 blasr,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
blasr - 将 SMRT 序列映射到参考基因组。
概要
布拉斯尔 读.bam 基因组.fasta -巴姆 退房手续 输出文件
布拉斯尔 读取.fasta 基因组.fasta
布拉斯尔 读取.fasta 基因组.fasta -sa 基因组fasta.sa
布拉斯尔 读取.bax.h5 基因组.fasta [-sa 基因组fasta.sa]
布拉斯尔 读取.bax.h5 基因组.fasta -sa 基因组fasta.sa -最高分数 -100 -最小匹配 15 ...
布拉斯尔 读取.bax.h5 基因组.fasta -sa 基因组fasta.sa -nproc 24 退房手续 对齐输出 ...
商品描述
布拉斯尔 是一个读取映射程序,它通过聚类将读取映射到基因组中的位置
读取和基因组之间的短精确匹配,并使用对齐对集群进行评分。
匹配是通过使用基因组搜索读取的所有后缀来生成的
后缀数组。 全局链接方法用于对匹配的集群进行评分。
blasr 唯一需要的输入是读取文件和参考基因组。 这是
读取过滤信息非常有用,并且映射运行时间可能会减少
基本上当参考序列上预先计算的后缀数组索引是
指定的。
尽管读取可以以 FASTA 格式输入,但推荐的输入是 PacBio BAM 文件
因为这些包含用于对齐并产生的质量值信息
更高质量的变异检测。 尽管可以以各种格式输出比对,
推荐的输出格式是 PacBio BAM。 将支持 bax.h5 和 plx.h5 文件
弃用. 将支持 h5 文件的区域表 弃用.
当不指定基因组的后缀数组索引时,后缀数组先于
产生对齐。 当基因组很大(例如人类)时,这可能会非常缓慢。
最好使用程序预先计算基因组的后缀数组 沙雷特(1),
然后使用在命令行上指定后缀数组 -sa 基因组.fa.sa.
可选参数大致分为三类:控制锚定,
对齐评分和输出。
默认锚定参数最适合小基因组和高达 5% 的样本
与参考基因组的差异。 控制速度和灵敏度的主要参数
是 -最小匹配 范围。 对于人类基因组比对,11 或更高的值是
受到推崇的。 可以使用多种方法来加速对齐,但代价是
可能会降低灵敏度。
通过限制数量,在映射过程中可能会忽略过于重复的区域
将读取映射定位到 -每个位置的最大锚点 选项。 值介于 500 和
1000 在人类基因组中是有效的。
对于细菌基因组或BACs等小基因组,默认参数就足够了
以获得最大的灵敏度和良好的速度。
配置
输入 档
读
读.bam
PacBio BAM 读取文件。 这是首选输入 布拉斯尔
因为丰富的质量价值(插入、删除和替换
质量值)信息得到维护。 额外的质量
信息提高了变异检测和映射速度。
读取.fasta
读取的多 fasta 文件,尽管任何 fasta 文件都是有效输入
读取.bax.h5|阅读.plx.h5
老人 弃用 SMRT 读取的输出格式。
输入文件
文件名文件
-sa 后缀数组文件
使用后缀数组“sa”来检测读取和读取之间的匹配
参考。 后缀数组已由 沙雷特(1) 程序。
-ctab 标签
用于估计匹配重要性的元组计数表。 这是由
程序'printTupleCountTable'。 虽然它可以快速生成,
如果有很多调用 布拉斯尔, 预先计算 ctab 很有用。
-区域表 表 (弃用)
以 HDF 格式读取读取区域表以屏蔽读取部分。
如果只有一个输入文件或 fofn,则这可能是单个表。 什么时候
指定区域表,reads.plx.h5 中的任何区域表或
read.bax.h5 文件被忽略。
(已弃用) 可选项 修改 读取。
有关于读取的子串的辅助信息存储在
每个读取文件的“区域表”。 由于使用了HDF,可能会出现区域表
.bax.h5 或 .plx.h5 文件的一部分,或单独的文件。 连续读取
模板中的子串是一个子读,任何读都可能包含多个
子阅读。 subreads的边界可以从区域表中推断出来
直接或通过适配器边界的定义。 通常区域表
还包含有关高质量和低质量区域位置的信息
读。 由空 ZMW 的虚假读取产生的读取具有高质量的开始
坐标等于高质量端,无法读取。
-useccs
比对循环共有序列 (ccs),然后报告比对
ccs 子读取到 ccs 映射到的窗口。 只有对齐
报告子阅读。
-useccsall
像 -useccs,除了所有的子读取都对齐,而不仅仅是
用于调用 ccs 的 subreads。 这将包括仅涵盖部分的阅读
的模板。
-useccsdev
对齐循环共识,只报告ccs的对齐
序列。
-noSplitSubreads (错误的)
不要在适配器处拆分子读取。 这通常仅在以下情况下有用
已知模板的展开版本中的基因组,并包含模板-
适配器反向模板序列。
-忽略区域 (错误的)
忽略区域表中的任何信息。
-忽略总部区域 (错误的)
忽略区域表中的任何总部区域。
路线 至 报告
-最佳 n (10)
举报顶部 n 对齐。
-hit策略 (所有)
指定一个策略来处理来自 [all, allbest, random,
randombest,最左边]
所有 报告所有对齐。
最好的
报告所有同样得分最高的比对。
随机 报告随机对齐。
随机最佳
报告来自多个同等最高得分的随机对齐
对齐。
最左边
报告具有最佳比对分数的比对并且具有
任何参考中的最小映射坐标。
-地点随机重复 (错误的)
已弃用! 如果为真,则相当于 -hit策略 随机最佳.
-随机种子 (0)
随机数生成器的种子。 默认情况下 (0),使用当前时间作为种子。
-noSortRefinedAlignments (错误的)
一旦候选对齐被生成并通过稀疏动态评分
编程,他们使用本地对齐重新评分
不同的错误配置文件。 根据当地的路线调整可能会发生变化
返回命中的顺序。
-允许相邻插入
指定时,允许相邻的插入或删除。 除此以外,
相邻的插入和删除合并为一个操作。 使用
指导成对比对的质量值可能决定更高的
概率比对包含相邻的插入或删除。 当前的
诸如 GATK 之类的工具不允许这样做,因此它们不会被报告
默认。
输出 格式 和 档
退房手续 输出 (终端)
将输出写入 输出.
-山姆 以 SAM 格式写入输出。
-m t 如果不打印 SAM,请修改对齐的输出。
在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 t 是:
0 使用 | 连接匹配的核苷酸打印类似输出的输出。
1 只打印一个摘要:score 和 pos。
2 以Compare.xml 格式打印。
3 以粗俗的格式打印(弃用).
4 打印更长的对齐表格版本。
5 以机器可解析的格式打印
比较序列.py。
-标题
打印标题作为描述内容的输出文件的第一行
每列的。
-标题表 标签 (空值)
构建一个参考序列标题表。 参考序列是
按行枚举,0,1,... 参考索引按对齐方式打印
结果而不是完整的参考名称。 这使得输出简洁,
特别是当参考名称中存在非常冗长的标题时。
-未对齐 文件
未对齐的输出读取 文件
-剪裁 [没有|硬|子阅读|软] (没有任何)
使用无/硬/子读取/软剪辑,仅用于 SAM/BAM 输出。
-打印SAMQV (错误的)
将质量值打印到 SAM 输出。
-cigarUseSeqMatch (错误的)
SAM/BAM 输出中的 CIGAR 字符串使用“=”和“X”表示序列匹配
和不匹配而不是“M”。
可选项 锚固 对准 区域。
这将对速度和灵敏度产生最大的影响。
-最小匹配 m (12)
最小种子长度。 更高的 minMatch 将加速对齐,但会降低
灵敏度。
-最大匹配 l (信息)
当 lcp 长度达到时停止将读取映射到基因组 l。 这是
当查询是参考的一部分时很有用,例如当
构建用于从头组装的成对比对。
-最大LCP长度 l (信息)
与...相同 -最大匹配.
-每个位置的最大锚点 m (10000)
如果某个位置匹配到多个,则不要从该位置添加锚点 m 在的位置
目标。
-advanceExactMatches E (0)
使用匹配加速对齐的另一个技巧 - E 更少的锚点。
而不是在每次读取和基因组之间找到锚点
读取中的位置,当在读取中的位置 i 处找到锚点时
长度 L,读取中找到锚点的下一个位置是 i+LE。 用
这在对齐已经组装的重叠群时。
-n候选人 n (10)
跟上 n 最佳对齐的候选者。 较大的 n 值将
慢映射,因为较慢的动态规划步骤应用于
更多的锚点集群,当读取是一个速率限制步骤
很长。
-和谐 (错误的)
将 zmw(孔)的所有子读取映射到最长全通子读取的位置
zmw 对齐到。 这需要使用区域表和总部区域。
此选项仅在读取为基本或脉冲 h5 格式时有效。
-concordant模板 (中位数)
选择 zmw 的全通子阅读作为一致映射的模板。
最长子读取 - 使用最长的全通子读取中值子读取 - 使用
中值长度全通子读取典型子读取 - 使用第二长的完整
如果最长的完整通过子读取的长度是异常值,则通过子读取
-fastMaxInterval (错误的)
快速搜索最大递增间隔作为对齐候选。 搜索
不像默认值那样详尽,但速度要快得多。
-激进的IntervalCut (错误的)
如果存在,一致地过滤掉无希望的对齐候选者
至少一位有前途的候选人。 如果打开此选项, 布拉斯尔 is
可能会忽略 ALU 元素的短对齐。
-快速SDP (错误的)
使用快速启发式算法来加速稀疏动态规划。
可选项 精制 点击
-sdp元组大小 K (11)
使用长度匹配 K 以加快动态规划对齐。 这个
一旦映射,控制在成对对齐中分配间隙的准确性
已被发现,而不是映射敏感性本身。
-分数矩阵 得分了 矩阵 绳子
指定用于对 fasta 读取进行评分的替代评分矩阵。 矩阵是
格式
ACGTN
abcde
C fghij
克林诺
第一时间
紫外线
值 a...y 应作为带引号的空格分隔字符串输入:“abc
... y”。较低的分数更好,所以匹配应该少于不匹配
例如 a,g,m,s = -5(匹配),不匹配 = 6。
-仿射打开 折扣值 (10)
设置打开仿射对齐的惩罚。
-仿射扩展 a (0)
更改仿射(扩展)间隙惩罚。 较低的值允许更多的间隙。
可选项 重叠/动态 编程 比对 和 成对的 交叠 de 新
部件。
-使用质量 (错误的)
使用替换/插入/删除/合并质量值对差距和
成对比对中的不匹配惩罚。 因为插入和
删除率远高于替换率,这将使许多
比对更倾向于插入/删除而不是替换。nNaive 共识
调用方法通常会错过替换多态性。 这个选项
应该在使用 Quiver 方法调用共识时使用。 此外,
当不使用质量值对对齐进行评分时,会有一个较低的
同聚体区域的共识准确性。
-仿射对齐 (错误的)
使用仿射引导对齐优化对齐。
可选项 过滤 读 和 比对
-最小读取长度 l (50)
跳过全长小于 l. 子阅读可能更短。
-minSubreadLength l (0)
不要对齐长度小于 l.
-minRawSubreadScore m (0)
不要对齐区域表中质量分数小于 m
(质量分数应在 [0, 1000] 范围内)。
-最高分数 m (-200)
输出的最大分数(高是坏,负是好)。
-minAln长度
(0) 仅当它们的长度大于 minAlnLength 时才报告对齐。
-minPct相似度 (0) 仅当它们的百分比相似性为
大于 minPctSimilarity。
-minPct准确度
(0) 仅当其百分比准确率大于
最小准确度。
可选项 并行 对准
-nproc N (1)
对齐使用 N 过程。 后缀数组等所有大型数据结构
和元组计数表是共享的。
-开始 S (0)
开始对齐的第一个读取的索引。 这在多个时很有用
实例在相同的数据上运行,例如在多机架上时
簇。
-步幅 S (1)
每对齐一个阅读 S 读取。
可选项 二次抽样 读取。
-子样本 (0)
读取与随机子样本的比例(表示为小数)和
对齐。
-孔号 清单
指定时,仅对齐 ZMW 孔数在 清单. 清单
是以逗号分隔的范围字符串,例如“1,2,3,10-13”。 这个选项
仅当读取为 bam、bax.h5 或 plx.h5 格式时才有效。
-h 打印帮助信息。
QUOTE
要引用 BLASR,请使用:Chaisson MJ 和 Tesler G.,映射单分子
使用基本局部比对和连续细化 (BLASR) 的测序读数:理论
和应用,BMC 生物信息学 2012,13:238。
使用 onworks.net 服务在线使用 blasr