bwa - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 bwa

这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 bwa，例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

bwa - Burrows-Wheeler 对齐工具

概要

bwa 索引 ref.fa

bwa mem ref.fa read.fq > aln-se.sam

bwa mem ref.fa read1.fq read2.fq > aln-pe.sam

bwa aln ref.fa short_read.fq > aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam

bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

bwa bwasw ref.fa long_read.fq > aln.sam

商品描述

BWA 是一个软件包，用于根据大参考映射低发散序列
基因组，例如人类基因组。它由三种算法组成：BWA-backtrack、BWA-SW
和 BWA-MEM。第一个算法是为高达 100bp 的 Illumina 序列读数而设计的，
而其余两个较长序列的范围从 70bp 到 1Mbp。 BWA-MEM 和 BWA-SW 共享
类似的功能，如长读支持和分割对齐，但 BWA-MEM，这是
最新，通常推荐用于高质量查询，因为它更快，更多
准确的。对于 70-100bp Illumina，BWA-MEM 也比 BWA-backtrack 具有更好的性能
读取。

对于所有算法，BWA 首先需要为参考基因组构建 FM-index
（指数命令）。使用不同的子命令调用对齐算法：
氮化铝/萨姆塞/样品对于 BWA 回溯， 哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇 对于 BWA-SW 和成员 BWA-MEM 算法。

指令 AND 配置

指数 BWA 指数 [-p 字首[-a 算法类型] 数据库.fa

以 FASTA 格式索引数据库序列。

选项：

-p STR 输出数据库的前缀[与db文件名相同]

-a STR 用于构建 BWT 索引的算法。 BWA 实现了两种算法
BWT结构： is 和 体重秤. 第一个算法要快一点
适用于小型数据库但需要大内存且不适用于数据库
总长度超过2GB。第二种算法改编自
BWT-SW 源代码。理论上它可以与数以万亿计的数据库一起使用
的基地。当未指定此选项时，适当的算法
将被自动选择。

成员 BWA 成员 [-aCHjMpP[-t 线程数[-k 最小种子长度[-w 带宽[-d z 下降[-r
种子分裂率[-c 最大占用时间[-D 链影[-m 最大伴侣软件[-W 最小种子匹配[-A
比赛得分[-B mm惩罚[-O 缺口开放笔[-E 间隙扩展笔[-L 剪贴笔[-U
取消配对笔[-R RG线[-H 高清线[-v 详细级别] 数据库前缀阅读.fq [队友.fq]

将 70bp-1Mbp 查询序列与 BWA-MEM 算法对齐。简而言之，算法
通过使用最大精确匹配（MEMs）播种对齐然后扩展
使用仿射间隙 Smith-Waterman 算法 (SW) 生成种子。

If 队友.fq 文件不存在和选项 -p 未设置，此命令与输入有关
读取是单端的。如果队友.fq 存在，此命令假定 i-th 读入
阅读.fq 和 i-th 读入队友.fq 构成一个读对。如果 -p 使用，
命令假定 2i-th 和 (2i+1)-th 读入阅读.fq 构成一个读对
（这种输入文件据说是交错的）。在这种情况下，队友.fq 被忽略。在
双端模式，成员命令将推断读取方向和插入
一批读取的大小分布。

BWA-MEM 算法执行局部对齐。它可能会产生多个初级
查询序列不同部分的比对。这是一个至关重要的功能
长序列。但是，某些工具（例如 Picard 的 markDuplicates）不起作用
与拆分对齐。可以考虑使用选项 -M 标记较短的分割命中
作为次要的。

算法 选项：

-t INT 线程数 [1]

-k INT 最小种子长度。匹配短于 INT 会被错过。这
对齐速度通常对这个值不敏感，除非它
显着偏离 20。 [19]

-w INT 带宽。本质上，间隙长于 INT 不会被发现。笔记
最大间隙长度也受评分矩阵的影响，并且
命中长度，不仅仅由这个选项决定。 [100]

-d INT 非对角线 X 衰减（Z 衰减）。差时停止延长
最好的和当前的扩展分数之间高于 |i-j|*A+INT,
协调 i 和 j 是查询和引用的当前位置，
分别和 A 是匹配分数。 Z-dropoff 类似于
BLAST 的 X-dropoff 只是它不会惩罚其中一个中的差距
比对中的序列。 Z-dropoff 不仅避免了不必要的
扩展，但也减少了长好的对齐中的不良对齐。
[100]

-r FLOAT 触发 MEM 的重新播种时间超过最小种子长度*FLOAT. 这是一个关键
用于调整性能的启发式参数。较大的值产生较少的
种子，这导致更快的对齐速度但精度较低。 [1.5]

-c INT 如果 MEM 超过 INT 基因组中的发生。这是一
不敏感参数。 [500]

-D INT 下落链短于 FLOAT 最长重叠链的一部分
[0.5]

-m INT 最多执行 INT 多轮伴侣-SW [50]

-W INT 如果种子中的碱基数小于 INT。这
option 主要用于更长的 contigs/reads。当为正时，它也
影响种子过滤。 [0]

-P 双端模式下，只执行 SW 来挽救丢失的命中，但不执行
尝试找到适合正确配对的命中。

计分 选项：

-A INT 匹配分数。 [1]

-B INT 错配处罚。序列错误率约为：{.75 *
exp [-日志(4) * B/A]}。 [4]

-O INT[,INT]
空位罚球。如果指定了两个数字，第一个是惩罚
打开一个删除和第二个打开一个插入。 [6]

-E INT[,INT]
间隙扩展惩罚。如果指定了两个数字，第一个是
扩展删除的惩罚和扩展插入的第二个惩罚。一个
长度 k 的差距成本 O + k*E（即 -O 用于打开零长度
差距）。 [1]

-L INT[,INT]
剪辑罚分。在执行 SW 扩展时，BWA-MEM 会跟踪
达到查询结束的最佳分数。如果这个分数大于
最好的 SW 分数减去剪裁惩罚，剪裁不会
应用。请注意，在这种情况下，SAM AS 标签报告了最佳 SW
分数; 不扣除剪裁惩罚。如果提供两个数字，则
第一个用于 5' 端剪裁，第二个用于 3' 端剪裁。 [5]

-U INT 未配对读取对的惩罚。 BWA-MEM 对未配对的读取对进行评分
如 scoreRead1+scoreRead2-INT 并得分配对为
scoreRead1+scoreRead2-insertPenalty。它将这两个分数比较为
确定我们是否应该强制配对。较大的值导致更多
积极的阅读对。 [17]

输入输出 选项：

-p 智能配对。如果两个相邻的读取具有相同的名称，则它们是
考虑形成一个读对。这样，双端和单端读取
可以在单个 FASTA/Q 流中混合。

-R STR 完成读取组标题行。 '\t' 可以用于 STR 并将
在输出 SAM 中转换为 TAB。将附加读取的组 ID
输出中的每次读取。一个例子是“@RG\tID:foo\tSM:bar”。 [空值]

-H ARG 如果 ARG 以 @ 开头，则将其解释为字符串并插入
进入输出SAM头；否则，ARG 被解释为一个文件
插入到 SAM 标头的文件中以 @ 开头的所有行。
[空值]

-T INT 不要输出低于分数的对齐 INT. 此选项影响
输出和偶尔 SAM 标志 2。 [30]

-j 将 ALT contigs 视为主要组装的一部分（即忽略
db.前缀.alt 文件）。

-h INT[,INT2]
如果查询不超过 INT 得分高于 80% 的命中率
最佳命中，将它们全部输出到 XA 标签中。如果 INT2 指定，BWA-MEM
输出高达 INT2 如果列表包含对 ALT contig 的命中，则命中。
[5,200]

-a 输出所有找到的单端或未配对双端读取的对齐方式。
这些对齐将被标记为次要对齐。

-C 将 FASTA/Q 注释附加到 SAM 输出。此选项可用于
将读取的元信息（例如条形码）传输到 SAM 输出。笔记
FASTA/Q 注释（标题行中空格后的字符串）
必须符合 SAM 规范（例如 BC:Z:CGTAC）。格式错误的评论导致
SAM 输出不正确。

-Y 使用软剪裁 CIGAR 操作进行补充对齐。经过
默认情况下，BWA-MEM 使用软剪辑进行主要对齐和硬剪辑
用于补充对齐的剪裁。

-M 将较短的分割命中标记为次要（为了 Picard 兼容性）。

-v INT 控制输出的详细级别。此选项尚未完全
支持整个 BWA。理想情况下，值 0 用于禁用所有输出
到标准错误； 1 仅用于输出错误； 2 警告和错误； 3 为
所有正常消息； 4 或更高用于调试。当这个选项需要
值 4，输出不是 SAM。 [3]

-I 浮动[,浮动[,INT[,INT]]]
指定平均值、标准偏差（如果不存在则为平均值的 10%）、最大值 (4
插入的平均值（如果不存在）和 min（如果不存在则为 4 sigma）的 sigma
尺寸分布。仅适用于 FR 方向。默认情况下，
BWA-MEM 推断出这些数字和足够的对方向
读。 [推断]

氮化铝 bwa aln [-n maxDiff] [-o maxGapO] [-e maxGapE] [-d nDelTail] [-i nIndelEnd] [-k
maxSeedDiff] [-l seedLen] [-t nThrds] [-cRN] [-MmisMsc] [-OgapOsc] [-EgapEsc]
[-q 修剪质量] >

找到输入读数的 SA 坐标。最大限度最大种子差异差异是
第一次允许种子长度子序列和最大值最大差异差异是
在整个序列中允许。

选项：

-n 民如果值为 INT 或缺失的分数，则为最大编辑距离
如果 FLOAT，则对齐给出 2% 的统一基本错误率。在后一种情况下，
为不同的读取自动选择最大编辑距离
长度。 [0.04]

-o INT 最大间隙打开数 [1]

-e INT 最大间隙扩展数，-1 表示 k-difference 模式（不允许
长间隙) [-1]

-d INT 禁止在 INT bp 内向 3' 末端进行长删除 [16]

-i INT 禁止在 INT bp 内向末端插入插入 [5]

-l INT 取第一个 INT 子序列作为种子。如果 INT 大于查询
序列，播种将被禁用。对于长读，这个选项是
“-k 25”的范围通常为 35 到 2。 [信息]

-k INT 种子中的最大编辑距离 [2]

-t INT 线程数（多线程模式）[1]

-M INT 错配处罚。 BWA 不会搜索带有分数的次优命中
低于（bestScore-misMsc）。 [3]

-O INT 空位罚球 [11]

-E INT 间隙扩展惩罚 [4]

-R INT 如果不超过 INT，则继续进行次优对齐
最好的命中。此选项仅影响双端映射。增加这个
阈值有助于以速度为代价提高配对准确性，
特别是对于短读（~32bp）。

-c 反向查询但不补充它，这是对齐所需的
色彩空间。（自 0.6.x 起禁用）

-N 禁用迭代搜索。所有命中不超过最大差异差异
会被发现。此模式比默认模式慢得多。

-q INT 读取修剪参数。 BWA 将读取减少到
argmax_x{\sum_{i=x+1}^l(INT-q_i)} 如果 q_l
长度。 [0]

-I 输入采用 Illumina 1.3+ 读取格式（质量等于 ASCII-64）。

-B INT 从 5' 端开始的条码长度。什么时候 INT 是积极的，
每次读取的条码将在映射前修剪并写入
在 BC SAM 标签。对于双端读取，两端的条形码是
串联。 [0]

-b 指定输入的读取序列文件是 BAM 格式。对于双端
数据，成对的两端必须组合在一起，选项 -1 or -2
通常用于指定应映射哪一端。典型的
用于映射 BAM 格式的对端数据的命令行是：

bwa aln ref.fa -b1 read.bam > 1.sai
bwa aln ref.fa -b2 read.bam > 2.sai
bwa sampe ref.fa 1.sai 2.sai read.bam read.bam > aln.sam

-0 在规划婴儿食品行业的工艺要求时，安全性和可靠性是工艺设计中最重要的方面。 -b 指定，在映射中只使用单端读取。

-1 在规划婴儿食品行业的工艺要求时，安全性和可靠性是工艺设计中最重要的方面。 -b 指定，仅使用映射中读取对中的第一个读取
（跳过单端读取和第二次读取）。

-2 在规划婴儿食品行业的工艺要求时，安全性和可靠性是工艺设计中最重要的方面。 -b 指定时，仅使用映射中读取对中的第二个读取。

萨姆塞 bwa samse [-n maxOcc] >

在给定单端读取的 SAM 格式中生成对齐。重复点击将
被随机选择。

选项：

-n INT 在 XA 标签中输出的最大比对数配对读取
适当地。如果读取的命中数超过 INT，则 XA 标签将不会被
书面。 [3]

-r STR 以“@RG\tID:foo\tSM:bar”等格式指定读取组。 [空值]

样品 bwa 样本 [-a maxInsSize] [-o maxOcc] [-n maxHitPaired] [-N maxHitDis] [-P]
>

在给定双端读取的 SAM 格式中生成比对。重复读取对
将随机放置。

选项：

-a INT 要考虑正确映射的读取对的最大插入大小。
从 0.4.5 开始，这个选项只在没有足够好的资源时使用
对齐以推断插入尺寸的分布。 [500]

-o INT 配对读取的最大出现次数。出现更多次的阅读
将被视为单端读取。减少这个参数有助于更快
配对。 [100000]

-P 将整个 FM-index 加载到内存中以减少磁盘操作（base-space
只读）。使用此选项，至少需要 1.25N 字节的内存，
其中 N 是基因组的长度。

-n INT 在 XA 标签中输出的最大比对数配对读取
适当地。如果读取的命中数超过 INT，则不会写入 XA 标签。
[3]

-N INT 在 XA 标签中输出的最大对齐数以进行不一致读取
对（不包括单身人士）。如果读取的命中数超过 INT，则 XA 标签
不会写。 [10]

-r STR 以“@RG\tID:foo\tSM:bar”等格式指定读取组。 [空值]

哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇哇 bwa bwasw [-a matchScore] [-b mmPen] [-q间隙OpenPen] [-r间隙ExtPen] [-t nThreads]
[-w 带宽] [-T thres] [-s hspIntv] [-z zBest] [-N nHspRev] [-c thresCoef]
[mate.fq]

对齐查询序列输入.fq 文件。什么时候伙伴.fq 存在，执行配对-
端对齐。双端模式仅适用于读取 Illumina 短插入
图书馆。在双端模式下，BWA-SW 仍可能输出分裂对齐，但
它们都被标记为未正确配对；将不会写入配对位置
如果伴侣有多个本地命中。

选项：

-a INT 比赛得分 [1]

-b INT 错配惩罚 [3]

-q INT 空位罚球 [5]

-r INT 间隙扩展惩罚。大小为 k 的连续间隙的惩罚是
q+k*r。 [2]

-t INT 多线程模式下的线程数[1]

-w INT 带状排列中的带宽 [33]

-T INT 最小分数阈值除以 [37]

-c FLOAT 根据查询长度调整阈值的系数。给定一个
l 长查询，保留命中的阈值为
a*max{T,c*log(l)}。 [5.5]

-z INT Z-最佳启发式。较高的 -z 以牺牲速度为代价提高准确性。 [1]

-s INT 用于启动种子的最大 SA 间隔大小。更高的 -s 增加
以速度为代价的准确性。 [3]

-N INT 支持要跳过的结果对齐的最小种子数
反向对齐。 [5]

SAM 对准 FORMAT

输出 'aln' 命令是二进制的，仅供 BWA 使用。 BWA 输出
SAM（序列比对/映射）格式的最终比对。每行包括：

┌────┬─────────┬────────────────────────────────────── ────────────────────────┐
│关口 │ 领域 │ 描述 │
├────┼────────┼────────────────────────────────────── ────────────────────────┤
│ 1 │ QNAME │ 查询（对）NAME │
│ 2 │ 标志 │ 按位标志 │
│ 3 │ RNAME │ 参考序列NAME │
│ 4 │ POS │ 1-based 最左边的位置/剪辑序列的坐标 │
│ 5 │ MAPQ │ 映射质量（Phred-scaled）│
│ 6 │ CIAGR │ 扩展雪茄串│
│ 7 │ MRNM │ Mate 参考序列名称（`=' 如果与 RNAME 相同）│
│ 8 │ MPOS │ 基于 1 的配合位置 │
│ 9 │ ISIZE │ 推断插入大小 │
│10 │ SEQ │ 在与参考相同的链上查询 SEQuence │
│11 │ QUAL │ query QUALity (ASCII-33 给出 Phred 基本质量) │
│12 │ OPT │ 变量可选字段，格式为 TAG:VTYPE:VALUE │
└────┴────────┴──────────────────────────────────── ──────────────────────────┘

FLAG 字段中的每一位定义为：

┌────┬──────────┬───────────────────────────────────── ────┐
│染色体 │ 旗 │ 描述 │
├────┼────────┼────────────────────────────────────── ────┤
│ p │ 0x0001 │ read 在测序中配对 │
│ P │ 0x0002 │ 读取被映射成正确的对 │
│ u │ 0x0004 │ 查询序列本身未映射 │
│ U │ 0x0008 │ 配对未映射 │
│ r │ 0x0010 │ 查询链（1 表示反向）│
│ R │ 0x0020 │ 伴侣链│
│ 1 │ 0x0040 │ 读取是一对中的第一个读取 │
│ 2 │ 0x0080 │ 读取是一对中的第二个读取 │
│ s │ 0x0100 │ 对齐不是主要的 │
│ f │ 0x0200 │ QC 失败 │
│ d │ 0x0400 │ 光学或 PCR 重复 │
│ S │ 0x0800 │ 补充对齐 │
└────┴────────┴──────────────────────────────────── ────┘

请检查http://samtools.sourceforge.net> 用于格式规范和
用于后处理对齐的工具。

BWA 生成以下可选字段。以“X”开头的标签是 BWA 特有的。

┌────┬────────────────────────────────────────────── ──────┐
│标签 │ 意 │
├────┼────────────────────────────────────────────── ──────┤
│NM │ 编辑距离 │
│MD │ 位置/碱基不匹配 │
│AS │ 对齐分数 │
│BC │ 条码序列 │
│SA │ 补充比对 │
├────┼────────────────────────────────────────────── ──────┤
│X0 │ 最佳点击次数 │
│X1 │ BWA 发现的次优命中数 │
│XN │ 参考文献中的歧义碱基数 │
│XM │ 比对中的不匹配数 │
│XO │ 间隙打开次数 │
│XG │ 间隙延伸数 │
│XT │ 类型：Unique/Repeat/N/Mate-sw │
│XA │ 另类热门歌曲；格式：/(chr,pos,CIGAR,NM;)*/ │
├────┼────────────────────────────────────────────── ──────┤
│XS │ 次优比对得分 │
│XF │ 支持正向/反向对齐 │
│XE │ 配套种子数 │
└────┴────────────────────────────────────────────── ──────┘

请注意，XO 和 XG 由 BWT 搜索生成，而 CIGAR 字符串由 Smith-Waterman
结盟。这两个标签可能与 CIGAR 字符串不一致。这不是错误。

附注 ON 速读对准

对准 准确性
当种子被禁用时，BWA 保证找到包含最大值的对齐最大差异
差异包括最大间隙间隙打开，不会发生在插入端 bp 朝向
查询的任一端。可能会发现更长的间隙，如果最大间隙是积极的，但不是
保证找到所有命中。当启用播种时，BWA 进一步要求第一个
种子长度子序列不超过最大种子差异差异。

禁用间隙对齐时，BWA 有望生成与 Eland 相同的对齐
版本 1，Illumina 比对程序。但是，随着 BWA 更改数据库中的“N”
序列到随机核苷酸，对这些随机序列的命中也将被计算在内。作为一个
结果，如果随机序列碰巧是，BWA 可能会将唯一的命中标记为重复
与数据库中应该是unqiue的序列相同。

默认情况下，如果最佳命中不是高度重复的（由 -R 控制），BWA 也会发现
所有命中都包含一个不匹配；否则，BWA 只会找到所有同样最佳的匹配项。根据
在评估命中时不考虑质量。在双端模式下，BWA 对所有命中
它找到了。它进一步对未映射的读取执行 Smith-Waterman 对齐以挽救读取
具有较高的错误率，并且对于高质量的异常对来修复潜在的对齐
错误。

估算插页尺码 配电系统
BWA 估计每 256*1024 个读取对的插入大小分布。它首先收集
两端映射为单端质量 20 或更高的读数对，然后
计算中位数 (Q2)、低四分位数和高四分位数（Q1 和 Q3）。它估计均值和
插入大小在其范围内的对的插入大小分布的方差
区间 [Q1-2(Q3-Q1), Q3+2(Q3-Q1)]。被认为是一对的最大距离 x
正确配对（SAM 标志 0x2）是通过求解方程 Phi((x-mu)/sigma)=x/L*p0 来计算的，
其中 mu 是平均值，sigma 是插入尺寸分布的标准误差，L 是
基因组的长度，p0 是异常对的先验，Phi() 是标准
累积分布函数。用于将 Illumina 短插入读取映射到人类
在基因组中，x 与平均值相差约 6-7 西格玛。四分位数、均值、方差和 x 将是
打印到标准错误输出。

内存需求
使用 bwtsw 算法，索引完整的人类基因组需要 5GB 内存
序列。对于简短的阅读， 氮化铝 命令使用 ~3.2GB 内存和样品命令使用
~5.4GB。

速度
使用 bwtsw 算法索引人类基因组序列需要 3 小时。索引变小
使用 IS 算法的基因组速度更快，但需要更多内存。

对齐的速度很大程度上取决于查询序列的错误率 (r)。
首先，对于接近完美的点击，BWA 的运行速度比具有许多差异的点击要快得多，
如果找到 l-difference 命中，它会停止搜索具有 l+2 差异的命中。这
意味着如果 r 很高，BWA 将非常慢，因为在这种情况下 BWA 必须访问命中
许多差异和寻找这些命中是昂贵的。其次，对齐方式
后面的算法使速度对 [k log(N)/m] 敏感，其中 k 是允许的最大值
差异，N 是数据库的大小，m 是查询的长度。在实践中，我们选择 k
wrt r ，因此 r 是主要因素。我不建议在数据上使用 BWA
r>0.02。

对于较短的读取，配对速度较慢。这主要是因为较短的读取具有更多
虚假命中和将 SA 坐标转换为染色体坐标的成本非常高。

变化 IN BWA-0.6

从 0.6 版开始，BWA 已经能够处理超过 4GB 的参考基因组。
此功能可以将正向和反向互补的基因组整合到
一个 FM-index，可以同时加速 BWA-short 和 BWA-SW。作为权衡，BWA 使用更多
内存，因为它必须将所有位置和等级保持在 64 位整数中，两倍大
比以前版本中使用的 32 位整数。

最新的 BWA-SW 也适用于长度超过 100bp 的双端读取。与 BWA 相比——
简而言之，BWA-SW 对于高度独特的读取往往更准确，并且对
相对长的 INDEL 和结构变体。尽管如此，BWA-short 通常具有更高的
区分最佳命中与许多次优命中的能力。映射的选择
算法可能取决于应用程序。

使用 onworks.net 服务在线使用 bwa