英语法语西班牙语

Ad


OnWorks 网站图标

bcftools - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 bcftools

这是命令 bcftools,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


samtools - 序列比对/映射 (SAM) 格式的实用程序

bcftools - 二进制调用格式 (BCF) 和 VCF 的实用程序

概要


samtools 查看 -bt ref_list.txt -o aln.bam aln.sam.gz

samtools 排序 aln.bam aln.sorted

samtools 索引 aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools 查看 aln.sorted.bam chr2:20,100,000-20,200,000

samtools 合并 out.bam in1.bam in2.bam in3.bam

samtools faidx 参考fasta

samtools 堆积 -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools 索引 in.bcf

bcftools 查看 in.bcf chr2:100-200 > out.vcf

bcftools 查看 -Nvm0.99 in.bcf > out.vcf 2> out.afs

商品描述


Samtools 是一组以 BAM 格式操作对齐的实用程序。 它进口
从和导出到 SAM(序列比对/映射)格式,进行排序、合并和
索引,并允许快速检索任何区域的读取。

Samtools 旨在处理流。 它以输入文件“-”为标准
输入(stdin)和输出文件“-”作为标准输出(stdout)。 几个命令可以
因此可以与 Unix 管道结合使用。 Samtools 总是输出警告和错误信息给
标准错误输出 (stderr)。

Samtools 还能够在远程 FTP 或 HTTP 服务器上打开 BAM(非 SAM)文件,如果
BAM 文件名以“ftp://”或“http://”开头。 Samtools 检查当前工作
索引文件的目录,并在不存在时下载索引。 Samtools 没有
检索整个对齐文件,除非要求这样做。

山姆工具 指令 AND 配置


查看 samtools 视图 [-bchuHS] [-t in.refList] [-o 输出] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l 库] [-r readGroup] [-R rgFile] | [区域1
[...]

以 SAM 或 BAM 格式提取/打印所有或子对齐方式。 如果没有区域
指定,将打印所有对齐; 否则只有对齐
重叠指定的区域将被输出。 可以给出对齐方式
如果它重叠了几个区域,则多次。 可以呈现一个区域,
例如,采用以下格式:`chr2'(整个 chr2),`chr2:1000000'
(区域从 1,000,000bp 开始)或 `chr2:1,000,000-2,000,000'(区域之间
1,000,000 和 2,000,000bp,包括端点)。 坐标是基于 1 的。

选项:

-b 以 BAM 格式输出。

-f INT 仅输出与 INT 中存在于 FLAG 字段中的所有位的对齐。
INT可以是/^0x[0-9A-F]+/[0]格式的十六进制

-F INT 使用 INT [0] 中存在的位跳过对齐

-h 在输出中包含标题。

-H 仅输出标题。

-l STR 仅输出读取库 STR [null]

-o 文件 输出文件 [标准输出]

-q INT 跳过 MAPQ 小于 INT [0] 的对齐

-r STR 仅在读取组 STR 中读取输出 [null]

-R 文件 中列出的读取组中的输出读取 文件 [空值]

-s FLOAT 要子采样的模板/对的分数; 整数部分被处理
作为随机数生成器的种子 [-1]

-S 输入在 SAM 中。 如果没有@SQ 标题行,则 '-t' 选项是
必需的。

-c 而不是打印对齐,只计算它们并打印
总数。 所有过滤器选项,例如 '-f', '-F''-q' ,都是
考虑在内。

-t 文件 此文件以制表符分隔。 每行必须包含引用名称
和引用的长度,每个不同的引用一行;
附加字段将被忽略。 该文件还定义了
排序中的参考序列。 如果你运行`samtools faidx ',
结果索引文件 .fai 可以用作这个
文件中。

-u 输出未压缩的 BAM。 此选项可节省花费在
压缩/解压缩,因此在输出为
通过管道传输到另一个 samtools 命令。

视图 samtools 视图 [-p 字符:位置[-s STR[-d 显示、] [ref.fasta]

文本对齐查看器(基于 ncurses 库)。 在查看器中,按“?”
寻求帮助并按“g”以检查从格式中的区域开始的对齐方式
当查看相同的参考时,像 `chr10:10,000,000' 或 `=10,000,000'
序列。

选项:

-d 显示、 输出为 (H)tml 或 (C)urses 或 (T)ext

-p 字符:位置 直接到这个位置

-s STR 仅显示来自该样本或读取组的读取

堆积 samtools 编译 [-E错误[-C 上限系数[-r [-f 输入法[-l 名单[-M
地图Q[-Q 最小基数[-q 最小映射Q] 在.bam [in2.bam [...]]

为一个或多个 BAM 文件生成 BCF 或堆积。 对齐记录是
按@RG 标题行中的示例标识符分组。 如果样本标识符是
不存在时,每个输入文件被视为一个样本。

在堆积格式(没有 -uor-g),每条线代表一个基因组位置,
由染色体名称、坐标、参考碱基、读取碱基、读取
质量和对齐映射质量。 有关匹配、不匹配、
插入缺失、链、映射质量以及读取的开始和结束都在
读取基列。 在这一列,一个点代表与引用的匹配
基于正向链,在反向链上匹配的逗号,“>”或
'<' 用于参考跳过,'ACGTN' 用于正向链上的不匹配和
`acgtn' 表示反向链上的不匹配。 一个模式`\+[0-9]+[ACGTNacgtn]+'
表示在这个参考位置和下一个参考位置之间有一个插入
参考位置。 插入的长度由整数中的整数给出
模式,然后是插入的序列。 同样,一个模式
`-[0-9]+[ACGTNacgtn]+' 表示从引用中删除。 被删除的
碱基将在以下几行中显示为“*”。 也在阅读基地
列中,符号“^”标记读取的开始。 字符的 ASCII
'^' 减 33 后给出映射质量。 符号“$”表示结束
一个读段。

输入 选项:

-6 假设质量采用 Illumina 1.3+ 编码。 -A 不要跳过
变异调用中的异常读取对。

-B 禁用概率重新对齐以计算基数
对齐质量 (BAQ)。 BAQ 是读取的 Phred 标度概率
底座错位。 应用此选项极大地有助于减少
错位引起的错误 SNP。

-b 文件 输入 BAM 文件列表,每行一个文件 [null]

-C INT 用于降低包含读取的映射质量的系数
过度错配。 给定一个具有 phred 缩放概率 q 的读取
从映射位置生成,新的映射质量
大约是 sqrt((INT-q)/INT)*INT。 零值禁用此
功能; 如果启用,BWA 的推荐值为 50。 [0]

-d INT 在一个位置,最大限度地阅读 INT 读取每个输入 BAM。 [250]

-E 扩展 BAQ 计算。 此选项有助于提高灵敏度,特别是对于
MNPs,但可能会损害特异性。

-f 文件 费德克斯- FASTA 格式的索引参考文件。 该文件可以是
可选压缩 拉拉链. [空值]

-l 文件 包含区域或站点列表的 BED 或位置列表文件
应生成堆积或 BCF [空]

-q INT 要使用的对齐的最低映射质量 [0]

-Q INT 要考虑的基础的最低基础质量 [13]

-r STR 只在区域内产生堆积 STR [所有网站]

输出 选项:

-D 输出每个样本读取深度

-g 计算基因型似然并以二进制调用格式输出
(BCF)。

-S 输出每个样本 Phred 缩放的链偏差 P 值

-u-g 除了输出是未压缩的 BCF,这是
首选管道。

附加选项 基因型 可能性 计算 (用于 -g or -u):

-e INT Phred-scaled gap extension测序错误概率。 减少 INT
导致更长的插入缺失。 [20]

-h INT 用于模拟均聚物误差的系数。 给定一个 l-长
均聚物运行,大小插入缺失的测序错误 s 被建模
as INT*s/l。 [100]

-I 不执行 INDEL 调用

-L INT 如果每个样本的平均深度高于,则跳过 INDEL 调用 INT.
[250]

-o INT Phred-scaled gap open 测序错误概率。 减少 INT 线索
更多 indel 调用。 [40]

-p 对每个样本应用 -m 和 -F 阈值以提高灵敏度
打电话。 默认情况下,这两个选项都应用于从所有
样本。

-P STR 逗号分隔的平台列表(由 @RG-PL) 从中
获得 indel 候选。 建议收集indel
来自具有低插入/缺失错误率的测序技术的候选者
比如 ILLUMINA。 [全部]

转发器 samtools 转发器

将标题替换为 在.bam 带有标题 in.header.sam。 这个命令是
比用 BAM->SAM->BAM 转换替换标头要快得多。

samtools cat [-h header.sam] [-o out.bam] [...]

连接 BAM。 每个输入 BAM 的序列字典必须相同,
虽然这个命令不检查这个。 此命令使用类似的技巧
转发器 这可以实现快速 BAM 串联。

分类 samtools 排序 [-nof] [-m maxMem]

按最左边的坐标对对齐进行排序。 文件 .bam 将被创建。
此命令也可能会创建临时文件 .%d.bam 当整个
对齐无法装入内存(由选项 -m 控制)。

选项:

-o 输出最终对齐到标准输出。

-n 按读取名称而不是染色体坐标排序

-f 使用 作为完整的输出路径,不要追加 .bam 后缀。

-m INT 大约是所需的最大内存。 [500000000]

合并 samtools 合并 [-nur1f] [-h inh.sam] [-R reg]
[...]

合并多个排序对齐。 所有输入的标题引用列表
BAM 文件,以及 @SQ 头文件 人参,如果有,必须都指同一个
参考序列集。 标头引用列表和(除非被覆盖
-h) `@' 的标题 in1.bam 将被复制到 输出文件, 以及其他的标题
文件将被忽略。

选项:

-1 使用 zlib 压缩级别 1 压缩输出

-f 强制覆盖输出文件(如果存在)。

-h 文件 使用以下行 文件 作为要复制到的“@”标题 输出文件,替换
否则将从中复制的任何标题行 in1.bam。 (文件 is
实际上是 SAM 格式,尽管它可能包含的任何对齐记录都是
忽略。)

-n 输入比对按读取名称排序,而不是按染色体排序
坐标

-R STR 合并指定区域内的文件 STR [空值]

-r 将 RG 标签附加到每个对齐。 标签值是从文件中推断出来的
名称。

-u 未压缩的 BAM 输出

指数 samtools 索引

索引排序对齐以实现快速随机访问。 索引文件 .bai
创建。

idx统计信息 samtools idxstats

在索引文件中检索和打印统计信息。 输出以制表符分隔
每行包含参考序列名称、序列长度、#mapped read
和 # 未映射的读取。

费德克斯 samtools faidx [region1 [...]]

以 FASTA 格式索引参考序列或从索引中提取子序列
参考序列。 如果没有指定地区, 费德克斯 将索引文件和
创建信息图 .fai 在磁盘上。 如果指定了区域,则子序列
将以 FASTA 格式检索并打印到标准输出。 输入文件可以
被压缩在 拉兹夫 格式。

固定伴侣 samtools 固定工具

从名称排序中填写配合坐标、ISIZE 和配合相关标志
对准。

备份 samtools rmdup [-sS]

删除潜在的 PCR 重复项:如果多个读取对具有相同的外部
坐标,只保留映射质量最高的对。 在配对-
结束模式,这个命令 适用于 FR 方向并且需要 ISIZE 是
正确设置。 它不适用于未配对的读取(例如,两端映射到
不同的染色体或孤儿读取)。

选项:

-s 删除重复的单端读取。 默认情况下,该命令适用于
双端只读。

-S 处理双端读取和单端读取。

冷静 samtools 平静 [-EeubSr] [-C capQcoef]

生成 MD 标签。 如果 MD 标签已经存在,这个命令将给出一个
如果生成的 MD 标记与现有标记不同,则发出警告。 输出 SAM
默认情况下。

选项:

-A 当与 -r 此选项覆盖原始基础
质量。

-e 如果它与对齐的引用相同,则将读取基数转换为 =
根据。 Indel 调用者目前不支持 = 基数。

-u 输出未压缩的 BAM

-b 输出压缩 BAM

-S 输入是带有标题行的 SAM

-C INT 限制映射不良读取的映射质量的系数。 见
积累 命令了解详情。 [0]

-r 计算 BQ 标签(不带 -A)或通过 BAQ(带 -A)的基本质量。

-E 扩展 BAQ 计算。 此选项交换特殊性
敏感性,虽然影响很小。

目标切入点 samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
参考]

此命令通过检查读取的连续性来识别目标区域
深度,计算目标的单倍体共有序列并输出具有
每个序列对应一个目标。 When option -f 正在使用中,BAQ 将是
应用。 这个命令是 仅由 专为从 fosmid 中切割 fosmid 克隆而设计
池测序 [Ref. 基茨曼等人。 (2010)]。

samtools 阶段 [-AF] [-k len] [-b 前缀] [-q minLOD] [-Q minBaseQ]

调用和定相杂合 SNP。 选项:

-A 删除阶段不明确的读取。

-b STR BAM 输出的前缀。 使用此选项时,阶段 0 读取将是
保存在文件中 STR.0.bam 和 phase-1 读入 STR.1.巴姆。 阶段未知
读取将随机分配给两个文件之一。 嵌合阅读
开关错误将被保存在 STR.chimeric.bam。 [空值]

-F 不要试图修复嵌合读数。

-k INT 局部定相的最大长度。 [13]

-q INT 调用杂合子的最小 Phred 缩放 LOD。 [40]

-Q INT 在 het 调用中使用的最低碱基质量。 [13]

BCFT工具 指令 AND 配置


查看 工具 查看 [-AbFGNQSucgv[-D 序列字典[-l 列表位点[-s 列表示例[-i
gapSN比率[-t 变率[-p 变量阈值[-m 变量阈值[-P [-1 组1]
[-d 最小压裂[-U 烫发[-X 烫发[-T 三型] 在.bcf [地区]

在 BCF 和 VCF 之间转换,调用候选变体并估计等位基因
频率。

输入输出 选项:

-A 在变异位点保留所有可能的替代等位基因。 默认情况下,
view 命令会丢弃不太可能的等位基因。

-b 以 BCF 格式输出。 默认值为 VCF。

-D 文件 用于 VCF->BCF 转换的序列字典(染色体名称列表)
[空值]

-F 表示 PL 是由 r921 或之前生成的(顺序不同)。

-G 抑制所有个体基因型信息。

-l 文件 输出信息的站点列表[所有站点]

-N 跳过 REF 字段不是 A/C/G/T 的站点

-Q 输出 QCALL 似然格式

-s 文件 要使用的示例列表。 输入中的第一列给出了样本
名称,第二个给出倍性,它只能是 1 或 2。当
第 2 列不存在,假设样本倍性为 2。
输出,样本的顺序将与中的相同 文件.
[空值]

-S 输入是 VCF 而不是 BCF。

-u 未压缩的 BCF 输出(强制 -b)。

共识/变体 调用 选项:

-c 使用贝叶斯推理调用变体。 这个选项自动
调用选项 -e.

-d FLOAT 什么时候 -v 正在使用中,跳过被覆盖的样本部分的位点
读取低于 FLOAT。 [0]

-e 仅执行最大似然推理,包括估计站点
等位基因频率,测试 Hardy-Weinberg 平衡和测试
与轻轨的关联。

-g 在变异位点调用每个样本的基因型 (force -c)

-i FLOAT INDEL 到 SNP 突变率的比率 [0.15]

-m FLOAT 用于改进多等位基因和稀有变异检测的新模型。 其他
如果 LRT 的 P(chi^2) 超过 FLOAT 阈值,则接受 ALT 等位基因。
该参数看似稳健,实际值通常不
对结果影响很大; 一个很好的使用价值是 0.99。 这是
推荐的调用方式。 [0]

-p FLOAT 如果 P(ref|D)

-P STR 先前或初始等位基因频谱。 如果STR可以 , 条件2,
平面 或由先前变体的错误输出组成的文件
叫跑。

-t FLOAT 变异调用的缩放突变率 [0.001]

-T STR 启用双人/三人通话。 对于三重呼叫,选项 -s 通常是
需要应用来配置三重奏成员及其排序。
在提供给选项的文件中 -s,第一个样本必须是
孩子,第二个是父亲,第三个是母亲。 有效的
的值 STR 是“pair”、“trioauto”、“trioxd”和“trioxs”,其中
`pair' 调用两个输入样本之间的差异,而 `trioxd'
(`trioxs') 指定输入来自 X 染色体非 PAR
地区和孩子是女性(男性)。 [空值]

-v 仅输出变体站点 (force -c)

对比度 调用 社区 测试 选项:

-1 INT 第 1 组样本的数量。 此选项用于划分
将样本分成两组进行对比 SNP 调用或关联测试。
使用此选项时,将输出以下 VCF INFO:
PC2、PCHI2 和 QCHI2。 [0]

-U INT 关联测试的排列数(仅对 -1)
[0]

-X FLOAT 只对 P(chi^2) 进行排列 -U)
[0.01]

指数 工具 指数 在.bcf

索引排序 BCF 用于随机访问。

工具 in1.bcf [in2.bcf [...]]]

连接 BCF 文件。 输入文件需要排序并具有
相同的样本以相同的顺序出现。

SAM FORMAT


序列比对/映射 (SAM) 格式以制表符分隔。 除了标题行,
以“@”符号开头,每条对齐线包括:

┌────┬─────────┬────────────────────────────────────── ────────────────────────┐
关口领域产品描述
├────┼────────┼────────────────────────────────────── ────────────────────────┤
│ 1 │ QNAME │ 查询模板/对 NAME │
│ 2 │ 标志 │ 按位标志 │
│ 3 │ RNAME │ 参考序列NAME │
│ 4 │ POS │ 1-based 最左边的位置/剪辑序列的坐标 │
│ 5 │ MAPQ │ 映射质量(Phred-scaled)│
│ 6 │ CIAGR │ 扩展雪茄串│
│ 7 │ MRNM │ Mate 参考序列名称(`=' 如果与 RNAME 相同)│
│ 8 │ MPOS │ 基于 1 的配合位置 │
│ 9 │ TLEN │ 推断的模板长度(插入尺寸)│
│10 │ SEQ │ 在与参考相同的链上查询 SEQuence │
│11 │ QUAL │ query QUALity (ASCII-33 给出 Phred 基本质量) │
│12+ │ OPT │ 变量可选字段,格式为 TAG:VTYPE:VALUE │
└────┴────────┴──────────────────────────────────── ──────────────────────────┘

FLAG 字段中的每一位定义为:

┌────────┬──────┬───────────────────────────────────── ──────────────────┐
染色体产品描述
├────────┼─────┼─────────────────────────────────── ──────────────────┤
│0x0001 │ p │ read在测序中配对│
│0x0002 │ P │ 读取被映射成正确的对 │
│0x0004 │ u │ 查询序列本身未映射 │
│0x0008 │ U │ 配对未映射 │
│0x0010 │ r │ 查询链(1 表示反向)│
│0x0020 │ R │ 伴侣链│
│0x0040 │ 1 │ 读取是一对中的第一个读取 │
│0x0080 │ 2 │ 读取是一对中的第二个读取 │
│0x0100 │ s │ 对齐不是主要的 │
│0x0200 │ f │ 读取失败平台/供应商质量检查 │
│0x0400 │ d │ 读数是 PCR 或光学复制品 │
└───────┴─────┴───────────────────────────────────── ──────────────────┘
其中第二列给出了 FLAG 字段的字符串表示。

VCF FORMAT


Variant Call Format (VCF) 是一种以制表符分隔的格式,每个数据行由
以下字段:

┌────┬──────────┬───────────────────────────────────── ──────────────────────────────┐
关口领域产品描述
├────┼────────┼────────────────────────────────────── ──────────────────────────────┤
│ 1 │ CHROM │ 染色体名称│
│ 2 │ POS │ 变体最左边的POSition │
│ 3 │ ID │ 唯一变体IDentifier │
│ 4 │ REF │ REFerence 等位基因 │
│ 5 │ ALT │ 备用等位基因,以逗号分隔 │
│ 6 │ QUAL │ 变体/参考质量 │
│ 7 │ 过滤器 │ 过滤器应用 │
│ 8 │ INFO │ 与变体相关的INFOrmation,以分号分隔│
│ 9 │ FORMAT │ 基因型字段的格式,以冒号分隔(可选)│
│10+ │ SAMPLE │ SAMPLE 基因型和每个样本的信息(可选)│
└────┴────────┴──────────────────────────────────── ──────────────────────────────┘

下表给出了 信息 samtools 和 bcftools 使用的标签。

┌──────┬──────────────┬──────────────────────────────── ────────────────────────────────────────────────────── ──────────────────────┐
标签格式产品描述
├──────┼─────────────┼────────────────────────────── ────────────────────────────────────────────────────── ────────────────────────┤
└──────┴─────────────┴────────────────────────────── ────────────────────────────────────────────────────── ──────────────────────┘

示例


o 将 SAM 导入 BAM 时 @SQ 行存在于标题中:

samtools 查看 -bS aln.sam > aln.bam

If @SQ 行不存在:

samtools faidx 参考.fa
samtools 查看 -bt ref.fa.fai aln.sam > aln.bam

哪里 fa.fai 由自动生成 费德克斯 命令。

o 附上 RG 合并排序对齐时的标记:

perl -e '打印
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools 合并 -rh rg.txt 合并.bam ga.bam 454.bam

中的值 RG 标签由读取的文件名决定。 在这
例如,在 合并.bam,读取自 加巴姆 将附上 RG:Z:ga,而从
454.巴姆 将附上 RG:Z:454.

o 为一个二倍体个体调用 SNP 和短 INDEL:

samtools mpileup -ugf ref.fa aln.bam | bcftools 查看 -bvcg -> var.raw.bcf
bcftools 查看 var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

-D varFilter 的选项控制最大读取深度,应调整为
大约是平均读取深度的两倍。 可以考虑添加 -C50堆积 如果映射
对于包含过多错配的读取,质量被高估了。 应用此选项
通常有帮助 BWA-短 但可能不是其他映射器。

o 为一个二倍体个体生成一致序列:

samtools mpileup -uf ref.fa aln.bam | bcftools 查看 -cg - | vcfutils.pl vcf2fq >
中文网

o 从一对样本中调用体细胞突变:

samtools mpileup -DSuf ref.fa aln.bam | bcftools 查看 -bvcgT 对 -> var.bcf

在输出信息字段中, CLR 给出似然之间的 Phred-log 比率
独立处理两个样本,以及通过要求基因型的可能性
相同。 这个 CLR 是衡量躯体信心的有效分数
调用。 越高越好。

o 从一个家庭三重奏中调用 de novo 和体细胞突变:

samtools mpileup -DSuf ref.fa aln.bam | bcftools 查看 -bvcgT pair -s samples.txt ->
变种bcf

文件 样本.txt 应该由三行组成,指定成员和顺序
样本(按照孩子-父亲-母亲的顺序)。 相似地, CLR 给出 Phred-log
有和没有三重约束的似然比。 UGT 显示最有可能
没有三重约束的基因型配置,和 CGT 给出最有可能的
满足三重约束的基因型配置。

o 第一阶段个人:

samtools 平静-AEur aln.bam ref.fa | samtools 阶段 -b 前缀 -> phase.out

冷静 命令用于减少 INDEL 周围的假杂合子。

o 为多个二倍体个体调用 SNP 和短插入缺失:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools 查看 -bcvg -> var.raw.bcf
bcftools 查看 var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

个人是从 SM 标签中的 @RG 标题行。 个人可以
汇集在一个比对文件中; 一个人也可以分成多个文件。
-P 选项指定应仅从读取组中收集 indel 候选
@RG-PL 标签设置为 伊鲁米娜. 从测序的reads中收集indel候选
由易发生 indel 的技术可能会影响 indel 调用的性能。

请注意,有一个新的调用模型可以通过

bcftools 查看 -m0.99 ...

它修复了默认方法的一些严重限制。

对于过滤,最好的结果似乎是首先应用 间隙 过滤和
然后应用一些机器学习方法

vcf-注释-f SnpGap=n
vcf过滤器...

两者都可以在 vcf 工具动态库 包(下面的链接)。

o 从多个个体的站点列表中导出等位基因频谱 (AFS):

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools 查看 -bl sites.list all.bcf > sites.bcf
bcftools 查看 -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools 查看 -cGP sites.1.afs sites.bcf > /dev/null 2>sites.2.afs
bcftools 查看 -cGP sites.2.afs sites.bcf > /dev/null 2>sites.3.afs
......

哪里 站点列表 包含站点列表,每行包含参考
序列名称和位置。 下列 工具 命令通过 EM 估计 AFS。

o 转储 BAQ 应用比对其他 SNP 调用者:

samtools 平静 -bAr aln.bam > aln.baq.bam

它添加并更正了 NMMD 同时标记。 这 冷静 命令也来了
-C 选项,与中的相同 积累堆积. 如果有帮助,请申请。

限制


o 在 bam_import.c、bam_endian.h、bam.c 和 bam_aux.c 中使用的未对齐词。

o Samtools 配对末端 rmdup 不适用于未配对读取(例如孤立读取或末端
映射到不同的染色体)。 如果这是一个问题,请使用 Picard 的
MarkDuplicate 可以正确处理这些情况,尽管速度稍慢。

使用 onworks.net 服务在线使用 bcftools


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad