GoGPT Best VPN GoSearch

OnWorks 网站图标

工具

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 samtools

这是 samtools 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


samtools - 序列比对/映射 (SAM) 格式的实用程序

bcftools - 二进制调用格式 (BCF) 和 VCF 的实用程序

概要


samtools 查看 -bt ref_list.txt -o aln.bam aln.sam.gz

samtools 排序 aln.bam aln.sorted

samtools 索引 aln.sorted.bam

samtools idxstats aln.sorted.bam

samtools 查看 aln.sorted.bam chr2:20,100,000-20,200,000

samtools 合并 out.bam in1.bam in2.bam in3.bam

samtools faidx 参考fasta

samtools 堆积 -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools 索引 in.bcf

bcftools 查看 in.bcf chr2:100-200 > out.vcf

bcftools 查看 -Nvm0.99 in.bcf > out.vcf 2> out.afs

商品描述


Samtools 是一组以 BAM 格式操作对齐的实用程序。 它进口
从和导出到 SAM(序列比对/映射)格式,进行排序、合并和
索引,并允许快速检索任何区域的读取。

Samtools 旨在处理流。 它以输入文件“-”为标准
输入(stdin)和输出文件“-”作为标准输出(stdout)。 几个命令可以
因此可以与 Unix 管道结合使用。 Samtools 总是输出警告和错误信息给
标准错误输出 (stderr)。

Samtools 还能够在远程 FTP 或 HTTP 服务器上打开 BAM(非 SAM)文件,如果
BAM 文件名以“ftp://”或“http://”开头。 Samtools 检查当前工作
索引文件的目录,并在不存在时下载索引。 Samtools 没有
检索整个对齐文件,除非要求这样做。

山姆工具 指令 AND 配置


查看 samtools 视图 [-bchuHS] [-t in.refList] [-o 输出] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l 库] [-r readGroup] [-R rgFile] | [区域1
[...]

以 SAM 或 BAM 格式提取/打印所有或子对齐方式。 如果没有区域
指定,将打印所有对齐; 否则只有对齐
重叠指定的区域将被输出。 可以给出对齐方式
如果它重叠了几个区域,则多次。 可以呈现一个区域,
例如,采用以下格式:`chr2'(整个 chr2),`chr2:1000000'
(区域从 1,000,000bp 开始)或 `chr2:1,000,000-2,000,000'(区域之间
1,000,000 和 2,000,000bp,包括端点)。 坐标是基于 1 的。

选项:

-b 以 BAM 格式输出。

-f INT 仅输出与 INT 中存在于 FLAG 字段中的所有位的对齐。
INT可以是/^0x[0-9A-F]+/[0]格式的十六进制

-F INT 使用 INT [0] 中存在的位跳过对齐

-h 在输出中包含标题。

-H 仅输出标题。

-l STR 仅输出读取库 STR [null]

-o 文件 输出文件 [标准输出]

-q INT 跳过 MAPQ 小于 INT [0] 的对齐

-r STR 仅在读取组 STR 中读取输出 [null]

-R 文件 中列出的读取组中的输出读取 文件 [空值]

-s FLOAT 要子采样的模板/对的分数; 整数部分被处理
作为随机数生成器的种子 [-1]

-S 输入在 SAM 中。 如果没有@SQ 标题行,则 '-t' 选项是
必需的。

-c 而不是打印对齐,只计算它们并打印
总数。 所有过滤器选项,例如 '-f', '-F''-q' ,都是
考虑在内。

-t 文件 此文件以制表符分隔。 每行必须包含引用名称
和引用的长度,每个不同的引用一行;
附加字段将被忽略。 该文件还定义了
排序中的参考序列。 如果你运行`samtools faidx ',
结果索引文件 .fai 可以用作这个
文件中。

-u 输出未压缩的 BAM。 此选项可节省花费在
压缩/解压缩,因此在输出为
通过管道传输到另一个 samtools 命令。

视图 samtools 视图 [-p 字符:位置[-s STR[-d 产品] [ref.fasta]

文本对齐查看器(基于 ncurses 库)。 在查看器中,按“?”
寻求帮助并按“g”以检查从格式中的区域开始的对齐方式
当查看相同的参考时,像 `chr10:10,000,000' 或 `=10,000,000'
序列。

选项:

-d 产品 输出为 (H)tml 或 (C)urses 或 (T)ext

-p 字符:位置 直接到这个位置

-s STR 仅显示来自该样本或读取组的读取

堆积 samtools 编译 [-E错误[-C 上限系数[-r [-f 输入法[-l 名单[-M
地图Q[-Q 最小基数[-q 最小映射Q] 在.bam [in2.bam [...]]

为一个或多个 BAM 文件生成 BCF 或堆积。 对齐记录是
按@RG 标题行中的示例标识符分组。 如果样本标识符是
不存在时,每个输入文件被视为一个样本。

在堆积格式(没有 -uor-g),每条线代表一个基因组位置,
由染色体名称、坐标、参考碱基、读取碱基、读取
质量和对齐映射质量。 有关匹配、不匹配、
插入缺失、链、映射质量以及读取的开始和结束都在
读取基列。 在这一列,一个点代表与引用的匹配
基于正向链,在反向链上匹配的逗号,“>”或
'<' 用于参考跳过,'ACGTN' 用于正向链上的不匹配和
`acgtn' 表示反向链上的不匹配。 一个模式`\+[0-9]+[ACGTNacgtn]+'
表示在这个参考位置和下一个参考位置之间有一个插入
参考位置。 插入的长度由整数中的整数给出
模式,然后是插入的序列。 同样,一个模式
`-[0-9]+[ACGTNacgtn]+' 表示从引用中删除。 被删除的
碱基将在以下几行中显示为“*”。 也在阅读基地
列中,符号“^”标记读取的开始。 字符的 ASCII
'^' 减 33 后给出映射质量。 符号“$”表示结束
一个读段。

输入 选项:

-6 假设质量采用 Illumina 1.3+ 编码。 -A 不要跳过
变异调用中的异常读取对。

-B 禁用概率重新对齐以计算基数
对齐质量 (BAQ)。 BAQ 是读取的 Phred 标度概率
底座错位。 应用此选项极大地有助于减少
错位引起的错误 SNP。

-b 文件 输入 BAM 文件列表,每行一个文件 [null]

-C INT 用于降低包含读取的映射质量的系数
过度错配。 给定一个具有 phred 缩放概率 q 的读取
从映射位置生成,新的映射质量
大约是 sqrt((INT-q)/INT)*INT。 零值禁用此
功能; 如果启用,BWA 的推荐值为 50。 [0]

-d INT 在一个位置,最大限度地阅读 INT 读取每个输入 BAM。 [250]

-E 扩展 BAQ 计算。 此选项有助于提高灵敏度,特别是对于
MNPs,但可能会损害特异性。

-f 文件 这个 费德克斯- FASTA 格式的索引参考文件。 该文件可以是
可选压缩 拉拉链. [空值]

-l 文件 包含区域或站点列表的 BED 或位置列表文件
应生成堆积或 BCF [空]

-q INT 要使用的对齐的最低映射质量 [0]

-Q INT 要考虑的基础的最低基础质量 [13]

-r STR 只在区域内产生堆积 STR [所有网站]

输出 选项:

-D 输出每个样本读取深度

-g 计算基因型似然并以二进制调用格式输出
(BCF)。

-S 输出每个样本 Phred 缩放的链偏差 P 值

-u-g 除了输出是未压缩的 BCF,这是
首选管道。

可选项 HPMC胶囊 基因型 可能性 计算 (用于 -g or -u):

-e INT Phred-scaled gap extension测序错误概率。 减少 INT
导致更长的插入缺失。 [20]

-h INT 用于模拟均聚物误差的系数。 给定一个 l-长
均聚物运行,大小插入缺失的测序错误 s 被建模
as INT*s/l。 [100]

-I 不执行 INDEL 调用

-L INT 如果每个样本的平均深度高于,则跳过 INDEL 调用 INT.
[250]

-o INT Phred-scaled gap open 测序错误概率。 减少 INT 线索
更多 indel 调用。 [40]

-p 对每个样本应用 -m 和 -F 阈值以提高灵敏度
打电话。 默认情况下,这两个选项都应用于从所有
样本。

-P STR 逗号分隔的平台列表(由 @RG-PL) 从中
获得 indel 候选。 建议收集indel
来自具有低插入/缺失错误率的测序技术的候选者
比如 ILLUMINA。 [全部]

转发器 samtools 转发器

将标题替换为 在.bam 带有标题 in.header.sam。 这个命令是
比用 BAM->SAM->BAM 转换替换标头要快得多。

samtools cat [-h header.sam] [-o out.bam] [...]

连接 BAM。 每个输入 BAM 的序列字典必须相同,
虽然这个命令不检查这个。 此命令使用类似的技巧
转发器 这可以实现快速 BAM 串联。

分类 samtools 排序 [-nof] [-m maxMem]

按最左边的坐标对对齐进行排序。 文件 .bam 将被创建。
此命令也可能会创建临时文件 .%d.bam 当整个
对齐无法装入内存(由选项 -m 控制)。

选项:

-o 输出最终对齐到标准输出。

-n 按读取名称而不是染色体坐标排序

-f 使用 VHDL 语言编写 作为完整的输出路径,不要追加 .bam 后缀。

-m INT 大约是所需的最大内存。 [500000000]

合并 samtools 合并 [-nur1f] [-h inh.sam] [-R reg]
[...]

合并多个排序对齐。 所有输入的标题引用列表
BAM 文件,以及 @SQ 头文件 人参,如果有,必须都指同一个
参考序列集。 标头引用列表和(除非被覆盖
-h) `@' 的标题 in1.bam 将被复制到 输出文件, 以及其他的标题
文件将被忽略。

选项:

-1 使用 zlib 压缩级别 1 压缩输出

-f 强制覆盖输出文件(如果存在)。

-h 文件 使用以下行 文件 作为要复制到的“@”标题 输出文件,替换
否则将从中复制的任何标题行 in1.bam。 (文件 is
实际上是 SAM 格式,尽管它可能包含的任何对齐记录都是
忽略。)

-n 输入比对按读取名称排序,而不是按染色体排序
坐标

-R STR 合并指定区域内的文件 STR [空值]

-r 将 RG 标签附加到每个对齐。 标签值是从文件中推断出来的
名称。

-u 未压缩的 BAM 输出

指数 samtools 索引

索引排序对齐以实现快速随机访问。 索引文件 .bai
创建。

idx统计信息 samtools idxstats

在索引文件中检索和打印统计信息。 输出以制表符分隔
每行包含参考序列名称、序列长度、#mapped read
和 # 未映射的读取。

费德克斯 samtools faidx [region1 [...]]

以 FASTA 格式索引参考序列或从索引中提取子序列
参考序列。 如果没有指定地区, 费德克斯 将索引文件和
创建信息图 .fai 在磁盘上。 如果指定了区域,则子序列
将以 FASTA 格式检索并打印到标准输出。 输入文件可以
被压缩在 拉兹夫 格式。

固定伴侣 samtools 固定工具

从名称排序中填写配合坐标、ISIZE 和配合相关标志
对准。

备份 samtools rmdup [-sS]

删除潜在的 PCR 重复项:如果多个读取对具有相同的外部
坐标,只保留映射质量最高的对。 在配对-
结束模式,这个命令 适用于 FR 方向并且需要 ISIZE 是
正确设置。 它不适用于未配对的读取(例如,两端映射到
不同的染色体或孤儿读取)。

选项:

-s 删除重复的单端读取。 默认情况下,该命令适用于
双端只读。

-S 处理双端读取和单端读取。

冷静 samtools 平静 [-EeubSr] [-C capQcoef]

生成 MD 标签。 如果 MD 标签已经存在,这个命令将给出一个
如果生成的 MD 标记与现有标记不同,则发出警告。 输出 SAM
默认情况下。

选项:

-A 当与 -r 此选项覆盖原始基础
质量。

-e 如果它与对齐的引用相同,则将读取基数转换为 =
根据。 Indel 调用者目前不支持 = 基数。

-u 输出未压缩的 BAM

-b 输出压缩 BAM

-S 输入是带有标题行的 SAM

-C INT 限制映射不良读取的映射质量的系数。 见
积累 命令了解详情。 [0]

-r 计算 BQ 标签(不带 -A)或通过 BAQ(带 -A)的基本质量。

-E 扩展 BAQ 计算。 此选项交换特殊性
敏感性,虽然影响很小。

目标切入点 samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
参考]

此命令通过检查读取的连续性来识别目标区域
深度,计算目标的单倍体共有序列并输出具有
每个序列对应一个目标。 When option -f 正在使用中,BAQ 将是
应用。 这个命令是 仅由 专为从 fosmid 中切割 fosmid 克隆而设计
池测序 [Ref. 基茨曼等人。 (2010)]。

samtools 阶段 [-AF] [-k len] [-b 前缀] [-q minLOD] [-Q minBaseQ]

调用和定相杂合 SNP。 选项:

-A 删除阶段不明确的读取。

-b STR BAM 输出的前缀。 使用此选项时,阶段 0 读取将是
保存在文件中 STR.0.bam 和 phase-1 读入 STR.1.巴姆。 阶段未知
读取将随机分配给两个文件之一。 嵌合阅读
开关错误将被保存在 STR.chimeric.bam。 [空值]

-F 不要试图修复嵌合读数。

-k INT 局部定相的最大长度。 [13]

-q INT 调用杂合子的最小 Phred 缩放 LOD。 [40]

-Q INT 在 het 调用中使用的最低碱基质量。 [13]

BCFT工具 指令 AND 配置


查看 工具 查看 [-AbFGNQSucgv[-D 序列字典[-l 列表位点[-s 列表示例[-i
gapSN比率[-t 变率[-p 变量阈值[-m 变量阈值[-P [-1 组1]
[-d 最小压裂[-U 烫发[-X 烫发[-T 三型] 在.bcf [地区]

在 BCF 和 VCF 之间转换,调用候选变体并估计等位基因
频率。

输入输出 选项:

-A 在变异位点保留所有可能的替代等位基因。 默认情况下,
view 命令会丢弃不太可能的等位基因。

-b 以 BCF 格式输出。 默认值为 VCF。

-D 文件 用于 VCF->BCF 转换的序列字典(染色体名称列表)
[空值]

-F 表示 PL 是由 r921 或之前生成的(顺序不同)。

-G 抑制所有个体基因型信息。

-l 文件 输出信息的站点列表[所有站点]

-N 跳过 REF 字段不是 A/C/G/T 的站点

-Q 输出 QCALL 似然格式

-s 文件 要使用的示例列表。 输入中的第一列给出了样本
名称,第二个给出倍性,它只能是 1 或 2。当
第 2 列不存在,假设样本倍性为 2。
输出,样本的顺序将与中的相同 文件.
[空值]

-S 输入是 VCF 而不是 BCF。

-u 未压缩的 BCF 输出(强制 -b)。

共识/变体 调用 选项:

-c 使用贝叶斯推理调用变体。 这个选项自动
调用选项 -e.

-d FLOAT 在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 -v 正在使用中,跳过被覆盖的样本部分的位点
读取低于 FLOAT。 [0]

-e 仅执行最大似然推理,包括估计站点
等位基因频率,测试 Hardy-Weinberg 平衡和测试
与轻轨的关联。

-g 在变异位点调用每个样本的基因型 (force -c)

-i FLOAT INDEL 到 SNP 突变率的比率 [0.15]

-m FLOAT 用于改进多等位基因和稀有变异检测的新模型。 其他
如果 LRT 的 P(chi^2) 超过 FLOAT 阈值,则接受 ALT 等位基因。
该参数看似稳健,实际值通常不
对结果影响很大; 一个很好的使用价值是 0.99。 这是
推荐的调用方式。 [0]

-p FLOAT 如果 P(ref|D)

-P STR 先前或初始等位基因频谱。 如果STR可以 , 条件2,
平面 或由先前变体的错误输出组成的文件
叫跑。

-t FLOAT 变异调用的缩放突变率 [0.001]

-T STR 启用双人/三人通话。 对于三重呼叫,选项 -s 通常是
需要应用来配置三重奏成员及其排序。
在提供给选项的文件中 -s,第一个样本必须是
孩子,第二个是父亲,第三个是母亲。 有效的
的值 STR 是“pair”、“trioauto”、“trioxd”和“trioxs”,其中
`pair' 调用两个输入样本之间的差异,而 `trioxd'
(`trioxs') 指定输入来自 X 染色体非 PAR
地区和孩子是女性(男性)。 [空值]

-v 仅输出变体站点 (force -c)

对比度 调用 社区 测试 选项:

-1 INT 第 1 组样本的数量。 此选项用于划分
将样本分成两组进行对比 SNP 调用或关联测试。
使用此选项时,将输出以下 VCF INFO:
PC2、PCHI2 和 QCHI2。 [0]

-U INT 关联测试的排列数(仅对 -1)
[0]

-X FLOAT 只对 P(chi^2) 进行排列 -U)
[0.01]

指数 工具 指数 在.bcf

索引排序 BCF 用于随机访问。

工具 in1.bcf [in2.bcf [...]]]

连接 BCF 文件。 输入文件需要排序并具有
相同的样本以相同的顺序出现。

SAM FORMAT


序列比对/映射 (SAM) 格式以制表符分隔。 除了标题行,
以“@”符号开头,每条对齐线包括:

┌────┬─────────┬────────────────────────────────────── ────────────────────────┐
关口领域描述
├────┼────────┼────────────────────────────────────── ────────────────────────┤
│ 1 │ QNAME │ 查询模板/对 NAME │
│ 2 │ 标志 │ 按位标志 │
│ 3 │ RNAME │ 参考序列NAME │
│ 4 │ POS │ 1-based 最左边的位置/剪辑序列的坐标 │
│ 5 │ MAPQ │ 映射质量(Phred-scaled)│
│ 6 │ CIAGR │ 扩展雪茄串│
│ 7 │ MRNM │ Mate 参考序列名称(`=' 如果与 RNAME 相同)│
│ 8 │ MPOS │ 基于 1 的配合位置 │
│ 9 │ TLEN │ 推断的模板长度(插入尺寸)│
│10 │ SEQ │ 在与参考相同的链上查询 SEQuence │
│11 │ QUAL │ query QUALity (ASCII-33 给出 Phred 基本质量) │
│12+ │ OPT │ 变量可选字段,格式为 TAG:VTYPE:VALUE │
└────┴────────┴──────────────────────────────────── ──────────────────────────┘

FLAG 字段中的每一位定义为:

┌────────┬──────┬───────────────────────────────────── ──────────────────┐
染色体描述
├────────┼─────┼─────────────────────────────────── ──────────────────┤
│0x0001 │ p │ read在测序中配对│
│0x0002 │ P │ 读取被映射成正确的对 │
│0x0004 │ u │ 查询序列本身未映射 │
│0x0008 │ U │ 配对未映射 │
│0x0010 │ r │ 查询链(1 表示反向)│
│0x0020 │ R │ 伴侣链│
│0x0040 │ 1 │ 读取是一对中的第一个读取 │
│0x0080 │ 2 │ 读取是一对中的第二个读取 │
│0x0100 │ s │ 对齐不是主要的 │
│0x0200 │ f │ 读取失败平台/供应商质量检查 │
│0x0400 │ d │ 读数是 PCR 或光学复制品 │
└───────┴─────┴───────────────────────────────────── ──────────────────┘
其中第二列给出了 FLAG 字段的字符串表示。

VCF FORMAT


Variant Call Format (VCF) 是一种以制表符分隔的格式,每个数据行由
以下字段:

┌────┬──────────┬───────────────────────────────────── ──────────────────────────────┐
关口领域描述
├────┼────────┼────────────────────────────────────── ──────────────────────────────┤
│ 1 │ CHROM │ 染色体名称│
│ 2 │ POS │ 变体最左边的POSition │
│ 3 │ ID │ 唯一变体IDentifier │
│ 4 │ REF │ REFerence 等位基因 │
│ 5 │ ALT │ 备用等位基因,以逗号分隔 │
│ 6 │ QUAL │ 变体/参考质量 │
│ 7 │ 过滤器 │ 过滤器应用 │
│ 8 │ INFO │ 与变体相关的INFOrmation,以分号分隔│
│ 9 │ FORMAT │ 基因型字段的格式,以冒号分隔(可选)│
│10+ │ SAMPLE │ SAMPLE 基因型和每个样本的信息(可选)│
└────┴────────┴──────────────────────────────────── ──────────────────────────────┘

下表给出了 信息 samtools 和 bcftools 使用的标签。

┌──────┬──────────────┬──────────────────────────────── ────────────────────────────────────────────────────── ──────────────────────┐
标签格式描述
├──────┼─────────────┼────────────────────────────── ────────────────────────────────────────────────────── ────────────────────────┤
└──────┴─────────────┴────────────────────────────── ────────────────────────────────────────────────────── ──────────────────────┘

示例


o 将 SAM 导入 BAM 时 @SQ 行存在于标题中:

samtools 查看 -bS aln.sam > aln.bam

If @SQ 行不存在:

samtools faidx 参考.fa
samtools 查看 -bt ref.fa.fai aln.sam > aln.bam

协调 fa.fai 由自动生成 费德克斯 命令。

o 附上 RG 合并排序对齐时的标记:

perl -e '打印
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools 合并 -rh rg.txt 合并.bam ga.bam 454.bam

中的值 RG 标签由读取的文件名决定。 在这
例如,在 合并.bam,读取自 加巴姆 将附上 RG:Z:ga,而从
454.巴姆 将附上 RG:Z:454.

o 为一个二倍体个体调用 SNP 和短 INDEL:

samtools mpileup -ugf ref.fa aln.bam | bcftools 查看 -bvcg -> var.raw.bcf
bcftools 查看 var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

这个 -D varFilter 的选项控制最大读取深度,应调整为
大约是平均读取深度的两倍。 可以考虑添加 -C50堆积 如果映射
对于包含过多错配的读取,质量被高估了。 应用此选项
通常有帮助 BWA-短 但可能不是其他映射器。

o 为一个二倍体个体生成一致序列:

samtools mpileup -uf ref.fa aln.bam | bcftools 查看 -cg - | vcfutils.pl vcf2fq >
中文网

o 从一对样本中调用体细胞突变:

samtools mpileup -DSuf ref.fa aln.bam | bcftools 查看 -bvcgT 对 -> var.bcf

在输出信息字段中, CLR 给出似然之间的 Phred-log 比率
独立处理两个样本,以及通过要求基因型的可能性
相同。 这个 CLR 是衡量躯体信心的有效分数
调用。 越高越好。

o 从一个家庭三重奏中调用 de novo 和体细胞突变:

samtools mpileup -DSuf ref.fa aln.bam | bcftools 查看 -bvcgT pair -s samples.txt ->
变种bcf

文件 样本.txt 应该由三行组成,指定成员和顺序
样本(按照孩子-父亲-母亲的顺序)。 相似地, CLR 给出 Phred-log
有和没有三重约束的似然比。 UGT 显示最有可能
没有三重约束的基因型配置,和 CGT 给出最有可能的
满足三重约束的基因型配置。

o 第一阶段个人:

samtools 平静-AEur aln.bam ref.fa | samtools 阶段 -b 前缀 -> phase.out

这个 冷静 命令用于减少 INDEL 周围的假杂合子。

o 为多个二倍体个体调用 SNP 和短插入缺失:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools 查看 -bcvg -> var.raw.bcf
bcftools 查看 var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

个人是从 SM 标签中的 @RG 标题行。 个人可以
汇集在一个比对文件中; 一个人也可以分成多个文件。
这个 -P 选项指定应仅从读取组中收集 indel 候选
@RG-PL 标签设置为 伊鲁米娜. 从测序的reads中收集indel候选
由易发生 indel 的技术可能会影响 indel 调用的性能。

请注意,有一个新的调用模型可以通过

bcftools 查看 -m0.99 ...

它修复了默认方法的一些严重限制。

对于过滤,最好的结果似乎是首先应用 间隙 过滤和
然后应用一些机器学习方法

vcf-注释-f SnpGap=n
vcf过滤器...

两者都可以在 vcf 工具动态库 包(下面的链接)。

o 从多个个体的站点列表中导出等位基因频谱 (AFS):

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools 查看 -bl sites.list all.bcf > sites.bcf
bcftools 查看 -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools 查看 -cGP sites.1.afs sites.bcf > /dev/null 2>sites.2.afs
bcftools 查看 -cGP sites.2.afs sites.bcf > /dev/null 2>sites.3.afs
......

协调 站点列表 包含站点列表,每行包含参考
序列名称和位置。 下列 工具 命令通过 EM 估计 AFS。

o 转储 BAQ 应用比对其他 SNP 调用者:

samtools 平静 -bAr aln.bam > aln.baq.bam

它添加并更正了 NMMD 同时标记。 这 冷静 命令也来了
-C 选项,与中的相同 积累堆积. 如果有帮助,请申请。

限制


o 在 bam_import.c、bam_endian.h、bam.c 和 bam_aux.c 中使用的未对齐词。

o Samtools 配对末端 rmdup 不适用于未配对读取(例如孤立读取或末端
映射到不同的染色体)。 如果这是一个问题,请使用 Picard 的
MarkDuplicate 可以正确处理这些情况,尽管速度稍慢。

使用 onworks.net 服务在线使用 samtools


Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。