英语法语西班牙语

Ad


OnWorks 网站图标

vcftools - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 vcftools

这是 vcftools 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


vcftools - 分析 VCF 文件

概要


vcf 工具 [配置]

商品描述


vcftools 程序是从命令行运行的。 该界面的灵感来自 PLINK,并且
因此,该软件包的用户应该非常熟悉。 命令采用以下形式:

vcftools --vcf file1.vcf --chr 20 --freq

上面的命令告诉 vcftools 读入文件 file1.vcf,提取站点
20号染色体,计算每个位点的等位基因频率。 由此产生的等位基因
频率估计值存储在输出文件 out.freq 中。 如上例所示,
vcftools 的输出主要发送到输出文件,而不是显示在
屏幕上。

请注意,某些命令可能仅在最新版本的 vcftools 中可用。 获得
最新版本,您应该使用 SVN 来检出最新的代码,如
主页。

另请注意,目前不支持多倍体基因型。

基础 附加选项
--vcf
此选项定义要处理的 VCF 文件。 需要解压的文件
在与 vcftools 一起使用之前。 vcftools 需要 VCF 格式 v4.0 的文件,一个
可以在此处找到其规范。

--gzvcf
这个选项可以用来代替 --vcf 选项来读取压缩(gzipped)
VCF 文件直接。 请注意,此选项在用于大型
文件。

- 出去
此选项定义 vcftools 生成的所有文件的输出文件名前缀。
例如,如果设置为 output_filename,则所有输出文件都将被
的形式 output_filename.*** 。 如果省略此选项,则所有输出文件都将
有前缀'out.'。

Site 筛选器 附加选项
--chr
仅处理染色体标识符匹配的位点

--来自-bp

--to-bp
这些选项定义了将被处理的站点的物理范围。 外部站点
这个范围的将被排除在外。 这些选项只能与
--chr。

--snp
包括具有匹配 ID 的 SNP。 这个命令可以多次使用
包括一个以上的 SNP。

--snps
包括文件中给出的 SNP 列表。 该文件应包含 SNP ID 列表,
每行一个 ID。

- 排除
排除文件中给出的 SNP 列表。 该文件应包含 SNP ID 列表,
每行一个 ID。

--职位
在职位列表的基础上包括一组站点。 输入的每一行
文件应包含(制表符分隔的)染色体和位置。 该文件应
有一个标题行。 不包括在列表中的站点被排除在外。

- 床

--排除床
根据 BED 文件包含或排除一组站点。 只有前三个
需要列(chrom、chromStart 和 chromEnd)。 BED 文件应该有一个
标题行。

--删除全部过滤

--删除过滤

--保持过滤
这些选项用于根据站点的 FILTER 标志过滤站点。 这
第一个选项删除所有带有 FILTER 标志的站点。 第二个选项可用于
排除具有特定过滤器标志的站点。 第三个选项可以用来选择
基于特定过滤器标志的站点。 第二个和第三个选项可以是
多次使用以指定多个 FILTER。 --keep-filtered 选项是
在 --remove-filtered 选项之前应用。

--minQ
仅包括质量高于此阈值的网站。

--最小平均DP

--最大平均DP
包括平均深度在这些选项定义的阈值内的站点。

--maf

--最大maf
仅包括在指定范围内具有次要等位基因频率的站点。

--非参考-af

--max-非参考-af
仅包括具有指定范围内的非参考等位基因频率的站点。

- 色调
使用精确检验评估 Hardy-Weinberg Equilibrium 的位点,定义为
威金顿、卡特勒和阿贝卡西斯 (2005)。 p 值低于阈值的站点
由该选项定义的被视为在 HWE 之外,因此被排除在外。

--基因组
根据缺失数据的比例(定义为介于
0和1)。

--min-等位基因

--max-等位基因
仅包括在指定范围内具有多个等位基因的位点。 为了
例如,要仅包括双等位基因位点,可以使用:

vcftools --vcf file1.vcf --最小等位基因 2 --最大等位基因 2

- 面具

--反转掩码

--掩码最小值
基于类似 FASTA 的文件包含站点。 提供的文件包含一个
染色体上每个位置的整数序列(0 到 9 之间)
指定是否应过滤该位置的站点。 示例掩码文件
看起来像:

>1
0000011111222 ...

在本例中,VCF 文件中的位点位于
将保留 1 号染色体的起始位置,而位置 6 以后的位点将被保留
过滤掉了。 确定站点是否被过滤的阈值整数是
使用 --mask-min 选项设置,默认为 0。
掩码文件必须按照与 VCF 文件相同的顺序进行排序。 --mask 选项
用于指定要使用的掩码文件,而 --invert-mask 选项可以
用于指定在应用之前将反转的掩码文件。

个人会员 筛选
--indv
指定要保留在分析中的个人。 此选项可多次使用
次指定多个个体。

- 保持
提供一个文件,其中包含要包含在后续分析中的个人列表。
每个单独的 ID(如 VCF 标题行中所定义)都应包含在
单独的行。

--remove-inv
指定要从分析中删除的个人。 可以使用这个选项
多次指定多个个体。 如果 --indv 选项也是
指定,则 --indv 选项在 --remove-indv 选项之前执行。

- 消除
提供一个文件,其中包含要在后续分析中排除的个人列表。
每个单独的 ID(如 VCF 标题行中所定义)都应包含在
单独的行。 如果同时使用 --keep 和 --remove 选项,则
--keep 选项在 --remove 选项之前执行。

--mon-indv-meanDP

--max-indv-meanDP
计算每个人的平均覆盖率。 只有具有
这些选项指定范围内的覆盖范围包括在后续
分析。

- 头脑
为每个人指定最低呼叫率阈值。

--分阶段
首先排除所有基因型未定相的所有个体,然后
排除具有未定相基因型的所有位点。 因此,剩余的数据包括
仅分阶段数据。

基因型 筛选
--删除过滤基因全部

--删除过滤基因
第一个选项删除所有带有 FILTER 标志的基因型。 第二个选项可以是
用于排除具有特定过滤器标志的基因型。

--minGQ
排除质量低于此选项指定阈值的所有基因型
(GQ)。

--minDP
排除所有测序深度低于此选项指定的基因型
(DP)

输出 统计报表
--频率

--计数

--freq2

--计数2
输出每个站点的频率信息。 --freq 输出等位基因频率
带有后缀“.frq”的文件。 --counts 选项输出一个类似的文件
后缀“.frq.count”,包含每个位点的原始等位基因计数。 --freq2
和 --count2 选项用于抑制输出文件中的等位基因信息。 在
在这种情况下,频率/计数的顺序取决于 VCF 文件中的编号。

- 深度
生成一个包含每个人平均深度的文件。 这个文件有后缀
'.idepth'。

--站点深度

--站点平均深度
生成包含每个站点深度的文件。 --site-depth 选项输出
每个站点的深度汇总到个人。 该文件的后缀为“.ldepth”。
同样, --site-mean-depth 输出每个站点的平均深度,以及
输出文件的后缀为“.ldepth.mean”。

--基因深度
生成一个(可能非常大)文件,其中包含每个基因型的深度
VCF 文件。 缺失的条目被赋予值 -1。 文件有后缀
'.gdepth'。

--网站质量
生成包含每个站点 SNP 质量的文件,如 QUAL 列中所示
VCF 文件。 该文件的后缀为“.lqual”。

--het 在每个人的基础上计算杂合度的度量。 具体来说,
使用以下方法估计每个个体的近亲繁殖系数 F
时刻。 生成的文件具有后缀“.het”。

——哈迪
报告来自 Hardy-Weinberg 均衡检验的每个位点的 p 值(定义为
威金顿、卡特勒和阿贝卡西斯 (2005))。 生成的文件(带有后缀“.hwe”)
还包含观察到的纯合子和杂合子数以及
HWE 下相应的预期数字。

- 丢失的
生成两个文件,报告每个人和每个站点的缺失情况
基础。 这两个文件的后缀分别是“.imiss”和“.lmiss”。

--hap-r2

--基因-r2

--ld-窗口

--ld-窗口-bp

--最小r2
这些选项用于将连锁不平衡 (LD) 统计报告为
由 r2 统计量总结。 --hap-r2 选项通知 vcftools 输出一个
使用分阶段单倍型报告 r2 统计数据的文件。 这是传统的
LD 的测量经常在群体遗传学文献中报道。 如果分阶段
单倍型不可用,则可以使用 --geno-r2 选项,它计算
编码为 0、1 和 2 的基因型之间的平方相关系数到
代表每个个体中非参考等位基因的数量。 这是一样的
作为 PLINK 报告的 LD 措施。 单倍型版本输出一个文件
后缀'.hap.ld',而基因型版本输出带有后缀的文件
'.geno.ld'。 单倍型版本意味着选项 --phased。

--ld-window 选项定义了用于计算的最大 SNP 分离
LD。 同样,--ld-window-bp 选项可用于定义最大物理
LD 计算中包含的 SNP 的分离。 最后, --min-r2 设置了一个
r2 的最小值,低于该值不报告 LD 统计量。

--SNP密度
计算此选项定义的大小 bin 中 SNP 的数量和密度。
生成的输出文件的后缀为“.snpden”。

--台视
计算由此定义的大小的 bin 中的 Transition / Transversion 比率
选项。 生成的输出文件的后缀为“.TsTv”。 总结也是
在带有后缀“.TsTv.summary”的文件中提供。

--过滤器-摘要
生成每个 FILTER 类别的 SNP 数量和 Ts/Tv 比率的摘要。
输出文件的后缀为“.FILTER.summary”。

--过滤站点
创建两个文件,列出过滤后保留或删除的站点。 这
第一个文件,后缀为“.kept.sites”,列出过滤后由 vcftools 保留的站点
已经应用。 第二个文件,后缀为“.removed.sites”,列出站点
被应用的过滤器移除。

--单身人士
此选项将生成一个文件,详细说明单身人士的位置,以及
他们出现的个体。该文件报告了真​​正的单身人士和私人
doubletons(即次要等位基因仅出现在单个个体中的 SNP,并且
该个体是该等位基因的纯合子)。 输出文件有后缀
'.单身'。

--站点-pi

--窗口-pi
这些选项用于估计核苷酸多样性的水平。 第一个选项
在每个站点的基础上执行此操作,并且输出文件具有后缀“.sites.pi”。 这
第二个选项计算窗口中的核苷酸多样性,窗口大小
在选项参数中定义。 此选项的输出具有后缀
'.windowed.pi'。 窗口版本需要分阶段数据,因此使用此
option 意味着 --phased 选项。

输出 in 其他名称 格式
--O12 此选项将基因型输出为一个大矩阵。 生成三个文件。 这
首先,带有后缀“.012”,包含每个人的基因型在一个单独的
线。 基因型表示为 0、1 和 2,其中数字表示
非参考等位基因的数量。 缺失的基因型由 -1 表示。 这
第二个文件,后缀为“.012.indv”,详细说明了包含在主文件中的个人
文件。 第三个文件,后缀为“.012.pos”,详细说明了包含在
主文件。

--归因
此选项以 IMPUTE 参考面板格式输出定相单倍型。 作为 IMPUTE
需要分阶段数据,使用此选项也意味着 --phased。 无相
因此排除了个体和基因型。 只有双等位基因位点
包含在输出中。 使用此选项会生成三个文件。 估算
haplotype 文件的后缀为“.impute.hap”,而 IMPUTE 图例文件的后缀为
后缀“.impute.hap.legend”。 第三个文件,后缀为'.impute.hap.indv',
详细说明包含在单倍型文件中的个体,尽管该文件不是
IMPUTE 需要。

--ldhat

--ldhat-基因
这些选项以 LDhat 格式输出数据。 使用这些选项还需要
使用的 --chr 选项。 --ldhat 选项仅输出分阶段数据,因此
也意味着 --phased,导致未分相的个体和基因型
排除在外。 或者, --ldhat-geno 选项将所有数据视为
unphased,因此以基因型/非分相格式输出 LDhat 文件。 在任一
在这种情况下,生成了两个后缀为“.ldhat.sites”和“.ldhat.locs”的文件,
它们分别对应于 LDhat 'sites' 和 'locs' 输入文件。

--Beagle-GL
此选项输出用于输入到 BEAGLE 的基因型似然信息
程序。 此选项要求 VCF 文件包含 FORMAT GL 标记,它可以
通常由 SNP 调用程序(例如 GATK)输出。 使用此选项需要一个
要通过 --chr 选项指定的染色体。 生成的输出文件(带有
后缀“.BEAGLE.GL”)包含双等位基因位点的基因型可能性,并且是
适合通过 'like=' 参数输入到 BEAGLE。

--plink
此选项以 PLINK PED 格式输出基因型数据。 生成两个文件,
带有后缀“.ped”和“.map”。 请注意,只会输出双等位基因座。
这些文件的更多详细信息可以在 PLINK 文档中找到。

注意:此选项在大型数据集上可能会非常慢。 使用 --chr 选项
建议分割数据集。

--plink-tped
上面的 --plink 选项在大型数据集上可能会非常慢。 替代
以 PLINK 转置格式输出可能要快得多。
这可以使用 --plink-tped 选项来实现,它会生成两个文件
后缀“.tped”和“.tfam”。

--重新编码
--recode 选项用于从输入的 VCF 文件生成一个 VCF 文件,该文件具有
应用了用户指定的选项。 输出文件有后缀
'.recode.vcf'。

默认情况下,INFO 字段从输出文件中删除,作为 INFO 值
可能会因重新编码而无效(例如,可能需要将总深度设为
如果个人被删除,则重新计算)。 此默认功能可以是
使用 --keep-INFO 覆盖选项,其中定义
INFO 键保留在输出文件中。 --keep-INFO 标志可以多次使用
次。 或者,选项 --keep-INFO-all 可用于保留所有 INFO
领域。

其他
--extract-FORMAT-信息
从与指定的 VCF 文件中的基因型字段中提取信息
格式标识符。 例如,使用选项“--extract-FORMAT-info GT”将
提取所有的 GT(即基因型)条目。 结果输出文件有
后缀'。 。格式'。

- 获取信息
此选项用于从 VCF 文件的 INFO 字段中提取信息。 这
参数指定要提取的INFO标签,选项可以是
多次使用以提取多个 INFO 条目。 结果文件,
带有后缀“.INFO”,以制表符分隔的形式包含所需的 INFO 信息
桌子。 例如,要提取 NS 和 DB 标志,可以使用以下命令:

vcftools --vcf file1.vcf --get-INFO NS --get-INFO DB

VCF 文件 竞品对比 附加选项
文件比较选项目前处于不断变化的状态,并且可能有问题。 如果你
发现错误,请报告。 请注意,这些不支持基因型级别的过滤器
选项​​。

--差异

--gzdiff
选择一个 VCF 文件以与 --vcf 选项指定的文件进行比较。
输出两个文件,描述每个站点和个人的共同/独特之处
文件。 这些文件具有后缀“.diff.sites_in_files”和
'.diff.indv_in_files' 分别。 --gzdiff 版本可用于读取
压缩的 VCF 文件。

--差异站点不一致
与 --diff 选项结合使用以通过以下方式计算站点上的不一致
网站基础。 生成的输出文件的后缀为“.diff.sites”。

--diff-indv-不一致
与 --diff 选项结合使用来计算每个-
个人基础。 生成的输出文件的后缀为“.diff.indv”。

--差异不一致矩阵
与 --diff 选项结合使用来计算不一致矩阵。 这个
选项仅适用于具有匹配等位基因的双等位基因位点
两个文件。 生成的输出文件的后缀为“.diff.discordance.matrix”。

--diff-switch-错误
与 --diff 选项结合使用来计算相位误差
(特别是“切换错误”)。 此选项生成两个输出文件,描述
站点之间发现的切换错误,以及每个人的平均切换错误。
这两个文件的后缀为“.diff.switch”和“.diff.indv.switch”


附加选项 仍然 in 开发
以下选项尚未最终确定,可能包含错误,并且很可能
将来改变。

--fst

--gzfst
计算一对 VCF 文件的 FST,第二个文件由此指定
选项。 FST 目前使用中描述的公式计算
第一阶段 HapMap 论文的补充材料。 目前,只有成对 FST
支持计算,尽管这可能会在未来发生变化。 这
--gzfst 选项可用于读取压缩的 VCF 文件。

--LROH 确定纯合子的长期运行。

--相关性
输出个体相关性统计。

使用 onworks.net 服务在线使用 vcftools


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad