Amazon Best VPN GoSearch

OnWorks 网站图标

vcf 工具

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 vcftools

这是 vcftools 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


vcftools - 分析 VCF 文件

概要


vcf 工具 [配置]

商品描述


vcftools 程序是从命令行运行的。 该界面的灵感来自 PLINK,并且
因此,该软件包的用户应该非常熟悉。 命令采用以下形式:

vcftools --vcf file1.vcf --chr 20 --freq

上面的命令告诉 vcftools 读入文件 file1.vcf,提取站点
20号染色体,计算每个位点的等位基因频率。 由此产生的等位基因
频率估计值存储在输出文件 out.freq 中。 如上例所示,
vcftools 的输出主要发送到输出文件,而不是显示在
屏幕上。

请注意,某些命令可能仅在最新版本的 vcftools 中可用。 获得
最新版本,您应该使用 SVN 来检出最新的代码,如
主页。

另请注意,目前不支持多倍体基因型。

基础版 可选项
--vcf
此选项定义要处理的 VCF 文件。 需要解压的文件
在与 vcftools 一起使用之前。 vcftools 需要 VCF 格式 v4.0 的文件,一个
可以在此处找到其规范。

--gzvcf
这个选项可以用来代替 --vcf 选项来读取压缩(gzipped)
VCF 文件直接。 请注意,此选项在用于大型
文件。

- 出去
此选项定义 vcftools 生成的所有文件的输出文件名前缀。
例如,如果设置为 output_filename,则所有输出文件都将被
的形式 output_filename.*** 。 如果省略此选项,则所有输出文件都将
有前缀'out.'。

网站 筛选 可选项
--chr
仅处理染色体标识符匹配的位点

--来自-bp

--to-bp
这些选项定义了将被处理的站点的物理范围。 外部站点
这个范围的将被排除在外。 这些选项只能与
--chr。

--snp
包括具有匹配 ID 的 SNP。 这个命令可以多次使用
包括一个以上的 SNP。

--snps
包括文件中给出的 SNP 列表。 该文件应包含 SNP ID 列表,
每行一个 ID。

- 排除
排除文件中给出的 SNP 列表。 该文件应包含 SNP ID 列表,
每行一个 ID。

--职位
在职位列表的基础上包括一组站点。 输入的每一行
文件应包含(制表符分隔的)染色体和位置。 该文件应
有一个标题行。 不包括在列表中的站点被排除在外。

- 床

--排除床
根据 BED 文件包含或排除一组站点。 只有前三个
需要列(chrom、chromStart 和 chromEnd)。 BED 文件应该有一个
标题行。

--删除全部过滤

--删除过滤

--保持过滤
这些选项用于根据站点的 FILTER 标志过滤站点。 这
第一个选项删除所有带有 FILTER 标志的站点。 第二个选项可用于
排除具有特定过滤器标志的站点。 第三个选项可以用来选择
基于特定过滤器标志的站点。 第二个和第三个选项可以是
多次使用以指定多个 FILTER。 --keep-filtered 选项是
在 --remove-filtered 选项之前应用。

--minQ
仅包括质量高于此阈值的网站。

--最小平均DP

--最大平均DP
包括平均深度在这些选项定义的阈值内的站点。

--maf

--最大maf
仅包括在指定范围内具有次要等位基因频率的站点。

--非参考-af

--max-非参考-af
仅包括具有指定范围内的非参考等位基因频率的站点。

- 色调
使用精确检验评估 Hardy-Weinberg Equilibrium 的位点,定义为
威金顿、卡特勒和阿贝卡西斯 (2005)。 p 值低于阈值的站点
由该选项定义的被视为在 HWE 之外,因此被排除在外。

--基因组
根据缺失数据的比例(定义为介于
0和1)。

--min-等位基因

--max-等位基因
仅包括在指定范围内具有多个等位基因的位点。 为了
例如,要仅包括双等位基因位点,可以使用:

vcftools --vcf file1.vcf --最小等位基因 2 --最大等位基因 2

- 面具

--反转掩码

--掩码最小值
基于类似 FASTA 的文件包含站点。 提供的文件包含一个
染色体上每个位置的整数序列(0 到 9 之间)
指定是否应过滤该位置的站点。 示例掩码文件
看起来像:

>1
0000011111222 ...

在本例中,VCF 文件中的位点位于
将保留 1 号染色体的起始位置,而位置 6 以后的位点将被保留
过滤掉了。 确定站点是否被过滤的阈值整数是
使用 --mask-min 选项设置,默认为 0。
掩码文件必须按照与 VCF 文件相同的顺序进行排序。 --mask 选项
用于指定要使用的掩码文件,而 --invert-mask 选项可以
用于指定在应用之前将反转的掩码文件。

个人 筛选
--indv
指定要保留在分析中的个人。 此选项可多次使用
次指定多个个体。

- 保持
提供一个文件,其中包含要包含在后续分析中的个人列表。
每个单独的 ID(如 VCF 标题行中所定义)都应包含在
单独的行。

--remove-inv
指定要从分析中删除的个人。 可以使用这个选项
多次指定多个个体。 如果 --indv 选项也是
指定,则 --indv 选项在 --remove-indv 选项之前执行。

- 消除
提供一个文件,其中包含要在后续分析中排除的个人列表。
每个单独的 ID(如 VCF 标题行中所定义)都应包含在
单独的行。 如果同时使用 --keep 和 --remove 选项,则
--keep 选项在 --remove 选项之前执行。

--mon-indv-meanDP

--max-indv-meanDP
计算每个人的平均覆盖率。 只有具有
这些选项指定范围内的覆盖范围包括在后续
分析。

- 头脑
为每个人指定最低呼叫率阈值。

--分阶段
首先排除所有基因型未定相的所有个体,然后
排除具有未定相基因型的所有位点。 因此,剩余的数据包括
仅分阶段数据。

基因型 筛选
--删除过滤基因全部

--删除过滤基因
第一个选项删除所有带有 FILTER 标志的基因型。 第二个选项可以是
用于排除具有特定过滤器标志的基因型。

--minGQ
排除质量低于此选项指定阈值的所有基因型
(GQ)。

--minDP
排除所有测序深度低于此选项指定的基因型
(DP)

输出 统计学
--频率

--计数

--freq2

--计数2
输出每个站点的频率信息。 --freq 输出等位基因频率
带有后缀“.frq”的文件。 --counts 选项输出一个类似的文件
后缀“.frq.count”,包含每个位点的原始等位基因计数。 --freq2
和 --count2 选项用于抑制输出文件中的等位基因信息。 在
在这种情况下,频率/计数的顺序取决于 VCF 文件中的编号。

- 深度
生成一个包含每个人平均深度的文件。 这个文件有后缀
'.idepth'。

--站点深度

--站点平均深度
生成包含每个站点深度的文件。 --site-depth 选项输出
每个站点的深度汇总到个人。 该文件的后缀为“.ldepth”。
同样, --site-mean-depth 输出每个站点的平均深度,以及
输出文件的后缀为“.ldepth.mean”。

--基因深度
生成一个(可能非常大)文件,其中包含每个基因型的深度
VCF 文件。 缺失的条目被赋予值 -1。 文件有后缀
'.gdepth'。

--网站质量
生成包含每个站点 SNP 质量的文件,如 QUAL 列中所示
VCF 文件。 该文件的后缀为“.lqual”。

--het 在每个人的基础上计算杂合度的度量。 具体来说,
使用以下方法估计每个个体的近亲繁殖系数 F
时刻。 生成的文件具有后缀“.het”。

——哈迪
报告来自 Hardy-Weinberg 均衡检验的每个位点的 p 值(定义为
威金顿、卡特勒和阿贝卡西斯 (2005))。 生成的文件(带有后缀“.hwe”)
还包含观察到的纯合子和杂合子数以及
HWE 下相应的预期数字。

- 丢失的
生成两个文件,报告每个人和每个站点的缺失情况
基础。 这两个文件的后缀分别是“.imiss”和“.lmiss”。

--hap-r2

--基因-r2

--ld-窗口

--ld-窗口-bp

--最小r2
这些选项用于将连锁不平衡 (LD) 统计报告为
由 r2 统计量总结。 --hap-r2 选项通知 vcftools 输出一个
使用分阶段单倍型报告 r2 统计数据的文件。 这是传统的
LD 的测量经常在群体遗传学文献中报道。 如果分阶段
单倍型不可用,则可以使用 --geno-r2 选项,它计算
编码为 0、1 和 2 的基因型之间的平方相关系数到
代表每个个体中非参考等位基因的数量。 这是一样的
作为 PLINK 报告的 LD 措施。 单倍型版本输出一个文件
后缀'.hap.ld',而基因型版本输出带有后缀的文件
'.geno.ld'。 单倍型版本意味着选项 --phased。

--ld-window 选项定义了用于计算的最大 SNP 分离
LD。 同样,--ld-window-bp 选项可用于定义最大物理
LD 计算中包含的 SNP 的分离。 最后, --min-r2 设置了一个
r2 的最小值,低于该值不报告 LD 统计量。

--SNP密度
计算此选项定义的大小 bin 中 SNP 的数量和密度。
生成的输出文件的后缀为“.snpden”。

--台视
计算由此定义的大小的 bin 中的 Transition / Transversion 比率
选项。 生成的输出文件的后缀为“.TsTv”。 总结也是
在带有后缀“.TsTv.summary”的文件中提供。

--过滤器-摘要
生成每个 FILTER 类别的 SNP 数量和 Ts/Tv 比率的摘要。
输出文件的后缀为“.FILTER.summary”。

--过滤站点
创建两个文件,列出过滤后保留或删除的站点。 这
第一个文件,后缀为“.kept.sites”,列出过滤后由 vcftools 保留的站点
已经应用。 第二个文件,后缀为“.removed.sites”,列出站点
被应用的过滤器移除。

--单身人士
此选项将生成一个文件,详细说明单身人士的位置,以及
他们出现的个体。该文件报告了真​​正的单身人士和私人
doubletons(即次要等位基因仅出现在单个个体中的 SNP,并且
该个体是该等位基因的纯合子)。 输出文件有后缀
'.单身'。

--站点-pi

--窗口-pi
这些选项用于估计核苷酸多样性的水平。 第一个选项
在每个站点的基础上执行此操作,并且输出文件具有后缀“.sites.pi”。 这
第二个选项计算窗口中的核苷酸多样性,窗口大小
在选项参数中定义。 此选项的输出具有后缀
'.windowed.pi'。 窗口版本需要分阶段数据,因此使用此
option 意味着 --phased 选项。

输出 in 其他 格式
--O12 此选项将基因型输出为一个大矩阵。 生成三个文件。 这
首先,带有后缀“.012”,包含每个人的基因型在一个单独的
线。 基因型表示为 0、1 和 2,其中数字表示
非参考等位基因的数量。 缺失的基因型由 -1 表示。 这
第二个文件,后缀为“.012.indv”,详细说明了包含在主文件中的个人
文件。 第三个文件,后缀为“.012.pos”,详细说明了包含在
主文件。

--归因
此选项以 IMPUTE 参考面板格式输出定相单倍型。 作为 IMPUTE
需要分阶段数据,使用此选项也意味着 --phased。 无相
因此排除了个体和基因型。 只有双等位基因位点
包含在输出中。 使用此选项会生成三个文件。 估算
haplotype 文件的后缀为“.impute.hap”,而 IMPUTE 图例文件的后缀为
后缀“.impute.hap.legend”。 第三个文件,后缀为'.impute.hap.indv',
详细说明包含在单倍型文件中的个体,尽管该文件不是
IMPUTE 需要。

--ldhat

--ldhat-基因
这些选项以 LDhat 格式输出数据。 使用这些选项还需要
使用的 --chr 选项。 --ldhat 选项仅输出分阶段数据,因此
也意味着 --phased,导致未分相的个体和基因型
排除在外。 或者, --ldhat-geno 选项将所有数据视为
unphased,因此以基因型/非分相格式输出 LDhat 文件。 在任一
在这种情况下,生成了两个后缀为“.ldhat.sites”和“.ldhat.locs”的文件,
它们分别对应于 LDhat 'sites' 和 'locs' 输入文件。

--Beagle-GL
此选项输出用于输入到 BEAGLE 的基因型似然信息
程序。 此选项要求 VCF 文件包含 FORMAT GL 标记,它可以
通常由 SNP 调用程序(例如 GATK)输出。 使用此选项需要一个
要通过 --chr 选项指定的染色体。 生成的输出文件(带有
后缀“.BEAGLE.GL”)包含双等位基因位点的基因型可能性,并且是
适合通过 'like=' 参数输入到 BEAGLE。

--plink
此选项以 PLINK PED 格式输出基因型数据。 生成两个文件,
带有后缀“.ped”和“.map”。 请注意,只会输出双等位基因座。
这些文件的更多详细信息可以在 PLINK 文档中找到。

注意:此选项在大型数据集上可能会非常慢。 使用 --chr 选项
建议分割数据集。

--plink-tped
上面的 --plink 选项在大型数据集上可能会非常慢。 替代
以 PLINK 转置格式输出可能要快得多。
这可以使用 --plink-tped 选项来实现,它会生成两个文件
后缀“.tped”和“.tfam”。

--重新编码
--recode 选项用于从输入的 VCF 文件生成一个 VCF 文件,该文件具有
应用了用户指定的选项。 输出文件有后缀
'.recode.vcf'。

默认情况下,INFO 字段从输出文件中删除,作为 INFO 值
可能会因重新编码而无效(例如,可能需要将总深度设为
如果个人被删除,则重新计算)。 此默认功能可以是
使用 --keep-INFO 覆盖选项,其中定义
INFO 键保留在输出文件中。 --keep-INFO 标志可以多次使用
次。 或者,选项 --keep-INFO-all 可用于保留所有 INFO
领域。

其他
--extract-FORMAT-信息
从与指定的 VCF 文件中的基因型字段中提取信息
格式标识符。 例如,使用选项“--extract-FORMAT-info GT”将
提取所有的 GT(即基因型)条目。 结果输出文件有
后缀'。 。格式'。

- 获取信息
此选项用于从 VCF 文件的 INFO 字段中提取信息。 这
参数指定要提取的INFO标签,选项可以是
多次使用以提取多个 INFO 条目。 结果文件,
带有后缀“.INFO”,以制表符分隔的形式包含所需的 INFO 信息
桌子。 例如,要提取 NS 和 DB 标志,可以使用以下命令:

vcftools --vcf file1.vcf --get-INFO NS --get-INFO DB

VCF 文件 竞品对比 可选项
文件比较选项目前处于不断变化的状态,并且可能有问题。 如果你
发现错误,请报告。 请注意,这些不支持基因型级别的过滤器
选项​​。

--差异

--gzdiff
选择一个 VCF 文件以与 --vcf 选项指定的文件进行比较。
输出两个文件,描述每个站点和个人的共同/独特之处
文件。 这些文件具有后缀“.diff.sites_in_files”和
'.diff.indv_in_files' 分别。 --gzdiff 版本可用于读取
压缩的 VCF 文件。

--差异站点不一致
与 --diff 选项结合使用以通过以下方式计算站点上的不一致
网站基础。 生成的输出文件的后缀为“.diff.sites”。

--diff-indv-不一致
与 --diff 选项结合使用来计算每个-
个人基础。 生成的输出文件的后缀为“.diff.indv”。

--差异不一致矩阵
与 --diff 选项结合使用来计算不一致矩阵。 这个
选项仅适用于具有匹配等位基因的双等位基因位点
两个文件。 生成的输出文件的后缀为“.diff.discordance.matrix”。

--diff-switch-错误
与 --diff 选项结合使用来计算相位误差
(特别是“切换错误”)。 此选项生成两个输出文件,描述
站点之间发现的切换错误,以及每个人的平均切换错误。
这两个文件的后缀为“.diff.switch”和“.diff.indv.switch”


可选项 仍然 in 发展
以下选项尚未最终确定,可能包含错误,并且很可能
将来改变。

--fst

--gzfst
计算一对 VCF 文件的 FST,第二个文件由此指定
选项。 FST 目前使用中描述的公式计算
第一阶段 HapMap 论文的补充材料。 目前,只有成对 FST
支持计算,尽管这可能会在未来发生变化。 这
--gzfst 选项可用于读取压缩的 VCF 文件。

--LROH 确定纯合子的长期运行。

--相关性
输出个体相关性统计。

使用 onworks.net 服务在线使用 vcftools


Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。