这是命令 bgzip,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
bgzip - 块压缩/解压缩实用程序
tabix - 用于制表符分隔的基因组位置文件的通用索引器
概要
压缩包 [-CDHB[-b 虚拟偏移量[-s 尺寸[文件]
标签 [-0lf[-p gff|床|山姆|vcf] [-s 序列号[-b 乞丐[-e 端柱[-S 跳线[-c
元字符] 在.tab.bgz [region1 [region2 [...]]]
商品描述
Tabix 索引一个 TAB 分隔的基因组位置文件 在.tab.bgz 并创建一个索引文件(
标签页.bgz.tbi or 标签文件 ) 什么时候 地区 命令行中不存在。 输入
数据文件必须按位置排序和压缩 压缩包 有一个 GZIP(1) 喜欢
界面。 索引后,tabix 能够快速检索重叠的数据行
地区 以“chr:beginPos-endPos”格式指定。 快速数据检索也适用
network 如果 URI 作为文件名给出,在这种情况下将下载索引文件
如果本地不存在。
索引 配置
- 0, --从零开始
指定数据文件中的位置是基于 0 的(例如 UCSC 文件)而不是
比 1 为基础。
-b, - 开始 INT
起始染色体位置列。 [4]
-C, - 评论 CHAR
以字符 CHAR 开头的跳过行。 [#]
-C, --犯罪现场调查 以字符 CHAR 开头的跳过行。 [#]
-e, - 结尾 INT
染色体末端位置列。 结束列可以与开始相同
柱子。 [5]
-F, - 力量
强制覆盖索引文件(如果存在)。
-米, --最小移位INT
将 CSI 索引的最小间隔大小设置为 2^INT [14]
-p, --预设 STR
索引的输入格式。 有效值为:gff、床、山姆、vcf。 这个选项
不应与任何一起使用 -s, -b, -e, -c 和 -0; 它没有被使用
用于数据检索,因为此设置存储在索引文件中。 [gff]
-是的, - 序列 INT
序列名称列。 选项 -s, -b, -e, -S, -c 和 -0 都存储在
索引文件,因此不用于数据检索。 [1]
-S, --跳过线 INT
跳过数据文件中的前 INT 行。 [0]
查询 AND 其他 配置
-H, --打印头
还打印标题/元行。
-H, --仅标题
仅打印标题/元行。
-一世, --文件信息
打印文件格式信息。
-l, --列表-chroms
列出存储在索引文件中的序列名称。
-r, --重新标题 文件
用 FILE 的内容替换标题
-R, --地区 文件
仅限于 FILE 中列出的区域。 FILE 可以是 BED 文件(需要 .bed,
.bed.gz、.bed.bgz 文件扩展名)或带有 CHROM、POS、
以及可选的 POS_TO 列,其中位置从 1 开始并包含在内。 什么时候
此选项正在使用中,输入文件可能未排序。 地区。
-T, --目标 文件
像 -R 但整个输入将被顺序读取,区域未列出
在 FILE 中将被跳过。
例
(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > sorted.gff.gz;
tabix -p gff 排序.gff.gz;
tabix Sorted.gff.gz chr1:10,000,000-20,000,000;
附注
使用标准 B 树索引(使用或
没有分箱)在所有 SQL 数据库中实现,或 PostgreSQL 中的 R 树索引和
甲骨文。 但是仍然有很多理由使用tabix。 首先,tabix 直接与
许多广泛使用的制表符分隔格式,例如 GFF/GTF 和 BED。 我们不需要
设计数据库模式或专门的二进制格式。 数据不需要重复
不同的格式,或者。 其次,tabix 适用于压缩数据文件,而大多数 SQL
数据库没有。 GenCode 注释 GTF 可以压缩到 4%。 三、tabix
很快。 已知相同的索引算法可以有效地用于与
几十亿短读。 SQL 数据库可能无法轻松处理这种规模的数据。
最后但并非最不重要的是,tabix 支持远程数据检索。 一个可以放数据文件
以及 FTP 或 HTTP 服务器上的索引,其他用户甚至 Web 服务都可以
在不下载整个文件的情况下获取切片。
使用 onworks.net 服务在线使用 bgzip