これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド bgzip です。
プログラム:
NAME
bgzip - ブロック圧縮/解凍ユーティリティ
tabix - TAB 区切りのゲノム位置ファイル用の汎用インデクサー
SYNOPSIS
bgzip [-cdhB] [-b 仮想オフセット] [-s サイズ] [file]
タビックス [-0lf] [-p gff|ベッド|サム|vcf] [-s シーケンス列] [-b ベグコル] [-e エンドコル] [-S 行スキップ] [-c
メタチャー] in.tab.bgz [region1 [region2 [...]]]
DESCRIPTION
Tabix は TAB 区切りのゲノム位置ファイルにインデックスを作成します in.tab.bgz そしてインデックスファイルを作成します(
in.tab.bgz.tbi or in.tab.bgz.csi ) いつ 地域 コマンドラインには存在しません。 入力
データ ファイルは、次の方法で位置ソートおよび圧縮する必要があります。 bgzip ある gzip(1)いいね
インターフェース。 インデックス作成後、Tabix は重複するデータ行を迅速に取得できます。
地域 「chr:beginPos-endPos」の形式で指定します。 高速データ取得も可能
ファイル名として URI が指定されている場合、ネットワーク。この場合、インデックス ファイルがダウンロードされます。
ローカルに存在しない場合。
インデックス作成 OPTIONS
-0、 --ゼロベース
データ ファイル内の位置が 0 から始まるように指定します (UCSC ファイルなど)。
1ベースよりも。
-NS、 - 始める INT
染色体の開始位置の列。 [4]
-NS、 - コメント CHAR
CHAR 文字で始まる行をスキップします。 [#]
-C、 --csi CHAR 文字で始まる行をスキップします。 [#]
-e、 - 終わり INT
染色体の末端位置の列。 終了列は開始列と同じにすることができます
桁。 [5]
-NS、 - 力
インデックス ファイルが存在する場合は強制的に上書きします。
-NS、 --分シフトINT
CSI インデックスの最小間隔サイズを 2^INT に設定します [14]
-NS、 - プリセット STR
インデックス作成の入力形式。 有効な値は、gff、bed、sam、vcf です。 このオプション
以下のいずれかと併用してはなりません -s, -b, -e, -c & -0; 使用されていません
この設定はインデックス ファイルに保存されるため、データの取得には使用できません。 [グフ]
-s、 - 順序 INT
シーケンス名の列。 オプション -s, -b, -e, -S, -c & -0 にすべて保存されています
インデックス ファイルなので、データの取得には使用されません。 [1]
-NS、 --スキップライン INT
データ ファイルの最初の INT 行をスキップします。 [0]
問い合わせ中 そして その他 OPTIONS
-NS、 -- 印刷ヘッダー
ヘッダー/メタ行も出力します。
-NS、 --ヘッダーのみ
ヘッダー/メタ行のみを印刷します。
-私、 --ファイル情報
ファイル形式情報を出力します。
-l、 --list-chromes
インデックスファイルに保存されているシーケンス名をリストします。
-NS、 --リヘッダー FILE
ヘッダーを FILE の内容に置き換えます
-NS、 --地域 FILE
ファイルにリストされている地域に制限します。 ファイルは BED ファイルにすることができます (.bed が必要です)
.bed.gz、.bed.bgz ファイル名拡張子)、または CHROM、POS、
およびオプションで POS_TO 列。位置は 1 から始まり、両端を含みます。 いつ
このオプションが使用されている場合、入力ファイルはソートされない可能性があります。 地域。
-NS、 --ターゲット FILE
そして -R ただし、入力全体が順番に読み取られるため、領域はリストされません。
FILE 内の項目はスキップされます。
実施例
(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > ソート.gff.gz;
tabix -p gff ソート済み.gff.gz;
tabixsorted.gff.gz chr1:10,000,000-20,000,000;
注意事項
標準の B ツリー インデックス (または
ビニングなし)すべての SQL データベースに実装されるか、PostgreSQL の R ツリー インデックスと
オラクル。 しかし、Tabix を使用する理由はまだたくさんあります。 まず、tabix は直接動作します。
GFF/GTF や BED など、広く使用されている多数の TAB 区切り形式。 その必要はありません
データベース スキーマまたは特殊なバイナリ形式を設計します。 データを複製する必要はありません
フォーマットも異なります。 次に、tabix は圧縮データ ファイルを処理しますが、ほとんどの SQL は圧縮データ ファイルを処理します。
データベースにはありません。 GenCode アノテーション GTF は 4% まで圧縮できます。 XNUMXつ目はタビックス
速いです。 同じインデックス付けアルゴリズムが、
数十億の短い読み取り。 SQL データベースはおそらく、この規模のデータを簡単に処理することはできません。
最後になりましたが、Tabix はリモート データ取得をサポートしています。 データファイルを置くことができます
FTP または HTTP サーバーのインデックスと、他のユーザー、さらには Web サービスでもアクセスできるようになります。
ファイル全体をダウンロードせずにスライスを取得します。
onworks.net サービスを使用してオンラインで bgzip を使用する