英語フランス語スペイン語

Ad


OnWorksファビコン

bgzip - クラウド上のオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーター上の OnWorks 無料ホスティング プロバイダーで bgzip を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド bgzip です。

プログラム:

NAME


bgzip - ブロック圧縮/解凍ユーティリティ

tabix - TAB 区切りのゲノム位置ファイル用の汎用インデクサー

SYNOPSIS


bgzip [-cdhB] [-b 仮想オフセット] [-s サイズ] [file]

タビックス [-0lf] [-p gff|ベッド|サム|vcf] [-s シーケンス列] [-b ベグコル] [-e エンドコル] [-S 行スキップ] [-c
メタチャー] in.tab.bgz [region1 [region2 [...]]]

DESCRIPTION


Tabix は TAB 区切りのゲノム位置ファイルにインデックスを作成します in.tab.bgz そしてインデックスファイルを作成します(
in.tab.bgz.tbi or in.tab.bgz.csi ) いつ 地域 コマンドラインには存在しません。 入力
データ ファイルは、次の方法で位置ソートおよび圧縮する必要があります。 bgzip ある gzip(1)いいね
インターフェース。 インデックス作成後、Tabix は重複するデータ行を迅速に取得できます。
地域 「chr:beginPos-endPos」の形式で指定します。 高速データ取得も可能
ファイル名として URI が指定されている場合、ネットワーク。この場合、インデックス ファイルがダウンロードされます。
ローカルに存在しない場合。

インデックス作成 OPTIONS


-0、 --ゼロベース
データ ファイル内の位置が 0 から始まるように指定します (UCSC ファイルなど)。
1ベースよりも。

-NS、 - 始める INT
染色体の開始位置の列。 [4]

-NS、 - コメント CHAR
CHAR 文字で始まる行をスキップします。 [#]

-C、 --csi CHAR 文字で始まる行をスキップします。 [#]

-e、 - 終わり INT
染色体の末端位置の列。 終了列は開始列と同じにすることができます
桁。 [5]

-NS、 - 力
インデックス ファイルが存在する場合は強制的に上書きします。

-NS、 --分シフトINT
CSI インデックスの最小間隔サイズを 2^INT に設定します [14]

-NS、 - プリセット STR
インデックス作成の入力形式。 有効な値は、gff、bed、sam、vcf です。 このオプション
以下のいずれかと併用してはなりません -s, -b, -e, -c & -0; 使用されていません
この設定はインデックス ファイルに保存されるため、データの取得には使用できません。 [グフ]

-s、 - 順序 INT
シーケンス名の列。 オプション -s, -b, -e, -S, -c & -0 にすべて保存されています
インデックス ファイルなので、データの取得には使用されません。 [1]

-NS、 --スキップライン INT
データ ファイルの最初の INT 行をスキップします。 [0]

問い合わせ中 そして その他 OPTIONS


-NS、 -- 印刷ヘッダー
ヘッダー/メタ行も出力します。

-NS、 --ヘッダーのみ
ヘッダー/メタ行のみを印刷します。

-私、 --ファイル情報
ファイル形式情報を出力します。

-l、 --list-chromes
インデックスファイルに保存されているシーケンス名をリストします。

-NS、 --リヘッダー FILE
ヘッダーを FILE の内容に置き換えます

-NS、 --地域 FILE
ファイルにリストされている地域に制限します。 ファイルは BED ファイルにすることができます (.bed が必要です)
.bed.gz、.bed.bgz ファイル名拡張子)、または CHROM、POS、
およびオプションで POS_TO 列。位置は 1 から始まり、両端を含みます。 いつ
このオプションが使用されている場合、入力ファイルはソートされない可能性があります。 地域。

-NS、 --ターゲット FILE
そして -R ただし、入力全体が順番に読み取られるため、領域はリストされません。
FILE 内の項目はスキップされます。

実施例


(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > ソート.gff.gz;

tabix -p gff ソート済み.gff.gz;

tabixsorted.gff.gz chr1:10,000,000-20,000,000;

注意事項


標準の B ツリー インデックス (または
ビニングなし)すべての SQL データベースに実装されるか、PostgreSQL の R ツリー インデックスと
オラクル。 しかし、Tabix を使用する理由はまだたくさんあります。 まず、tabix は直接動作します。
GFF/GTF や BED など、広く使用されている多数の TAB 区切り形式。 その必要はありません
データベース スキーマまたは特殊なバイナリ形式を設計します。 データを複製する必要はありません
フォーマットも異なります。 次に、tabix は圧縮データ ファイルを処理しますが、ほとんどの SQL は圧縮データ ファイルを処理します。
データベースにはありません。 GenCode アノテーション GTF は 4% まで圧縮できます。 XNUMXつ目はタビックス
速いです。 同じインデックス付けアルゴリズムが、
数十億の短い読み取り。 SQL データベースはおそらく、この規模のデータを簡単に処理することはできません。
最後になりましたが、Tabix はリモート データ取得をサポートしています。 データファイルを置くことができます
FTP または HTTP サーバーのインデックスと、他のユーザー、さらには Web サービスでもアクセスできるようになります。
ファイル全体をダウンロードせずにスライスを取得します。

onworks.net サービスを使用してオンラインで bgzip を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad