英語フランス語スペイン語

Ad


OnWorksファビコン

htseq-count - クラウド上のオンライン

Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーター上の OnWorks 無料ホスティング プロバイダーで htseq-count を実行します。

これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド htseq-count です。

プログラム:

NAME


htseq-count - GFF 機能にマップする SAM アライメント ファイル内の読み取り数をカウントします。

配列されたシーケンシングリードとゲノム特徴のリストを含むファイルが与えられた場合、一般的なタスクは
各特徴にマップされるリードの数をカウントすることです。

ここでの特徴とは、染色体上の間隔 (つまり、位置の範囲) または染色体の結合です。
そういった間隔。

RNA-Seq の場合、特徴は通常遺伝子であり、各遺伝子が考慮されます。
ここではすべてのエクソンの結合として表示されます。 各エクソンを特徴として考えることもできます。
代替スプライシングをチェックするため。 比較用 ChIP-Seq の場合、次のような特徴があります。
事前に決定されたリストから結合領域を選択します。

複数の重複する読み取りをどのように処理するかを決定するには、特別な注意を払う必要があります。
特徴。 NS htseq-count スクリプトでは XNUMX つのモードから選択できます。 もちろん、何もなければ
これらのうちニーズに適合する場合は、HTSeq を使用して独自のスクリプトを作成できます。 この章を参照してください ツアー
その方法については、ステップバイステップのガイドを参照してください。

XNUMX つのオーバーラップ解像度モード htseq-count 次のように動作します。 ポジションごとに i in
読み物、セット S(i) 位置が重なるすべてのフィーチャのセットとして定義されます i。 次に、
セットを検討する S、つまり ( i 読み取り内のすべての位置を実行します)

· すべての集合の和集合 S(i) モードの場合 組合.

· すべての集合の交点 S(i) モードの場合 交差点厳密.

· 空でないすべてのセットの共通部分 S(i) モードの場合 交差点-非空.

If S 正確に XNUMX つの機能が含まれている場合、読み取りはこの機能に対してカウントされます。 含まれている場合
複数の機能の場合、読み取りは次のようにカウントされます。 あいまいな (そしてどれもカウントされません
機能)、および S が空の場合、読み取りは次のようにカウントされます no_feature.

次の図は、これら XNUMX つのモードの効果を示しています。

USAGE


HTSeq をインストールした後 (「 install)、実行できます htseq-count コマンドから
ライン:

htseq-count [オプション]

ファイルの場合 htseq-qa がパスにない場合は、次のようにスクリプトを呼び出すこともできます。

python -m HTSeq.scripts.count [オプション]

のSAM 形式でアライメントされた読み取りが含まれます。 (注意してください。 SAMツール
ほとんどのアライメント形式を SAM に変換するための Perl スクリプトが含まれています)。
TopHat などのスプライシング対応アライナー。 HTSeq-count は、次の情報を最大限に活用します。
シガー畑。

標準入力から読み取るには、次を使用します。 - as .

ペアエンド データがある場合は、最初に読み取り名で SAM ファイルを並べ替える必要があります。 (もしあなたの
並べ替えツールは大きなファイルを処理できません。たとえば、Ruan Jue のものを試してください。 ソートから入手できます。 石鹸
Webサイト。)

のの機能が含まれています GFF 形式でアーカイブしたプロジェクトを保存します..

スクリプトは、各機能のカウントを含むテーブルを出力し、その後に特別なカウンターが続きます。
さまざまな理由により、どの機能についてもカウントされなかった読み取りカウントは次のとおりです。

· no_feature: どの機能にも割り当てることができなかった読み取り (設定 S 上記のように
空いてました)。

· あいまいな: 複数の機能に割り当てられた可能性があるため、割り当てられなかった読み取り。
これらのいずれにもカウントされません (設定 S XNUMX つの要素よりも mroe がありました)。

· too_low_aQual: 次の理由によりカウントされなかった読み取り。 -a オプション、以下を参照

· not_aligned: アライメントなしで SAM ファイルを読み取ります

· アライメントが一意ではない: 報告されたアライメントが複数ある読み取り。 これらの読み取り値は、
から認識される NH オプションの SAM フィールドタグ。 (アライナーがこのフィールドを設定しない場合、
multiply aligned リードは複数回カウントされます。)

重要: 立ち往生のデフォルトは次のとおりです。 はい。 RNA-Seq データが作成されていない場合
鎖固有のプロトコルでは、リードの半分が失われます。 したがって、作成します
必ずオプションを設定してください --取り残された=いいえ ストランド固有のデータがない限り!

オプション
-m --mode =
複数のフィーチャに重複する読み取りを処理するモード。 可能な値
  組合, 交差点厳密 & 交差点-非空 (ディフォルト: 組合)

-s <はい、 いいえ or 逆>、 --取り残された= いや、 or 逆>
データが鎖特異的アッセイからのものかどうか (デフォルト: はい)

steaded=no の場合、リードはフィーチャーとオーバーラップしていると見なされます。
フィーチャと同じストランドにマッピングされるか、反対のストランドにマッピングされるか。 ために
stormed=yes およびシングルエンドリードの場合、リードは同じストランドにマッピングする必要があります。
特徴。 ペアエンドリードの場合、最初のリードは同じ鎖上にある必要があり、
XNUMX番目の読み取りは反対側の鎖にあります。 steaded=reverse の場合、これらのルールは次のとおりです。
逆になりました。

-a --a=
指定された最小値よりも低いアライメント品質を持つすべての読み取りをスキップします (デフォルト:
0)

-t <特徴 タイプ>、 --type= タイプ>
使用される機能タイプ (GFF ファイルの 3 列目)、他のタイプのすべての機能は
無視 (デフォルト、RNA-Seq および アンサンブル GTF ファイル: エクソン)

-i <ID 属性>、 --idattr= 属性>
機能 ID として使用される GFF 属性。 同じ機能 ID を持つ複数の GFF 行
同じ機能の一部として考慮されます。 機能 ID は識別に使用されます
出力テーブル内のカウント。 デフォルト、RNA-SEq および Ensembl GTF に適しています
ファイルは、 遺伝子ID.

-o --サムアウト=
すべての SAM アライメント レコードを次の名前の出力 SAM ファイルに書き込みます。 、
各行に機能または特別なカウンタへの割り当てを示す注釈を付けます (
タグ「XF」を持つオプションのフィールド)

-NS、 - 静かな
進行状況レポートと警告を抑制する

-NS、 - 助けて
使用状況の概要を表示して終了する

onworks.net サービスを使用してオンラインで htseq-count を使用する


無料のサーバーとワークステーション

Windows と Linux のアプリをダウンロード

Linuxコマンド

Ad