これは、Ubuntu Online、Fedora Online、Windows オンライン エミュレーター、または MAC OS オンライン エミュレーターなどの複数の無料オンライン ワークステーションの XNUMX つを使用して、OnWorks 無料ホスティング プロバイダーで実行できるコマンド Leaff です。
プログラム:
NAME
Leaf - シーケンス ライブラリ ユーティリティとアプリケーション
SYNOPSIS
リーフ [-f fasta-file] [オプション]
DESCRIPTION
LEAFF (Let's Extract Anything From Fasta) は、複数のファイルを操作するためのユーティリティ プログラムです。
ファスタファイル。 基本レベルへのランダム アクセスを提供することに加えて、いくつかの機能が含まれています。
分析機能。
OPTIONS
ソースファイル
-f file: 「file」内のシーケンスを使用します (歴史的な理由から -F も許可されています)
-A ファイル: 「ファイル」からアクションを読み取ります。
ソースファイルの検査
-d: fasta 内のシーケンスの数を出力します。
-i name: ソース「name」にラベルを付けてインデックスを出力します。
出力オプション
-6 <#>: 60 文字ごとに改行を挿入します。
(次の引数が数値の場合、改行は次の引数ごとに挿入されます)
n 文字、例: -6 80。 -6 0 で改行を無効にします。
または -6 を使用しないでください!)
-e beg end: 'beg' 位置から 'end' 位置までの塩基のみを出力します。
(スペースベース、FORWARD シーケンスを基準にしています!)
beg == end の場合、シーケンス全体が出力されます。 それは
beg > end、beg > len、または end > len の指定エラー。
-ends n シーケンスの両端から n 塩基を出力します。 XNUMXつの入力
sequence は、'_5' または '_3' を含む XNUMX つの出力シーケンスを生成します。
IDに付加されます。 2n >= シーケンスの長さの場合、
シーケンス自体は出力され、末尾は抽出されません(それらは
重複します)。
-C: シーケンスを補完します。
-H: 定義ファイルを出力しません
-h: 次の単語を定義線として使用します (「-H -H」は定義線にリセットされます)
オリジナルの定義
-R: シーケンスを逆にします
-u: すべての塩基を大文字にする
シーケンスの選択
-G nsl: ランダムに生成された n 個のシーケンスを出力します (0 < s <= 長さ <= l)
-L sl: s <= length < l となるすべてのシーケンスを出力します。
-N lh: l <= % N 構成 < h となるすべてのシーケンスを出力します。
(注 0.0 <= l < h < 100.0)
(100% N でシーケンスを印刷できないことに注意してください。
これは便利なバグです)。
-q file: 'file' の seqid リストからシーケンスを出力します。
-r num: 'num' 個のランダムに選択されたシーケンスを出力します。
-s seqid: 単一シーケンス「seqid」を出力します。
-S fl: ID 'f' から 'l' までのすべてのシーケンス (両端を含む) を出力します。
-W: すべてのシーケンスを出力します (ファイル全体を実行します)。
より長いヘルプ
-ヘルプ分析
-ヘルプの例
分析機能
--findduplicates a.fasta
複数回存在するシーケンスを報告します。 出力
は、改行で区切られた defline のペアのリストです。
--map 重複 a.fasta b.fasta
a.fasta と b.fasta から IID のマップを構築します。
同一の配列。 形式は「IIDa <-> IIDb」です。
--md5 a.fasta:
シーケンスを出力せず、md5 チェックサムを出力します。
(シーケンス全体の)その後に定義全体が続きます。
--パーティション プレフィックス [ n[gmk]bp | n ] a.fasta
--partitionmap [ n[gmk]bp | n ] a.ファスタ
シーケンスをほぼ同じサイズの部分に分割します。
サイズ nbp、nkbp、nmbp または ngbp。 または、ほぼ同じサイズの n に分割します
パーティション。 パーティション サイズより大きいシーケンス
単独でパーティション内にあります。 --partitionmap は、
パーティションの説明を標準出力に出力します。 --partition が作成します
各パーティションの fasta ファイル「prefix-###.fasta」。
例: -F some.fasta --パーティション パーツ 130mbp
-F some.fasta --パーティション パーツ 16
--segment プレフィックス n a.fasta
シーケンスを n 個のファイル (prefix-###.fasta) に分割します。
シーケンスは並べ替えられません。 最初の n 個のシーケンスは
最初のファイル、XNUMX 番目のファイルの次の n など。
--gccontent a.fasta
GC コンテンツをスライディング ウィンドウでレポートします。
3、5、11、51、101、201、501、1001、2001 bp。
--testindex a.fasta
「ファイル」のインデックスをテストします。 インデックスが最新の場合、leaf
正常に終了した場合、leaf はコード 1 で終了します。
インデックス ファイルが提供されている場合はそのファイルがテストされ、それ以外の場合は
デフォルトのインデックスファイル名が使用されます。
--dumpblocks a.fasta
N と非 N のブロックのリストを生成します。 出力
形式は「base seq# beg end len」です。 「N 84 483 485 2」とは、
2 つの N のブロックが空間ベースの位置 483 から始まること
序数 84 のシーケンス。「.」 シーケンスの終わりです
マーカー。
--errors LNCP a.fasta
入力ファイル内のすべてのシーケンスに対して、新しいものを生成します。
シミュレートされたシーケンスエラーを含むシーケンス。
L -- 新しいシーケンスの長さ。 ゼロの場合、長さ
元のシーケンスのものが使用されます。
N -- 生成するサブシーケンスの数。 L=0の場合、すべて
サブシーケンスは同じになるため、使用する必要があります
代わりにC。
C -- 生成するコピーの数。 N のそれぞれ
サブシーケンスには C コピーがあり、それぞれが異なります
エラーが。
P -- エラーの確率。
ヒント: 遺伝子からの EST をシミュレートするには、L=500、N=10、C=10 を使用します。
-- N=10 EST シーケンスの C=10 シーケンサー実行を作成します。
それぞれ長さ500bp。
遺伝子からの mRNA をシミュレートするには、L=0、N=10、C=10 を使用します。
ゲノムからの読み取りをシミュレートするには、L=800、N=10、C=1 を使用します。
-- もちろん、次のようにするには N= を増やす必要があります。
適切なカバレッジの深さ
--stats a.fasta
サイズ統計をレポートします。 数値、N50、合計、最大。
--seqstore out.seqStore
入力ファイル (-f) を seqStore ファイル (たとえば、
Celera アセンブラまたは sim4db で使用します)。
注意事項
オプションは注文に応じて異なりますのでご注意ください。 シーケンスは SEQUENCE が実行されるたびに出力されます。
SELECTION オプションはコマンド ラインで使用されます。 シーケンスの実行時に出力オプションがリセットされない
が印刷されます。
シーケンスには XNUMX ではなく XNUMX から始まる番号が付けられます。
例
1. ファイル「genes」内の 10 番目の配列の最初の XNUMX 塩基を出力します。
葉 -f 遺伝子 -e 0 10 -s 3
2. 10 番目と XNUMX 番目のシーケンスの最初の XNUMX 塩基を出力します。
リーフ -f 遺伝子 -e 0 10 -s 3 -s 4
3. XNUMX 番目と XNUMX 番目のシーケンスを逆補完して出力し、XNUMX 番目のシーケンスを出力します。
シーケンスを進めます。 -R -C の XNUMX 番目のセットは、逆補数をオフに切り替えます。
リーフ -f 遺伝子 -R -C -s 3 -s 4 -R -C -s 5
4. ファイル「genes」を seqStore「genes.seqStore」に変換します。
リーフ -f 遺伝子 --seqstore 遺伝子.seqStore
onworks.net サービスを使用してオンラインで Leaf を使用する