这是可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行的命令 Leaff,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
Leaff - 序列库实用程序和应用程序
概要
叶子 [-f fasta-file] [选项]
商品描述
LEAFF(让我们从 Fasta 中提取任何东西)是一个实用程序,用于处理多
fasta 文件。 除了提供对基本级别的随机访问之外,它还包括几个
分析功能。
配置
源文件
-f 文件:在“文件”中使用序列(由于历史原因也允许使用 -F)
-A 文件:从“文件”读取操作
源文件检查
-d:打印fasta中的序列数
-i name: 打印索引,标记源“name”
输出选项
-6 <#>:每 60 个字母插入一个换行符
(如果下一个 arg 是一个数字,则每插入一次换行符
n 个字母,例如 -6 80。使用 -6 0 禁用换行符,
或者只是不要使用-6!)
-e beg end: 只打印从位置 'beg' 到位置 'end' 的碱基
(基于空间,相对于 FORWARD 序列!)如果
beg == end,然后打印整个序列。 它是一个
错误指定 beg > end,或 beg > len,或 end > len。
-ends n 从序列的每一端打印 n 个碱基。 一输入
sequence 生成两个输出序列,带有 '_5' 或 '_3'
附加到 ID。 如果 2n >= 序列的长度,则
序列本身被打印,没有末端被提取(它们
重叠)。
-C:补充序列
-H:不打印定义
-h:使用下一个单词作为定义(“-H -H”将重置为
原始定义
-R:反转序列
-u:大写所有碱基
序列选择
-G nsl:打印 n 个随机生成的序列,0 < s <= length <= l
-L sl:打印所有满足 s <= length < l 的序列
-N lh:打印所有序列使得 l <= % N composition < h
(注意 0.0 <= l < h < 100.0)
(请注意,您不能使用 100% N 打印序列
这是一个有用的错误)。
-q 文件:从“文件”中的 seqid 列表打印序列
-r num: 打印 'num' 随机选取的序列
-s seqid:打印单个序列“seqid”
-S fl:打印从 ID 'f' 到 'l'(含)的所有序列
-W:打印所有序列(打印整个文件)
更长时间的帮助
-帮助分析
-帮助示例
分析功能
--findingduplicates a.fasta
报告出现多次的序列。 输出
是由换行符分隔的定义对的列表。
--mapduplicates a.fasta b.fasta
从 a.fasta 和 b.fasta 构建 IID 的映射,它们具有
相同的序列。 格式为“IIDa <-> IIDb”
--md5 a.fasta:
不要打印序列,而是打印 md5 校验和
(整个序列)后跟整个定义。
--partition 前缀 [ n[gmk]bp | n ] a.fasta
--partitionmap [ n[gmk]bp | n] a.fasta
将序列分成大致相同大小的片段
大小 nbp、nkbp、nbp 或 ngbp; 或成 n 个大致相等的大小
分区。 大于分区大小的序列
在自己的一个分区中。 --partitionmap 写一个
对标准输出的分区描述; --partiton 创建
每个分区的 fasta 文件“前缀-###.fasta”。
示例:-F some.fasta --partition 部分 130mbp
-F some.fasta --partition 部分 16
--segment 前缀 n a.fasta
将序列拆分为 n 个文件,前缀为###.fasta。
序列不会重新排序; 前 n 个序列在
第一个文件,第二个文件中的下一个 n,等等。
--gccontent a.fasta
通过滑动窗口报告 GC 内容
3、5、11、51、101、201、501、1001、2001 bp。
--testindex a.fasta
测试“文件”的索引。 如果索引是最新的,leaf
成功退出,否则,leaf 退出,代码为 1。如果
提供索引文件,该文件被测试,否则,
使用默认索引文件名。
--dumpblocks a.fasta
生成 N 块和非 N 块的列表。 输出
格式是'base seq# beg end len'。 “N 84 483 485 2”表示
一个 2 N 的块从基于空间的位置 483 开始
依次序数 84. A '.' 是序列的结尾
标记。
--errors LNCP a.fasta
对于输入文件中的每个序列,生成新的
包括模拟测序错误的序列。
L——新序列的长度。 如果为零,则长度
将使用原始序列。
N——要生成的子序列的数量。 如果 L=0,则所有
子序列将相同,您应该使用
C 代替。
C - 要生成的副本数。 每个 N
子序列将有 C 个副本,每个副本都有不同的
错误。
P——错误的概率。
提示:要模拟来自基因的 EST,请使用 L=500、N=10、C=10
-- 使 N=10 EST 序列的 C=10 测序运行
每个长度为 500bp。
从基因模拟 mRNA,使用 L=0, N=10, C=10
模拟来自基因组的读数,使用 L=800, N=10, C=1
-- 当然,应该增加 N= 以给出
适当的覆盖深度
--stats a.fasta
报告大小统计; 数字,N50,总和,最大。
--seqstore 输出.seqStore
将输入文件 (-f) 转换为 seqStore 文件(例如,
用于 Celera 汇编器或 sim4db)。
附注
请注意,选项取决于订单。 每当出现 SEQUENCE 时都会打印序列
SELECTION 选项出现在命令行上。 当序列出现时,输出选项不会重置
被打印。
序列从零开始编号,而不是一!
示例
1. 打印文件 'genes' 中第四个序列的前 10 个碱基:
Leaff -f 基因 -e 0 10 -s 3
2. 打印第四个和第五个序列的前 10 个碱基:
叶f -f 基因-e 0 10 -s 3 -s 4
3.打印第四个和第五个序列反向补码,第六个
顺序向前。 第二组 -R -C 关闭反向补码:
Leaff -f 基因 -R -C -s 3 -s 4 -R -C -s 5
4. 将文件 'genes' 转换为 seqStore 'genes.seqStore'。
Leaff -f 基因 --seqstore 基因.seqStore
使用 onworks.net 服务在线使用 Leaff