这是命令 fastx_barcode_splitter.pl 可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
fastx_barcode_splitter.pl - FASTX 条码拆分器
商品描述
条形码拆分器,由 Assaf Gordon ([电子邮件保护]), 11 年 2008 月 XNUMX 日
该程序读取 FASTA/FASTQ 文件并将其拆分为几个较小的文件,基于
条码匹配。 FASTA/FASTQ 数据从 STDIN 读取(格式是自动检测的。)输出
文件将写入磁盘。 摘要将打印到 STDOUT。
用法:r.pl --bc文件 文件 - 字首 前缀 [--suffix 后缀] [--bol|--eol]
[--不匹配 N] [--精确] [--部分 N] [--帮助] [--安静] [--调试]
参数:
--bc文件 FILE - 条码文件名。 (见下面的解释。) - 字首 前缀 - 文件
字首。 将被添加到输出文件中。 可以使用
指定输出目录。
- 后缀 SUFFIX - 文件后缀(可选)。 可用于指定文件
扩展。
--博尔 - 尝试在序列的开始处匹配条形码。
(生物学家称之为 5' 端,程序员称之为索引 0。)
--停产 - 尝试匹配序列末尾的条形码。
(生物学家称之为 3' 端,程序员称之为 XNUMX' 端
字符串。)注意:其中之一 --博尔, --停产 必须指定,但不能同时指定。
--不匹配 N - 最大。 允许的不匹配数。 默认为 1。 - 精确的 - 相同的
作为'--mismatches 0'。 如果两者 - 精确的 和 --不匹配
指定时,'--exact' 优先。
- 部分的 N - 允许条码部分重叠。 (见下面的解释。)
(默认不是部分匹配)
- 安静的 - 不要在运行结束时打印计数和摘要。
(默认是打印。)
-调试 - 向 STDERR 打印大量无用的调试信息。 - 帮帮我 -
这个有用的帮助屏幕。
示例(假设 's_2_100.txt' 是 FASTQ 文件,'mybarcodes.txt' 是条码文件):
$猫s_2_100.txt | /build/fastx-toolkit-V6DvdY/fastx-toolkit-0.0.14/debian/fastx-
工具包/usr/bin/fastx_barcode_splitter.pl --bcfile mybarcodes.txt --bol
--不匹配 2 \
- 字首 /tmp/bla_ - 后缀 “。文本”
条码文件格式 ------------------- 条形码文件是简单的文本文件。 每行
应包含一个标识符(条码的描述性名称)和条码本身
(A/C/G/T),由 TAB 字符分隔。 例子:
#这一行是注释(以“数字”符号开头) BC1 GATCT BC2 ATCGT BC3 GTGAT
BC4 TGTCT
对于每个条码,将创建一个新的 FASTQ 文件(将条码的标识符作为一部分
文件名)。 与条形码匹配的序列将存储在适当的文件中。
运行上面的例子(假设“mybarcodes.txt”包含上面的条形码),将
创建以下文件:
/tmp/bla_BC1.txt /tmp/bla_BC2.txt /tmp/bla_BC3.txt /tmp/bla_BC4.txt
/tmp/bla_unmatched.txt
'unmatched' 文件将包含不匹配任何条形码的所有序列。
条码匹配 ----------------
** 没有部分匹配:
计算 FASTA/Q 序列和条形码之间的不匹配。 条码
与最低的不匹配计数匹配(假设计数小于或等于
'--mismatches N') '获取' 序列。
示例(使用上述条码): 输入序列:
关贸总协定GTAAAGATAGAAGGAATAAGGTGAAG
匹配 '--bol --不匹配 1':
GATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG GATCT(1 个不匹配,BC1) ATCGT(4 个不匹配,
BC2) GTGAT(3 个错配,BC3) TGTCT(3 个错配,BC4)
该序列将被归类为“BC1”(它具有最低的不匹配计数)。 如果
'--exact' 或 '--mismatches 0' 被指定,这个序列将被分类为
'unmatched'(因为,虽然 BC1 的不匹配计数最低,但它高于最大值
允许不匹配)。
与“--eol”(行尾)匹配的效果相同,但从另一侧
序列。
** 部分匹配(非常类似于 indel):
同上,但增加了以下内容:还会检查条形码是否有部分重叠
(允许的非重叠碱基数为“--partial N”)。
示例:输入序列为 ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG(同上,但注意
开头缺少的“G”。)
匹配 (无 部分的 重叠) 驳 BC1 产量 4 不匹配:
ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG GATCT(4 个不匹配)
局部的 重叠 将 还 尝试 此 以下 匹配:
-ATTTACTATGTAAAGATAGAAGGAATAAGGTGAAG
GATCT(1 不匹配)
注意:评分将缺失的碱基计为错配,因此最终错配计数为 2(1
“真实”不匹配,1 个“缺失碱基”不匹配)。 如果使用 '--mismatches 2' 运行(意思是
最多允许 2 个不匹配) - 此序列将被归类为 BC1。
使用 onworks.net 服务在线使用 fastx_barcode_splitter.pl