英语法语西班牙语

Ad


OnWorks 网站图标

axe-demux - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 axe-demux

这是 axe-demux 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


ax - ax 文档

Ax 是一个读取解复用器,在序列读取包含
唯一区分样品的条形码。 Ax 使用基于快速准确的算法
汉明不匹配尝试将测序读取的前缀与
条码集。 Ax 支持组合条形码方案。

内容:

AX 用法


注意:
出于神秘的原因, 斧头 二进制更改为 斧解复用器 版本 0.3.0。
给您带来的不便深表歉意,这是必须的 斧头 可在 Debian 中安装
及其衍生物。 命令行用法没有改变。

Ax 有多种使用模式。 主要区别在于两个备用
条码方案,单一和组合条码。 使用单一条码匹配
当只有第一次读取包含条形码序列时。 组合条码用于以下情况
读取对中的两个读取都包含独立(通常不同)的条形码序列。

为了简洁参考,命令行使用 斧解复用器 转载如下:

用法:
斧头解复用器 [-mzc2pt] -b (-f [-r] | -i) (-F [-R] | -I)
斧解复用器-h
斧解复用器-v

选项:
-m, --mismatch 最大汉明距离不匹配。 [整数,默认 1]
-z, --ziplevel Gzip 压缩级别,或 0 表示纯文本 [int,默认 0]
-c, --combinatorial 使用组合条码匹配。 [标志,默认关闭]
-p, --permissive 不要在条形码不匹配冲突中出错,只匹配
正是为了冲突的条形码。 [标志,默认关闭]
-2, --trim-r2 从 R2 读取以及 R1 中修剪条形码。 [标志,默认关闭]
-b, --barcodes 条码文件。 例如,请参见 --help。 [文件]
-f, --fwd-in 输入正向读取。 [文件]
-F, --fwd-out 输出前向读取前缀。 [文件]
-r, --rev-in 输入反向读取。 [文件]
-R, --rev-out 输出反向读取前缀。 [文件]
-i, --ilfq-in 输入交错配对读取。 [文件]
-I, --ilfq-out 输出交错配对读取前缀。 [文件]
-t, --table-file 输出解复用统计的汇总表到文件。 [文件]
-h, --help 打印此用法以及其他帮助。
-V, --version 打印版本字符串。
-v, --verbose 更详细。 加法,-vv 比-v 更冗长。
-q, --quiet 非常安静。

输入 输出
无论何种读取模式,均支持三种输入输出方案:单端读取、
配对读取(单独的 R1 和 R2 文件)和交错配对读取(一个文件,带有 R1
和 R2 作为连续读取)。 如果输入单端reads,则必须输出为
单端读取。 如果读取成对或交错的成对读数,它们可以是
输出为配对读取或交错配对读取。 这适用于两者
成功解复用读取和无法解复用的读取。

-z 标志可用于指定应使用 gzip 压缩输出
压缩。 这 -z flag 接受一个介于 0(默认值)和 9 之间的整数参数,其中 0
表示纯文本输出(打开 模式 "wT"),1-9 表示各自的
应使用压缩级别,其中 1 最快,9 最紧凑。

输出标志应该是用于生成基于输出文件名的前缀
在条形码(或条形码对)的 ID 上。 名称生成如下: 字首 + _ + 条形码
ID + _ + + 。延期. 无法读取的输出文件
解复用是 字首 + _ + 不明 + _ + + 。延期. 读取数为
除非使用配对读取文件方案,否则省略,并且对于交错输出为“il”。
扩展名为“fastq”; “.gz”被附加到扩展名,如果 -z 标志被使用。

相应 CLI 标志 是:

· -f-F:分别是单端或成对的R1文件输入输出。

· -r-R:配对R2文件输入和输出。

· -i-I:交错成对的输入和输出。

条形码 文件
条形码文件是带有可选标题的制表符分隔文件。 它是强制性的,并且是
始终使用 -b 命令行标志。 确切的格式取决于条形码
模式,并在下面的部分中进一步描述。 如果存在标题,则标题
行必须以任一开头 条码 or 条形码, 否则会被解释为条形码
行,导致解析错误。 任何以“;”开头的行或 '#' 被忽略,允许
根据条形码添加注释。 请确保所使用的软件
生成条形码使用 ASCII 编码,并且不插入字节顺序标记 (BoM) 作为
许多文本编辑器可以默默地使用基于 Unicode 的编码方案。 我建议使用
LibreOffice的 计算 (免费和开源办公套件的一部分)生成条码表;
也可以使用 Microsoft Excel。

不匹配 水平 选择
独立于条码模式, -m flag 用于选择最大允许汉明
读取的前缀和被视为匹配的条形码之间的距离。 作为“变异”
条形码必须是唯一的,汉明距离为 XNUMX 是默认值,因为通常条形码
设计为相差至少两个汉明距离。 可选地,(使用 -p
标志),ax 将允许选择性的不匹配级别,如果观察到冲突,则
条形码只会完全匹配。 这允许人们处理带有条形码的数据集
它们之间没有足够大的距离。

集成的 条形码 模式
单条码模式是默认操作模式。 条形码与读取匹配
一个(以下称为正向读取),条码仅从正向读取中剪裁,
除非 -2 给出了命令行标志,在这种情况下,前缀的长度与
匹配的条码也会从第二次或反向读取中修剪掉。 注意序列
在修整之前不会检查第二次读取。

在单条码模式下,条码文件有两列: 条码ID.

组合式 条形码 模式
组合条码模式通过给出 -c 命令行上的标志。 向前
读取条码与正向读取匹配,反向读取条码匹配
反对反向阅读。 独立选择最优条码,条码
从这两个条形码中选择对。 各自的条形码从两个
读; 这 -2 命令行标志在组合条码模式下无效。

在组合条码模式下,条码文件有三栏: 条码1, 条码2
ID. 单个条码可以在正向和反向条码中出现多次,但
条形码对必须是唯一的组合。

分路 统计报表 文件
-t 选项允许将每个样本的读取计数输出到制表符分隔的文件。 这
文件将有一个描述其格式的标题,并包括一行用于非条形码读取。

斧头 匹配 算法


Ax 使用基于最长前缀匹配的算法来匹配可变长度
从每次读取开始,针对一组“变异”条形码。

汉明 距离 匹配
而对于高通量测序中的大多数应用,汉明距离是一个
不赞成公制,通常 HTS 读取条码被设计为容忍
一定程度的汉明不匹配。 鉴于这些序列很短并且通常发生
在reads的5'末端,很少需要考虑插入和删除,并且
有很多错误的读取分配率的增加被错误的风险所抵消
将条形码分配给不正确的样品。 在任何情况下,读取超过 1-2
前几个碱基的测序错误很可能质量很差,并且会
只需在下游质量控制过程中过滤掉即可。

汉明 不匹配 尝试
通常,读取通过计算汉明距离与一组条形码匹配
在条形码和长度为 l 的条形码的读数的前 l 个碱基之间。 这
然后通过记录具有最低汉明的条码来选择“正确”条码
读取距离(竞争匹配)或简单地接受第一个条形码
低于某个阈值的汉明距离。 这些方法都非常
计算成本高,并且精度可能低于我提出的算法。
此外,这些方法的实现很少处理不同长度的条形码
和组合条形码,如果有的话。

Axe 算法的核心是汉明失配尝试的概念。 特里是一个 N 元
N 个字母的树。 在高通量测序读取的情况下,我们有
字母表 AGCT,对应于 DNA 的四个核苷酸,加上 N,用来表示
不明确的碱基调用。 我们不是将每个条形码与每次读取匹配,而是预先计算所有
每个失配级别的允许序列,并将这些存储在逐级尝试中。 为了
例如,为了匹配 2 的汉明距离,我们创建了三个尝试:一个包含所有
条码,逐字逐句和两次尝试,其中汉明距离为 1 和
每个条码分别有2个。 此后,这些尝试被称为 0、1 和
2 毫米尝试,汉明距离(不匹配)为 0、1 和 2。然后,我们找到最长的
在 0mm 树中读取的每个序列中的前缀。 如果这个前缀不是一个有效的叶子
0mm trie,我们在 1mm trie 中找到最长的前缀,依此类推,所有尝试按升序排列
命令。 如果读取的前缀在任何树中都不是完整序列,则读取被分配
到“非条形码”输出文件。

该算法以多种方式确保最佳条码匹配,但速度也非常快。
在不同长度的条形码的情况下,我们确保 最长 可接受
选择给定汉明距离的条码; 假设序列是随机的
条码,使用这种方法错误分配的概率很低。 我们还确保
较短的完美匹配优于较长的不精确匹配,因为我们首先只
考虑没有错误的条形码,然后是 1 个错误,依此类推。 这确保读取
后跟随机序列的条形码恰好不完全匹配更长的
集合中的条形码不会错误地分配给这个较长的条形码。

该算法的速度主要是由于恒定时间匹配算法与
关于要匹配的条码数量。 匹配每次读取所花费的时间是
与条码的长度成正比,对于长度为 l 的条码,最多
需要l + 1 次trie 级别下降才能在trie 中找到一个条目。 由于这个长度是
或多或少恒定且很小,axe 算法的整体复杂度为 O(n) for n
读取,与传统的典型的 n 个读取和 m 个条形码的 O(nm) 相反
匹配算法

· 基因指数

使用 onworks.net 服务在线使用 axe-demux


免费服务器和工作站

下载 Windows 和 Linux 应用程序

  • 1
    三叶草 EFI 引导加载程序
    三叶草 EFI 引导加载程序
    项目已移至
    https://github.com/CloverHackyColor/CloverBootloader..
    特性:启动 macOS、Windows 和 Linux
    在 Mac 或 PC 上的 UEFI 或传统模式下
    厄...
    下载 Clover EFI 引导程序
  • 2
    联合转速
    联合转速
    加入我们的 Gitter!
    https://gitter.im/unitedrpms-people/Lobby
    启用 URPMS 存储库
    系统-
    https://github.com/UnitedRPMs/unitedrpms.github.io/bl...
    下载 unitrpms
  • 3
    Boost C++ 库
    Boost C++ 库
    Boost 提供免费便携
    同行评审的 C++ 库。 这
    重点是便携式图书馆
    与 C++ 标准库配合良好。
    参见http://www.bo...
    下载 Boost C++ 库
  • 4
    虚拟GL
    虚拟GL
    VirtualGL 重定向 3D 命令
    Unix/Linux OpenGL 应用程序
    服务器端 GPU 并转换
    将 3D 图像渲染为视频流
    与...
    下载虚拟GL
  • 5
    libusb
    libusb
    启用用户空间的库
    与之通信的应用程序
    USB 设备。 受众:开发人员,结束
    用户/桌面。 编程语言:C。
    分类...
    下载 libusb
  • 6
    斯威格
    斯威格
    SWIG 是一种软件开发工具
    连接用 C 编写的程序和
    C++ 具有各种高级
    编程语言。 SWIG 用于
    不同的...
    下载痛饮
  • 更多 ”

Linux 命令

Ad