GoGPT Best VPN GoSearch

OnWorks 网站图标

murasaki-mpi - 云端在线

在 OnWorks 免费托管服务提供商中通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器运行 murasaki-mpi

这是 murasaki-mpi 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器

程序:

您的姓名


murasaki - 计算多个序列之间的锚点

概要


murasaki [OPTIONS] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #使用 [pattern] 计算 seq1.fa 和 seq2.gbk 之间的锚点
mpirun murasaki [OPTIONS] -p[pattern] seq1.fa seq2.gbk [seq3.raw ...] #通过 MPI 并行使用 [pattern] 计算 seq1.fa 和 seq2.gbk 之间的锚点

商品描述


Murasaki 根据用户提供的所有序列生成锚点
模式 和哈希表。 基本上每个序列的每个碱基都被模式掩盖,
形成一个 种子 用于生成散列。 种子的位置存储在
哈希 . 一旦所有种子都被散列并存储,Murasaki 扫描散列表,
为所有匹配的种子生成锚。 锚点是指跨一个设置的间隔
输入序列的子集。 这些存储在 姓名.anchors 文件,并在
“文件格式”。 默认情况下,锚点被最大程度地扩展到它们的最小成对
无间隙对齐分数以与 X-drop 参数相同的方式下降到阈值以下
在 BLAST 和类似 BLAST 的搜索中。

模式
村崎使用 间隔开 种子 模式 在考虑种子。 一种 间隔开 种子 模式 is
通常表示为一串 1 和 0,必须以 1. 1 开头和结尾
表明这个碱基被认为是种子的一部分,而在 0 个位置的碱基是
不是。 例如,对于模式“1011”,序列“ACGT”将匹配序列“AGGT”
和“ATGT”而不是“ACTT”。 模式中 1 的数量被称为“权重”
模式,1和0的组合数就是模式的“长度”。 村崎
允许使用任何表示为 1 和 0 字符串的任意模式,并且
将“x:y”形式的模式解释为“随机的权重模式 x 和长度 y."

模式的选择显然对敏感性和特异性有影响,但是否
一种模式比另一种“更好”取决于应用程序和输入序列
在考虑中。 计算“最大敏感间隔种子模式”是一个
计算上的难题,并且有许多研究论文描述
各种近似方法(“相关阅读”)。 但总的来说,“重”
与较轻的种子相比,间隔种子模式不太敏感,但更具体。
有趣的是,我们发现重量约为 60% 到 75%(长度约为
24 用于细菌,36 到 48 用于哺乳动物)适用于大多数应用。 极其
相似的物种(例如人类和黑猩猩)受益于更长、更重的种子。

HASH 职能
散列函数(以及散列参数)是基于系统自动生成的
环境和输入序列。 基本上有两种类型的哈希函数
在 Murasaki 中可用:自适应和加密哈希。 自适应哈希是 XOR
通过分析设计的种子的各种按位移位的组合 间隔开 种子
模式 最大化结果散列的熵。 加密哈希可用
通过 CryptoPP 库并使用 整个 使用间隔种子模式生成哈希
一种常见的加密哈希,如 MD5 或 SHA-1。 自适应哈希函数是
几乎总是比 MD5 和 SHA-1 更快、更有效,但加密
功能可供参考,并且可能在不太可能的情况下作为替代方法有用
如果您正在处理自适应散列器不适合的环境(对于
例如一个仅由 A 和 T 组成的序列(每 1 个位中留 2 个单元化))。

记忆 标度
Murasaki 会占用很多内存。 存储每个种子在哈希表中的位置是
操作中成本最高的部分,每个大约需要“ceil(log_2(N))”位
种子,其中“N”是总序列长度。 默认情况下,位置存储在
位压缩格式以接近理论最小值。 第二个最昂贵的元素是
哈希表结构,其中每个桶携带很小的开销,未使用的只是简单的
浪费空间。 更多的哈希表桶(即更长的哈希表)会降低预期
冲突次数,导致更快的执行时间。 因此,Murasaki 尝试使用
通过检查可用的系统内存并尽可能多地使用尽可能多的存储桶
它可以同时存储所有种子位置。 如果这个自动缩放是
无效,直接通过 --hashbits|-b 选项设置哈希表大小可以强制
特定的哈希表大小。 如果一台计算机的内存不足以存储
所需的哈希表,PARALLELIZATION 可用于将哈希表分布在
多台电脑。

平行化
Murasaki 被设计为使用 MPI 并行运行。 查阅文档以了解
您的 MPI 实现的特定变体,但通常执行方法
好像:

mpirun [MPI 选项] murasaki [murasaki 选项] -p[pattern] [seq1 ...]

Murasaki 并行地将可用处理器的数量 (NP) 分为两组:
哈希器节点和存储节点。 存储节点在每个节点之间划分哈希表
他们自己,每个人都负责表格的不同部分。 哈希器节点划分
它们之间的输入序列,每个序列散列输入的单独部分
序列,并将种子位置传递到适当的存储节点进行存储。 什么时候
所有散列器节点都完成散列,存储节点扫描它们的散列部分
表并将匹配的种子集传递给散列器节点,在那里它们被组装成
锚点和扩展。 最后所有的 hasher 节点组合它们独立的锚集
在“ceil(log_2(H))”迭代中进入一个最终集合(其中“H”是散列器的数量
节点),每个散列器节点编号 2h 将其锚点传递给散列器编号 2h-1
迭代。

因为几乎所有的并行化步骤都不需要之间的通信 所有 节点,
并且每个种子和每个锚都可以并行处理,Murasaki 在
并行,当可用节点数量翻倍时,运行速度大约翻倍。
此外,哈希表会自动增长以利用组合
来自多台机器的内存。

配置


大多数选项都可以以其长格式指定(例如“--directory out”或
“--directory=out”)或简称(例如“-dout”)。 由期望字符串标记的选项,
一个整数, 一个浮点数和一个布尔值(“yes/on/true/1”表示真,
“no/off/false/0”表示假)。 大多数布尔值可以省略该值,从
不管它是什么对立面。

村崎有很多选择。 在这里,我们将它们分为几类以帮助
区分各种选项的范围,但是在某些情况下某些选项
选择可能会产生可预见的后果,当然最终如果指定的输出
is 巨大,所需的运行时间必然是 . 认为这是错误的
性能部分中“调整选项”之外的所有内容都与
性能。

参数 有关 选项
这些选项塑造了所谓的“锚”。

--模式|-p
指定种子模式(例如 11101001010011011)。 使用格式
C<[ : ]> 自动生成随机的权重模式
和长度

--repeatmask|-r
跳过重复屏蔽数据(即:小写 atgc)。 请注意,某些序列文件是
纯粹以小写形式分布。

--seedfilter|-f
跳过出现次数超过 N 次的种子。 异常缓慢。 参见 --hashfilter
更快的近似。

--hashfilter|-m
像 --seedfilter 但适用于哈希键而不是种子。 可能会造成一些抵押
损坏其他独特的种子,但速度更快。

--skipfwd|-F
不要散列/匹配前向链。

--skiprev|-R
不要散列/匹配反向互补链。

--skip1to1|-1
沿 1:1 线跳过比赛(适合与自己进行比较)。

--hashonly|-Q
仅哈希。 没有锚点输出,只有统计数据。

--hashskip|-S
每 n 个碱基散列一次。 默认值为 1(即散列所有位置)。 不提供任何
参数将跳过量增加 1。

--join|-j
在彼此的 n 个碱基内加入锚点(默认值:0)。 指定负 D 意味着
-D*模式长度。

--bitscore|-B
为所有锚点切换比特分数的计算(默认为打开)。

--seedterms|-T
切换种子项的保留(默认为关闭)。 这些是计算所必需的
TF-IDF 分数)。

--sectime|-e
始终以秒为单位显示时间,而不是人类可读的“1d 3h 45m 5s”样式
倍。

--mergefilter|-Y
过滤掉会导致超过 D 要生成许多锚点
来自 1 个种子(默认 -Y100)。 使用 -Y0 禁用。

--scorefilter
设置种子的最小无间隙分数。

--裂痕|-/
允许锚点跳过 D 个序列(默认为 0)。

--岛屿|-%
与 --rifts=SD 相同(其中 S 是输入序列的数量)。

--fuzzyextend|-z
启用(默认)或禁用锚点的模糊扩展(即无间隙对齐)。

--fuzzyextendlosslimit|-Z
设置停止扩展模糊命中的截止点(即 BLAST X 参数)。

--gappedanchors
使用有间隙(真)或无间隙(假(默认))锚。

--scorebyminimumpair
适当时按最小对进行锚定评分(默认)。 替代方案是
算术平均值(很少有用,但理论上更快)。 =项目--裂缝|-/

允许锚点跳过 D 个序列(默认为 0)。

--岛屿|-%
与 --rifts=SD 相同(其中 S 是输入序列的数量)。

--fuzzyextend|-z
启用(默认)或禁用锚点的模糊扩展(即无间隙对齐)。

--fuzzyextendlosslimit|-Z
设置停止扩展模糊命中的截止点(即 BLAST X 参数)。

--gappedanchors
使用有间隙(真)或无间隙(假(默认))锚。

--scorebyminimumpair
适当时按最小对进行锚定评分(默认)。 替代方案是
算术平均值(很少有用,但理论上更快)。

输出 选项
这些选项主要影响输出数据的位置。

--目录|-d
输出目录(默认:输出)

--name|-n
对齐名称(默认:测试)

--repeatmap|-i
使用 --mergefilter 时切换保持重复映射(默认为是)。

--直方图|-H
直方图计算级别:(-H 单独意味着 -H1)

0 - 无直方图(默认)
1 - 基本的bucketsize/bucketcount直方图数据
2 - 基于桶的分数到 anchors.detils
3 - 每桶计数数据
4 - perbucket + perpattern 计数数据

任何大于 2 的值纯粹是探索性的,可能会导致大量输出文件。

--tfidf|-k
从 murasaki 内部执行准确的 tfidf 评分(需要额外的内存在锚点
世代时间)。 默认为否。

性能/调优 选项
这些选项主要影响性能,并且(通常)不影响输出。

--quickhash|-q
指定一个散列函数:

0 - S-boxes 自适应(当有大量散列表可用时默认)
1 - 不要打包位来制作散列(仅使用第一个单词)
2 - 天真地使用模式的第一个哈希位
3 - 自适应地找到一个好的散列(默认)
**实验性 CryptoPP 哈希**
4-MD5
5 - SHA1
6 - 漩涡
7 - CRC-32
8 - 阿德勒-32

注意:3 和 0 是唯一“推荐”的哈希函数,唯一的
自动选择。 其他仅供参考。 1、7 和 8
甚至不希望利用整个哈希空间。

--hashbits|-b
使用 D 位哈希(对于 1 到 WORDSIZE 的 n。默认为 26)

--hashtype|-t
选择要使用的哈希表数据结构:

OpenHash - 打开哈希位的子字打包(当有大量哈希时默认
桌子备用)
EcoHash - 哈希位的链式子字打包(默认)
ArrayHash - malloc/realloc(快速但容易碎片化)
MSetHash - 内存过高,几乎毫无意义。
--探测
0 - 线性,1 - 二次(默认)。 仅适用于 --hashtype=OpenHash。

--hitfilter|-h
要作为锚点输出的最小命中数(默认为 1)。 在 PatternHunter 这个
是2。

--rseed|-s
非确定性算法的随机数种子(即:自适应哈希函数
一代)。 如果您正在进行任何性能比较,这可能是必不可少的
每次运行相同的设置时都使用相同的种子。 默认获取
时间() (即:自 1970 年以来的秒数)。

--内存|-M [ | ]
设置总内存的目标数量(以 GB 或总内存百分比)。

--reverseotf|-o
动态生成反向补码(默认为打开)。 关闭它会预先计算
所有反向互补链并将它们存储在内存中,这很少提供
可衡量的性能改进。

--binaryseq
启用(默认)或禁用二进制序列读/写

自适应 哈希 function 有关:

与自适应哈希函数生成相关的性能选项。

--hasherFairEntropy
使用更平衡的熵估计(默认值:是)。

--hasherCorrelationAdjust
假设一些相关性,调整附近源的熵估计(默认值:是)。

--hasherTargetGACycles
自适应哈希函数生成遗传算法循环截止。

--hasherEntropyAgro
追求最大熵哈希函数的积极性(需要一个真实的。
默认为 1)。

MPI(牛奶蛋白分离物) 具体:
--hasers|-A [ | ]
指定用作散列器的进程数(仅适用于 MPI。如果
0 和 1 之间的数字是指 np) 的比率。

--localhash|-K
在每个存储节点上本地执行散列,而不是通过网络发送
(对于慢速网络很有帮助)。

--mpidistro|-L
切换使用 MPI 分发序列数据(如果序列在
每个节点上的本地磁盘然后将其关闭可能会加速初始
序列加载)。

--waittoanchor|-w
推迟实际锚点计算,直到收到所有位置集(如
与尝试在接收种子数据包之间工作)。

--buffers|-u
消息传递时允许的最大未完成缓冲区数(0 表示
无限)。 默认值是根据参与的节点数设置的。 MPI 可能会崩溃
或执行 非常 如果此值太高,则效果不佳。

--nobuffers|-U
与 --buffers=1 相同。

--bigfirst|-我
首先将哈希分配给大内存节点。

--hostbalance|-l
如果是(默认):在所有节点之间均匀分布哈希。
如果否:分配作业时忽略主机名。
--memorybalance|-a
如果是(默认):根据可用的数量平衡节点之间的哈希存储
内存。
如果不是:均匀地分配存储。 这更有可能实现最佳运行时间,但
可能无法有效利用内存。
--distmerge|-<
如果是(默认):在合并步骤中,存储节点将种子发送到任何可用的
哈希。
如果否:仅将所有种子发送到一个节点。
--distcollect|->
如果是(默认):从所有哈希器收集锚数据。
如果否:仅将所有种子发送到最终组装节点。
--mpiredirect输出
如果是(默认):每个等级将其 stdout/stderr 重定向到一个单独的文件
(村崎-mpiout-N).
如果不是:做自然而然的事情(即:由 mpirun 管理(对于 OpenMPI,请参见
--output-filename 和 --tag-output 在 米匹伦(1)))。
--keepstdoe
不要在成功时删除 murasaki-mpiout 文件。

--sysvipc|-V
使用 System V IPC 协商共享内存区域(当一台主机运行时节省内存
多个节点)。 默认为真。

普遍 opţiuni:
--详细|-v
增加冗长。

--版本|-V
打印版本信息并退出。

--帮助|-?
打印帮助信息并退出。

文件 FORMATS


Murasaki 有各种各样的输出文件,其中大部分的格式都旨在
直觉的。 所有输出文件都以 --name 参数的值作为前缀。 首要的
此处描述了输出文件格式。 文件是基于行和制表符分隔的,除非
另有规定。

.seqs
.seqs 显示用作输入的序列,每行 1 个。 这个文件被使用
与 .anchors 文件结合的各种程序,因此通常很重要
内容反映了正确的序列文件。 在计算机之间移动锚点结果
可能会导致路径更改,需要用户更新 .seqs 文件。 作为
或者,总是使用相对路径可以缓解这个问题。

.锚点
这些文件每行 1 个锚点,每个序列有一个 3 元组。 每个元组代表
每个序列上锚定间隔的起始和终止坐标和链。 这
序列顺序与 .seqs 文件中的顺序匹配。 坐标结构化
这样 1 表示序列中的第一个碱基,2 表示第二个碱基,以此类推。 负
值指的是反向补码序列,其中 -1 是 最后 反向基础
互补序列(即:正向序列中的互补第一个碱基)。 “股”
元素是一个 '+' 或 '-' 只匹配坐标的符号(这是多余的
信息,但保持使解析或过滤更简单)。

例如:

1 18 + -1 -18 -

这一行描述了一个锚,其中第一个序列的前 18 个碱基与
第二个序列的反向互补序列的前 18 个碱基。

.anchors.details
这是一种过时的文件格式,但 GMV 使用它来计算 TF-IDF 等统计数据
分数,并因此被保留下来。 .anchors.details 文件具有相同的
格式和信息作为 .anchors 文件,但是在锚点之后还有两个
术语:分数和逗号 (,) 分隔的术语和计数对列表(书面
“术语:计数”)。 分数和计数数据可能会因“--直方图”而异
选项选择。

.anchors.bitscore
这里的“bitscore”一词用词不当,但由于历史原因而保留。 事实上,
该文件包含匹配碱基的平均数和每个锚的长度
(与 .anchors 文件逐行对应)。

.stats.tfidf
包含锚点 TF-IDF 分数(与 .anchors 文件逐行对应)。

.直方图
包含哈希表使用情况的简单直方图。 第一个字段是桶大小,
第二个是频率。 例如像这样的 .histogram 文件:

1 24
2 1

表示有 24 个哈希桶只存储了 1 个位置(即 24 个唯一的
种子)和 1 个哈希桶存储了 2 个位置(即匹配 1 个位置的 2 个种子(或 2
导致哈希冲突的不匹配种子))。

。选项
维护运行 Murasaki 时使用的选项的记录。

.重复
.repeas 文件存储由 --mergefilter 选项定义的“重复”记录
(即可能会产生比允许更多的锚点的种子)。 在这个文件中,每个
重复记录由空行分隔。 重复记录如下所示:

R:G.GCCTTT.T.ACT.CACAA..AT
0:2145540494 -425039256 -113794380 1998323403
1:2480929222 -1874514626 2543723555 -2550045172

第一行(始终以“R:”为前缀)显示重复种子本身(其中 . 是
被图案掩盖的碱基)。 随后的几行显示了这些种子在
输入序列(在第一个 (0) 和第二个 (1) 序列中)。 请注意,如果没有
在特定序列中命中,它不包含该序列的空行。 为了
例:

R:G.GCCTTT.T.ACT.CACAA..AT
0:2145540494 -425039256 -113794380 1998323403
2:2480929222 -1874514626 2543723555 -2550045172

也是一个有效的 .repeas 文件。

使用 onworks.net 服务在线使用 murasaki-mpi


免费服务器和工作站

下载 Windows 和 Linux 应用程序

Linux 命令

Ad




×
广告
❤️在这里购物、预订或购买——免费,有助于保持服务免费。