这是 sacctmgr 命令,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
sacctmgr - 用于查看和修改 Slurm 帐户信息。
概要
saccmgr [配置...] [指挥...]
商品描述
saccmgr 用于查看或修改 Slurm 账户信息。 账户信息是
在数据库中维护,接口由提供 slurmdbd (Slurm 数据库
守护进程)。 该数据库可以作为用户和计算机信息的中央仓库
用于单个站点上的多台计算机。 Slurm 账户信息的记录基于
形成所谓的四个参数 协会. 这些参数是
用户, 簇, 分及 帐户. 用户 是登录名。 簇 是一个名字
由 Slurm 管理的集群 集群名称 中的参数 配置文件
配置文件。 分 是该集群上的 Slurm 分区的名称。 帐户
是工作的银行账户。 预期的操作模式是启动 saccmgr
命令、添加、删除、修改和/或列表 协会 记录然后提交更改和
退出。
请注意: Slurm 数据库的内容以小写形式维护。 这可能会导致
一些 saccmgr 输出与其他 Slurm 命令的输出不同。
配置
-h, - 帮帮我
打印描述使用的帮助消息 saccmgr. 这相当于
帮助 命令。
-i, - 即时
立即提交更改。
-n, --无标题
不会在输出的开头添加标题。
-p, --可解析
输出将是“|” 以“|”分隔在末尾。
-P, --可解析2
输出将是“|” 没有“|”分隔在末尾。
-Q, - 安静的
除错误消息外不打印任何消息。 这相当于 安静
命令。
-r, - 只读
使正在运行的 sacctmgr 无法修改记帐信息。 这
只读 选项用于在交互模式下使用。
-s, --协会
与 show 或 list 一起使用以显示与实体的关联。 这是等价的
以及 协会 命令。
-v, --详细
启用详细日志记录。 这相当于 详细 命令。
-V , - 版
显示版本号。 这相当于 版本 命令。
指令
加 <实体>产品规格>
添加实体。 与 创建信息图 命令。
协会
与 show 或 list 一起使用以显示与实体的关联。
创建信息图 <实体>产品规格>
添加实体。 与 加 命令。
删除 <实体> 哪里产品规格>
删除指定的实体。
倾倒 <实体>文件=文件名>
将集群数据转储到指定文件。 如果未指定文件名,则使用
默认情况下 clustername.cfg 文件名。
出口 终止 sacctmgr 交互模式。 与 退出 命令。
帮助 显示 sacctmgr 选项和命令的描述。
名单 <实体> [产品规格>]
显示有关指定实体的信息。 默认情况下,所有条目都是
显示,您可以通过在查询中指定 SPECS 来缩小结果范围。 相同
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 显示 命令。
加载 <文件名>
从指定文件加载集群数据。 这是生成的配置文件
通过运行 sacctmgr dump 命令。 此命令不加载存档数据,请参阅
sacctmgr 存档加载选项。
修改 <实体> 哪里产品规格> 设置产品规格>
修改实体。
问题
与 show 或 list 一起使用以显示实体问题。
安静 除错误消息外不打印任何消息。
退出 终止 sacctmgr 交互模式的执行。 与 出口
命令。
重新配置
如果使用一个,则重新配置 SlurmDBD。
显示 <实体> [产品规格>]
显示有关指定实体的信息。 默认情况下,所有条目都是
显示,您可以通过在查询中指定 SPECS 来缩小结果范围。 相同
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 名单 命令。
详细
启用详细日志记录。 这包括数据结构上的时间戳、记录
计数等。这是一个独立的命令,没有用于在
交互模式。
版本
显示 sacctmgr 的版本号。
!! 重复最后一条命令。
实体
帐户
银行帐户,通常在作业提交时使用 --账户= 选项。
这些可以以分层方式排列,例如帐户 化学 和
物理 可能是帐户的孩子 科学. 层次结构可能有一个
任意深度。
协会
用于对由四个参数组成的信息进行分组的实体: 帐户,
簇, 分 (可选)及 用户. 仅与 名单 or 显示 命令。
应该对用户、帐户或集群实体进行添加、修改和删除。 这个
将依次更新底层关联。
簇
- 集群名称 中的参数 配置文件 配置文件,用于
区分不同机器上的帐户。
配置
仅与 名单 or 显示 命令报告当前系统配置。
协调
特殊特权用户通常是帐户管理员或可以添加用户或
子帐户到他们协调的帐户。 这应该是值得信赖的
人,因为他们可以更改其内部帐户和用户关联的限制
境界。
活动 集群上的节点宕机或耗尽等事件。
工作 工作 - 但只有工作的两个特定字段:派生退出代码和评论
串
服务质量 服务质量。
更多相关资源
系统的软件资源。 这些是共享的软件许可证
集群。
交易
在给定时间段内发生的交易列表。
用户 登录名。 仅支持小写用户名。
威客 工作负载表征键。 用于分组正交的任意字符串
帐户。
一般 产品规格 用于 协会 基于 实体
注意: 在考虑工作时测试组限制(GrpJobs、GrpTRES 等)
被分配资源。 如果开始工作会导致其任何组限制
超出,即使该作业可能抢占,也不会考虑调度该作业
为待处理的作业释放足够的组资源的其他作业
发起。
默认服务质量=
此关联及其子项应具有的默认 QOS。 这被覆盖
如果直接在用户上设置。 要清除先前设置的值,请使用修改命令
新值 -1。
公平的分享=
与其他帐户一起使用以确定作业优先级的编号。 也能
成为字符串 亲, 当用于用户时,这意味着父关联是
用于公平共享。 如果在帐户上设置了 Fairshare=parent,则该帐户的
儿童将被有效地重新抚养以进行公平共享计算
不是 Fairshare=parent 的父母的父母。 限制保持不变,只有
它的公平份额价值受到影响。 要清除先前设置的值,请使用修改
新值 -1 的命令。
宽限期=
以秒为单位指定要扩展到作业的抢占宽限时间
已被选中进行抢占。 默认值为零,不抢占
此 QOS 上允许宽限时间。
注意:此值仅对 QOS PreemptMode=CANCEL 有意义)
GrpTRES 分钟数=
过去、现在和将来可能使用的 TRES 分钟总数
未来的工作由这个协会和它的孩子们运行。 清除以前的
设置值使用带有新值 -1 的修改命令。
注意:如果在集群的根关联上设置,则不会强制执行此限制。 所以即使
尽管它可能出现在 sacctmgr 输出中,但不会强制执行。
另请注意:此限制仅在使用 Priority Multifactor 插件时适用。 时间
使用 PriorityDecayHalfLife 或 PriorityUsageResetPeriod 的值衰减
slurm.conf。 当达到此限制时,所有正在运行的相关作业将被终止并
所有未来向组内协会提交的工作将被推迟,直到他们
能够在极限内奔跑。
GrpTRES运行分钟数=
用于限制所有正在运行的作业使用的总 TRES 分钟数
与这个协会和它的孩子们。 这考虑到时间限制
正在运行的作业并消耗它,如果达到限制,则不会启动新的作业
直到其他工作完成以腾出时间。
组TRES=
可以为此总计分配最大数量的 TRES 运行作业
协会以及属于该协会的所有子协会。 清除
先前设置的值使用带有新值 -1 的修改命令。
注意:此限制仅在使用 Select Consumable Resource 插件时完全适用。
工作组=
此关联和所有正在运行的作业的最大总数
该协会的子协会。 清除先前设置
value 使用带有新值 -1 的修改命令。
组提交作业=
在任何时间处于挂起或运行状态的最大作业数
汇总此关联以及作为此关联的所有子关联的所有关联
协会。 要清除先前设置的值,请使用带有新的修改命令
-1 的值。
墙=
可以为此汇总分配最大挂钟时间运行作业
协会以及属于该协会的所有子协会。 清除
先前设置的值使用带有新值 -1 的修改命令。
注意:如果在集群的根关联上设置,则不会强制执行此限制。 所以即使
尽管它可能出现在 sacctmgr 输出中,但不会强制执行。
另请注意:此限制仅在使用 Priority Multifactor 插件时适用。 时间
使用 PriorityDecayHalfLife 或 PriorityUsageResetPeriod 的值衰减
slurm.conf。 当达到此限制时,所有正在运行的相关作业将被终止并
所有未来向组内协会提交的工作将被推迟,直到他们
能够在极限内奔跑。
最大TRESMins=
每个作业能够在此关联中使用的最大 TRES 分钟数。 这个
如果直接在用户上设置,则会被覆盖。 默认是集群的限制。 清除
先前设置的值使用带有新值 -1 的修改命令。
最大TRES=
每个作业能够在此关联中使用的最大 TRES 数。 这是
如果直接在用户上设置,则覆盖。 默认是集群的限制。 清除一个
先前设置的值使用带有新值 -1 的修改命令。
注意:此限制仅在使用 Select Consumable Resource 插件时完全适用。
最大工作=
在此关联中,允许每个用户一次运行的最大作业数。
如果直接在用户上设置,这将被覆盖。 默认是集群的限制。 到
使用修改命令清除先前设置的值,并使用新值 -1。
最大提交作业数=
此关联在挂起或运行中可以拥有的最大作业数
随时状态。 默认是集群的限制。 清除先前设置
value 使用带有新值 -1 的修改命令。
最大墙=
每个作业能够在此关联中使用的最大挂钟时间。 这是
如果直接在用户上设置,则覆盖。 默认是集群的限制。
格式是或者: 或者: : 或者—— : : 或者
—— . 该值以分钟为单位记录,并根据需要进行四舍五入。 清除一个
先前设置的值使用带有新值 -1 的修改命令。
注意:更改此值不会影响任何正在运行或挂起的作业。
服务质量
指定作业能够为此运行的默认服务质量
协会。 要获取有效 QOS 的列表,请使用“sacctmgr list qos”。 这个值
将覆盖其父值并将其下推到其子代作为新的默认值。
将 QosLevel 设置为 ''(两个单引号,中间没有任何内容)恢复其
默认设置。 您还可以使用运算符 += 和 -= 添加或删除某些
来自 QOS 列表的 QOS。
有效的值包括:
= 选择 服务质量 到指定值。 请注意: 可以在给定条件下使用的 QOS
层次结构中的帐户由该帐户的子级继承。 经过
分配 QOS = 只签名指定的QOS可以被账户使用
和它的孩子。
+= 添加指定的值到当前 服务质量. 该帐户将有
访问此 QOS 和其他先前分配给它的。
-= 删除指定的从当前值 服务质量.
查看 示例 以下部分。
产品规格 用于 账目
簇=
要添加帐户的特定集群。 默认全部在系统中。
描述=
描述帐户的任意字符串。
姓名=
银行帐户的名称。 注意名字必须是唯一的,不能被代表
不同银行账户在账户层次结构的不同点。
工作机构=
帐户所属的组织。
父母=
此帐户的父帐户。 默认是 root 帐户,顶级帐户。
原始用法=
这允许管理员重置帐户的原始使用量。 这
当前支持的唯一值是 0(零)。 这只是一个可设置的规范
- 它不能用作列出帐户的过滤器。
与Assoc
显示此帐户的所有关联。
带坐标
显示此帐户的所有协调员。
已删除
显示包含先前删除数据的信息。
注意:如果使用 WithAssoc 选项,您还可以查询特定于关联的
信息以仅查看此帐户可能具有的某些关联。 这些额外的选项
可以在。中找到 产品规格 用于 社团 部分。 您也可以使用一般
上面的规格列表 一般 产品规格 用于 协会 基于 实体
部分。
列表/显示 帐户 FORMAT 配置
账户
银行帐户的名称。
描述
描述帐户的任意字符串。
工作机构
帐户所属的组织。
协调员
作为帐户协调员的用户列表。 (仅在使用时填写
WithCoordinator 选项。)
注意:如果使用 WithAssoc 选项,您还可以查看有关各种
帐户可能在系统中的所有集群上的关联。 该协会
格式字段在 列表/显示 协会 FORMAT 配置 部分。
产品规格 用于 社团
集群=
列出集群的关联。
账户=
列出帐户的关联。
用户=
列出用户的关联。
隔墙=
列出分区的关联。
注意:您也可以使用上面的通用规格列表 一般 产品规格
用于 协会 基于 实体 部分。
其他 选项 独特的 清单 关联:
只有默认值
仅显示默认关联的关联
树 以分层方式显示帐户名称。
已删除
显示包含先前删除数据的信息。
使用子账户
显示子账户信息。 只有在与
帐户= 选项。 这将显示所有子帐户关联以及
选项中列出的帐户。
WO极限
显示信息无限制信息。 这是用于较小的默认格式
集群、账户、用户、分区
WOP信息
显示没有父信息的信息。 (即父 ID 和父帐户
名称。)此选项也调用 WOPLMITS。
WOP限制
显示没有分层父级限制的信息。 (即只会显示
设置它们的限制,而不是从父级传播它们。)
列表/显示 协会 FORMAT 配置
账户
协会中银行账户的名称。
簇
关联中集群的名称。
默认服务质量
如果关联在 QOS 列表中访问它,则该关联将默认使用的 QOS
如以下所说的。
公平的分享
与其他帐户一起使用以确定作业优先级的编号。 也能
成为字符串 亲, 当用于用户时,这意味着父关联是
用于公平共享。 如果在帐户上设置了 Fairshare=parent,则该帐户的
儿童将被有效地重新抚养以进行公平共享计算
不是 Fairshare=parent 的父母的父母。 限制保持不变,只有
它的公平份额价值受到影响。
GrpTRES 分钟数
过去、现在和将来可能使用的 TRES 分钟总数
未来的工作由这个协会和它的孩子们运行。
GrpTRES运行分钟数
用于限制所有正在运行的作业使用的总 TRES 分钟数
与这个协会和它的孩子们。 这考虑到时间限制
正在运行的作业并消耗它,如果达到限制,则不会启动新的作业
直到其他工作完成以腾出时间。
组TRES
可以为此总计分配最大数量的 TRES 运行作业
协会以及属于该协会的所有子协会。
工作组
此关联和所有正在运行的作业的最大总数
该协会的子协会。
组提交作业
在任何时间处于挂起或运行状态的最大作业数
汇总此关联以及作为此关联的所有子关联的所有关联
协会。
墙
可以为此汇总分配最大挂钟时间运行作业
协会以及属于该协会的所有子协会。
ID 协会的 ID。
LFT 关联保持在一个层次结构中:这是层次结构中最左边的位置。
当与 RGT 变量一起使用时,与此 LFT 内的 LFT 和
在 RGT 之前是这个协会的孩子。
最大TRESMins
每个作业可以使用的最大 TRES 分钟数。
最大TRES
每个作业可以使用的最大 TRES 数。
最大工作
每个用户一次允许运行的最大作业数。
最大提交作业数
任何时候挂起或运行状态的最大作业数。
最大墙
每个作业可以使用的最大挂钟时间。
服务质量 此关联的有效 QOS´。
PARENTID
此关联的父级的关联 ID。
父母名字
此关联的父级的帐户名称。
隔墙
关联中分区的名称。
原始服务质量 此关联的有效 QOS´ 的数值。
RGT 关联保持在一个层次结构中:这是层次结构中最右边的位置。
当与 LFT 变量一起使用时,与此 RGT 内的 LFT 和
LFT 之后是这个协会的孩子。
用户 关联中用户的名称。
产品规格 用于 集群
分类=
机器类型,当前分类是能力和容量。
旗=
逗号分隔的特定集群的属性列表。 当前标志包括
AIX、BGL、BGP、BGQ、Bluegene、CrayXT、FrontEnd、MultipleSlurmd 和
太阳星座
姓名=
集群的名称。 这应该等于 集群名称 中的参数
配置文件 一些 Slurm 管理的集群的配置文件。
RPC的=
以逗号分隔的数字 RPC 值列表。
WO极限
显示信息无限制信息。 这是用于较小的默认格式
集群、控制主机、控制端口、RPC
注意:您也可以使用上面的通用规格列表 一般 产品规格
用于 协会 基于 实体 部分。
列表/显示 田字形 FORMAT 配置
分类
机器类型,即能力或容量。
簇
集群的名称。
控制主机
当 slurmctld 向数据库注册时,控制器的 IP 地址是
放在这里。
控制端口
当 slurmctld 向数据库注册控制器正在侦听的端口时
on 被放在这里。
非常 可追踪资源(BB(突发缓冲区)、CPU、能源、GRES、许可证、内存和
节点)这个集群正在考虑。
旗 集群拥有的属性。
节点数
当前与集群关联的节点数。
节点名称
与集群关联的当前节点。
插件ID选择
集群正在使用的选择插件的数值。
RPC的 当 slurmctld 向数据库注册时,控制器的 rpc 版本是
跑步被放在这里。
注意:您还可以查看有关集群的根关联的信息。 这
关联格式字段在 列表/显示 协会 FORMAT 配置
部分。
产品规格 用于 协调员
账户=
将此用户添加为协调员的帐户名称。
名称=
协调员姓名。
注意:要列出协调员,请使用 WithCoordinator 选项和 list account 或 list user。
产品规格 用于 新闻
所有_集群
获取有关所有集群快捷方式的信息。
整天
获取所有时间快捷方式的时间段。
集群=
列出集群的事件。 默认是命令所在的集群
运行。
结束=
期末事件。 默认是现在。
有效的时间格式是...
时:分[:SS] [上午|下午]
MMDD[YY] 或 MM/DD[/YY] 或 MM.DD[.YY]
月/日[/年]-时:分[:SS]
YYYY-MM-DD[THH:MM[:SS]]
创建=
要查找的特定事件,有效选项是集群或节点,默认是两者。
最大TRES=
受事件影响的最大 TRES 数。
民政部=
受事件影响的最小 TRES 数。
Nodes=
受事件影响的节点名称。
原因=
事件发生的原因。
开始=
事件的周期开始。 默认为前一天的 00:00:00,除非状态是
与 States= 规范事件一起给出。 如果是这种情况,默认行为是
返回当前处于指定状态的事件。
有效的时间格式是...
时:分[:SS] [上午|下午]
MMDD[YY] 或 MM/DD[/YY] 或 MM.DD[.YY]
月/日[/年]-时:分[:SS]
YYYY-MM-DD[THH:MM[:SS]]
州=
节点事件中节点的状态。 如果设置了此项,则设置事件类型
自动到节点。
用户=
查询设置事件的用户。 如果设置了此项,则设置事件类型
自动到节点,因为只有用户 slurm 才能执行集群事件。
列表/显示 EVENT FORMAT 配置
簇
集群事件的名称发生在。
集群节点
集群事件中集群上节点的主机列表。
非常 与事件相关的 TRES 数量。
时间长度
事件发生的时间段。
结束 事件结束的时期。
创建 活动名称。
事件原始
事件名称的数值。
节点名
受事件影响的节点。 在集群事件中,这是空白的。
原因 事件发生的原因。
开始 事件开始的时期。
州 在节点事件中,这是事件期间节点的格式化状态。
原始状态
在节点事件中,这是节点在事件期间的状态的数值
事件。
用户 在节点事件中,这是导致事件发生的用户。
产品规格 用于 JOB
派生退出代码
可以在作业完成后根据用户的情况修改派生的退出代码
判断工作是成功还是失败。 用户只能修改
派生自己工作的退出代码。
评论
当 AccountingStoreJobComment 参数在
slurm.conf 文件设置(或默认)为 YES。 用户只能修改评论
串自己的工作。
- 派生退出代码 和 评论 字段是唯一的字段
可以在作业完成后修改的数据库中的作业记录。
列表/显示 JOB FORMAT 配置
- 囊 command 是显示 Slurm 数据库中作业记录的唯一命令。
产品规格 用于 QOS
注意: 在考虑工作时测试组限制(GrpJobs、GrpNodes 等)
被分配资源。 如果开始工作会导致其任何组限制
超出,即使该作业可能抢占,也不会考虑调度该作业
为待处理的作业释放足够的组资源的其他作业
发起。
旗 由 slurmctld 使用以覆盖或强制执行某些特征。
有效的选项是
拒绝限制
如果使用此 QOS 设置的作业将在提交时被拒绝,如果他们这样做
不符合 QOS 'Max' 限制。 默认情况下,这些作业会经过这些
限制将挂起,直到它们符合为止。
强制使用阈值
如果设置了,并且 QOS 也有一个 UsageThreshold,任何使用这个提交的作业
低于 UsageThreshold 的 QOS 将被保留,直到他们的 Fairshare
使用量超过阈值。
没有储备
如果设置此标志并使用回填调度,则使用此 QOS 的作业
不会在回填计划的资源地图中保留资源
通过时间分配。 此标志旨在与可能是
被与所有其他 QOS 相关的作业抢占(例如与“备用”
服务质量)。 如果分配的 QOS 不能被所有人抢占
其他 QOS,它可能会导致大型作业的饥饿。
分区最大节点数
如果使用此 QOS 设置作业将能够覆盖请求的
分区的 MaxNodes 限制。
分区最小节点数
如果使用此 QOS 设置作业将能够覆盖请求的
分区的 MinNodes 限制。
过分QOS
如果使用此 QOS 设置作业将能够覆盖
请求分区的 QOS 限制。
分区时间限制
如果使用此 QOS 设置作业将能够覆盖请求的
分区的时间限制。
需要预订
如果使用此 QOS 的设置作业必须在提交请求时指定保留
工作。 此选项可用于限制可能具有的 QOS 的使用
仅允许更大的抢占能力或额外资源
预订内。
宽限期
抢占宽限时间延长到已选择的作业
抢占。
GrpTRES 分钟数
过去、现在和将来可能使用的 TRES 分钟总数
从此 QOS 运行的未来作业。
GrpTRES运行分钟数 用于限制TRES的组合总数
使用此 QOS 运行的所有作业使用的分钟数。 这考虑到时间
运行作业的限制并消耗它,如果达到限制,则没有新作业
开始直到其他作业完成以腾出时间。
组TRES
可以为此总计分配最大数量的 TRES 运行作业
服务质量。
工作组
此 QOS 的最大运行作业总数。
组提交作业
在任何时间处于挂起或运行状态的最大作业数
聚合此 QOS。
墙
可以为此汇总分配最大挂钟时间运行作业
服务质量。 如果达到此限制,提交请求将被拒绝,并且正在运行的
工作将被杀死。
ID QOS的id。
最大TRESMins
每个作业可以使用的最大 TRES 分钟数。
最大TRESPerJob
每个作业可以使用的最大 TRES 数。
最大TRESPerNode
作业分配中每个节点可以使用的最大 TRES 数。
最大用户
每个用户可以使用的最大 TRES 数量。
最大工作
每个用户一次允许运行的最大作业数。
最小TRESPerJob
在此 QOS 下运行的每个作业必须请求的最小 TRES 数。 否则
作业将挂起直到修改。
最大提交作业数
每个用户在任何时间处于挂起或运行状态的最大作业数。
最大墙
每个作业可以使用的最大挂钟时间。
姓名 QOS 的名称。
抢占
其他 QOS´ 这个 QOS 可以抢占。
抢占模式
用于抢占此 QOS 作业的机制,如果集群 抢占类型 is
配置为 抢占/服务质量. 默认抢占机制由
集群范围的 抢占模式 配置参数。 可能的值为“集群”
(意味着使用集群默认值)、“取消”、“检查点”和“重新排队”。 这个选项
与 PreemptMode=OFF 或 PreemptMode=SUSPEND 不兼容(即被抢占的作业
必须从资源中删除)。
优先
使用此 QOS 时将添加到作业优先级的优先级是什么。
原始用法=
这允许管理员重置累积到 QOS 的原始使用量。 唯一的
当前支持的值为 0(零)。 这只是一个可设置的规范 - 它
不能用作列出帐户的过滤器。
使用系数
使用此 QOS 运行时的使用因素。
使用阈值
表示允许运行作业的关联的最低公平份额的浮点数。
如果关联低于此阈值并且有待处理的作业或提交新的
这些作业将被保留,直到使用率回到阈值以上。 用
分享 查看系统上的当前份额。
已删除
显示包含先前删除数据的信息。
列表/显示 QOS FORMAT 配置
描述
描述 QOS 的任意字符串。
宽限期
抢占宽限时间延长到已选择的作业
hh:mm:ss 格式的抢占。 默认值为零,不抢占
此分区允许宽限期。 注意:此值仅对
QOS PreemptMode=取消。
GrpTRES 分钟数
过去、现在和将来可能使用的 TRES 分钟总数
从此 QOS 运行的未来作业。 要清除先前设置的值,请使用修改
新值 -1 的命令。 注意:此限制仅适用于使用
优先多因素插件。 使用值衰减时间
slurm.conf 中设置的 PriorityDecayHalfLife 或 PriorityUsageResetPeriod。 什么时候
达到此限制,所有正在运行的相关作业将被终止,所有未来
使用此 QOS 提交的作业将被延迟,直到它们能够在
限制。
组TRES
可以为此总计分配最大数量的 TRES 运行作业
服务质量。 要清除先前设置的值,请使用带有新值的修改命令
-1。
工作组
此 QOS 的最大运行作业总数。 清除以前的
设置值使用带有新值 -1 的修改命令。
组提交作业
在任何时间处于挂起或运行状态的最大作业数
聚合此 QOS。 要清除先前设置的值,请使用修改命令
新值 -1。
墙
可以为此汇总分配最大挂钟时间运行作业
服务质量。 要清除先前设置的值,请使用带有新值的修改命令
-1. 注意:此限制仅在使用 Priority Multifactor 插件时适用。 这
使用 PriorityDecayHalfLife 或
在 slurm.conf 中设置的 PriorityUsageResetPeriod。 当达到这个限制所有
正在运行的相关作业将被终止,并且所有未来的作业都使用此 QOS 提交
将被延迟,直到他们能够在限制内运行。
最大TRESMins
每个作业可以使用的最大 TRES 分钟数。 清除先前设置
value 使用带有新值 -1 的修改命令。
最大TRESPerJob
每个作业可以使用的最大 TRES 数。 清除先前设置的值
使用带有新值 -1 的修改命令。
最大TRESPerNode
作业分配中每个节点可以使用的最大 TRES 数。 清除一个
先前设置的值使用带有新值 -1 的修改命令。
最大用户
每个用户可以使用的最大 TRES 数量。 清除先前设置的值
使用带有新值 -1 的修改命令。
最大工作
每个用户一次允许运行的最大作业数。 清除一个
先前设置的值使用带有新值 -1 的修改命令。
最大提交作业数
每个用户在任何时间处于挂起或运行状态的最大作业数。 清除一个
先前设置的值使用带有新值 -1 的修改命令。
最大墙
每个作业可以使用的最大挂钟时间。 格式是或者
: 或者: : 或者—— : : 或者—— . 这
值以分钟为单位记录,并根据需要进行四舍五入。 清除先前设置
value 使用带有新值 -1 的修改命令。
民政部
在此 QOS 下运行的每个作业必须请求的最小 TRES 数。 否则
作业将挂起直到修改。 要清除先前设置的值,请使用修改
新值 -1 的命令。
姓名 QOS 的名称。 创作所需。
抢占
其他 QOS´ 这个 QOS 可以抢占。 将抢占设置为 ''(两个单引号
它们之间没有任何内容)恢复其默认设置。 您也可以使用运算符
+= 和 -= 在 QOS 列表中添加或删除某些 QOS。
抢占模式
用于抢占此 QOS 作业的机制,如果集群 抢占类型 is
配置为 抢占/服务质量. 默认抢占机制由
集群范围的 抢占模式 配置参数。 可能的值为“集群”
(意味着使用集群默认值)、“取消”、“检查点”和“重新排队”。 这个选项
与 PreemptMode=OFF 或 PreemptMode=SUSPEND 不兼容(即被抢占的作业
必须从资源中删除)。
优先
使用此 QOS 时将添加到作业优先级的优先级是什么。 清除一个
先前设置的值使用带有新值 -1 的修改命令。
使用系数
使用此 QOS 运行时的使用因素。 这是一个浮点数,被计入
正在运行的作业的优先级时间计算。 例如,如果 QOS 的使用因子是 2
对于每个 TRESBillingUnit 秒,一个作业运行将计为 2。此外,如果
使用系数是 5,每秒只计算一半的时间。 环境
此值为 0 将使正在运行的作业不会增加公平共享或
关联/qos 限制。 要清除先前设置的值,请使用修改命令
新值 -1。
产品规格 用于 RESOURCE
集群= 指定资源的集群名称的逗号分隔列表
是可用的。 如果未指定名称,则集群已被允许使用
此资源将被更改。
计数=
系统上配置的特定名称的软件资源数
由资源管理器控制。
说明=
资源的简要说明。
旗=
标识系统资源的特定属性的标志。 此时没有
已定义标志。
服务器类型=
提供许可证的软件资源管理器的类型。 例如
FlexNext Publisher Flexlm 许可证服务器或 Reprise License Manager RLM。
名称=
系统上配置的资源名称的逗号分隔列表
由资源管理器控制。 如果在 slurmctld 上看到此资源,则它是
name 将是 name@server 以将其与定义在
slurm.conf。
允许百分比=
可以在指定集群上使用的特定资源的百分比。
服务器=
提供资源的服务器的名称。 默认为 'slurmdb' 表示
许可证由数据库提供。
类型=
此记录表示的资源类型。 目前唯一有效的类型
是许可证。
带集群
显示资源的集群百分比。 如果资源尚未分配给
cluster 资源将不会与此标志一起显示。
注意:Resource 用于定义系统上配置的每个可用资源
通过 Slurm 集群。
列表/显示 RESOURCE FORMAT 配置
簇
集群资源的名称。
计数 在系统上全局配置的特定资源的计数。
分配
分配给集群的许可证百分比。
描述
资源的描述。
服务器类型
控制许可证的服务器类型。
姓名 此资源的名称。
服务器 服务器提供资源。
类型 此记录代表的资源类型。
产品规格 用于 交易
账户=
只打印影响指定账户的交易。
操作=
演员=
只显示某个人完成的交易。
集群=
只打印出影响指定集群的事务。
结束=
返回此日期和时间之前的所有交易。 默认是现在。
开始=
返回此日期和时间之后的所有交易。 默认为纪元。
End 和 Start 的有效时间格式是...
时:分[:SS] [上午|下午]
MMDD[YY] 或 MM/DD[/YY] 或 MM.DD[.YY]
月/日[/年]-时:分[:SS]
YYYY-MM-DD[THH:MM[:SS]]
用户=
只打印影响指定用户的交易。
与Assoc
获取有关哪些关联受事务影响的信息。
列表/显示 交易 FORMAT 配置
操作
演员
资料包
时间戳
其中
注意:如果使用 WithAssoc 选项,您还可以查看有关各种
关联交易受影响。 关联格式字段在
列表/显示 协会 FORMAT 配置 部分。
产品规格 用于 USERS
账户=
将此用户添加到的帐户名称。
管理员级别=
用户的管理员级别。 有效级别为无、操作员和管理员。
簇=
将用户添加到帐户的特定集群。 默认全部在系统中。
默认账户=
如果没有指定,则确定用于作业的默认银行帐户名称
提交时间。
默认WCKey=
确定默认的工作负载特征键。
姓名=
用户名。
隔墙=
分区名称。
原始用法=
这允许管理员重置用户产生的原始使用量。 唯一的
当前支持的值为 0(零)。 这只是一个可设置的规范 - 它
不能用作过滤器来列出用户。
WC键=
工作负载特征关键值。
与Assoc
显示此用户的所有关联。
带坐标
显示用户为其协调员的所有帐户。
已删除
显示包含先前删除数据的信息。
注意:如果使用 WithAssoc 选项,您还可以查询特定于关联的
信息以仅查看此帐户可能具有的某些关联。 这些额外的选项
可以在。中找到 产品规格 用于 社团 部分。 您也可以使用一般
上面的规格列表 一般 产品规格 用于 协会 基于 实体
部分。
列表/显示 USER FORMAT 配置
管理员级别
用户的管理员级别。
默认账户
用户的默认帐户。
协调员
作为帐户协调员的用户列表。 (仅在使用时填写
WithCoordinator 选项。)
用户 用户名。
注意:如果使用 WithAssoc 选项,您还可以查看有关各种
用户可能对系统中所有集群的关联。 协会形式
字段在 列表/显示 协会 FORMAT 配置 部分。
列表/显示 WC密钥
WC密钥 工作负载表征键。
簇
WCKey 的特定集群。
用户 WCKey 的用户名。
注意:如果使用 WithAssoc 选项,您还可以查看有关各种
用户可能对系统中所有集群的关联。 协会形式
字段在 列表/显示 协会 FORMAT 配置 部分。
列表/显示 非常
姓名 可跟踪资源的名称。 TRES 类型 BB 需要此选项
(突发缓冲区)、GRES 和许可证。 CPU、能量、内存和节点没有的类型
名字。 例如,如果 GRES 是类型,则名称是 GRES 的面额
本身例如GPU。
ID 出现在数据库中的可跟踪资源的标识号。
类型 可跟踪资源的类型。 当前类型有 BB(突发缓冲区)、CPU、
能源、GRES、许可证、内存和节点。
非常 信息
可追踪资源 (TRES) 用于许多 QOS 或关联限制。 当设置
限制它们是逗号分隔的列表。 每个 TRES 都有不同的限制,即
GrpTRESMins=cpu=10,mem=20 会产生 2 个不同的限制 1 为 10 cpu 分钟,1 为 20
MB 内存分钟。 处理 TRES 的每个限制都是这种情况。 要删除
使用限制 -1,即 GrpTRESMins=cpu-1 将仅删除 cpu TRES 限制。
注意:GrpTRES 限制将节点作为 TRES 处理。 每个作业的节点分配是
单独计算(即如果单个节点将资源分配给两个作业,这是
算作两个分配的节点)。
注意:当将内存作为 TRES 处理时,所有限制都以 MB 为单位。
全球 FORMAT OPTION
使用格式选项列出各种字段时,您可以在后面添加 %NUMBER
指定应该打印多少个字符。
例如 format=name%30 将打印 30 个字符的字段名称右对齐。 一个-30会
打印左对齐的 30 个字符。
FLAT 文件 DUMP AND 加载
sacctmgr 能够在文件中加载和转储 Slurm 关联数据。
此方法可以轻松添加新集群或将现有集群关联复制到
具有类似帐户的新集群。 每个文件包含单个的 Slurm 关联数据
簇。 可以使用# 字符将注释放入文件中。 每一行
信息必须以四个标题之一开头; 簇, 父母 账户 or 用户.
标题后面是空格、破折号、空格、实体值,然后是规格。
规格以冒号分隔。 如果任何变量(如组织)在
它,用单引号或双引号将名称括起来。
要创建一个可以运行的关联文件
> sacctmgr 转储 tux 文件 = tux.cfg
(file=tux.cfg 是可选的)
要加载以前创建的文件,您可以运行
> sacctmgr 加载文件=tux.cfg
其他负载选项是 -
清理 - 删除已经存在的内容并从头开始使用此信息。
Cluster= - 为集群指定一个与文件中不同的名称。
快速解释文件的工作原理。
由于系统中的关联遵循层次结构,因此文件也是如此。 任何
是需要在任何孩子之前定义父母。 唯一的例外是理解
“根”帐户。 这始终是任何集群的默认值,不需要定义。
要编辑/创建以新集群的集群行开头的文件
簇 - cluster_name:MaxNodesPerJob=15
此行中包含的任何内容都将成为此群集上所有关联的默认值。
这些选项如下...
GrpTRESMins=
过去、现在和将来可能使用的 TRES 分钟总数
未来的工作由这个协会和它的孩子们运行。
GrpTRESRunMins=
用于限制所有正在运行的作业使用的总 TRES 分钟数
与这个协会和它的孩子们。 这考虑到时间限制
正在运行的作业并消耗它,如果达到限制,则不会启动新的作业
直到其他工作完成以腾出时间。
组TRES=
可以为此总计分配最大数量的 TRES 运行作业
协会以及属于该协会的所有子协会。
工作组=
此关联和所有正在运行的作业的最大总数
该协会的子协会。
组节点=
可以为此汇总分配运行作业的最大节点数
协会以及属于该协会的所有子协会。
注意:每个作业的节点分配是单独计算的(即如果单个节点有
分配给两个作业的资源,这算作两个分配的节点)。
组提交作业=
在任何时间处于挂起或运行状态的最大作业数
汇总此关联以及作为此关联的所有子关联的所有关联
协会。
群墙=
可以为此汇总分配最大挂钟时间运行作业
协会以及属于该协会的所有子协会。
公平分享=
与其他关联一起使用以确定作业优先级的数字。
最大工作数=
此关联的子项可以运行的最大作业数。
每个作业的最大节点数=
此关联的子项可以运行的每个作业的最大节点数。
每个作业的最大墙持续时间=
此帐户作业的子项可以运行的最长时间(与作业大小无关)。
服务质量= 服务质量名称的逗号分隔列表(在 sacctmgr 中定义)。
其次是您想要的帐户以这种方式...
父母 - 根 (默认定义)
账户 - cs:MaxNodesPerJob=5:MaxJobs=4:FairShare=399:MaxWallDurationPerJob=40:Description='计算机
科学':组织='LC'
父母 - cs
账户 - 测试:MaxNodesPerJob=1:MaxJobs=1:FairShare=1:MaxWallDurationPerJob=1:Description='Test
帐户':组织='测试'
':' 之后的任何选项都可以省略,它们可以按任何顺序排列。
如果您想添加任何子帐户,只需列出已经存在的父帐户
以这种方式在帐户行之前创建...
所有帐户选项都是
说明=
帐户的简要说明。
GrpTRESMins=
可以总计分配运行作业的最大 TRES 小时数
该协会以及所有属于该协会的子协会。
GrpTRESRunMins= 用于限制所有使用的 TRES 分钟的总和
与该协会及其子项一起运行的作业。 这考虑到
运行作业的时间限制并消耗它,如果达到限制,则没有新作业
开始直到其他作业完成以腾出时间。
组TRES=
可以为此总计分配最大数量的 TRES 运行作业
协会以及属于该协会的所有子协会。
工作组=
此关联和所有正在运行的作业的最大总数
该协会的子协会。
组节点=
可以为此汇总分配运行作业的最大节点数
协会以及属于该协会的所有子协会。
注意:每个作业的节点分配是单独计算的(即如果单个节点有
分配给两个作业的资源,这算作两个分配的节点)。
组提交作业=
在任何时间处于挂起或运行状态的最大作业数
汇总此关联以及作为此关联的所有子关联的所有关联
协会。
群墙=
可以为此汇总分配最大挂钟时间运行作业
协会以及属于该协会的所有子协会。
公平分享=
与其他关联一起使用以确定作业优先级的数字。
最大工作数=
此关联的子项可以运行的最大作业数。
每个作业的最大节点数=
此关联的子项可以运行的每个作业的最大节点数。
每个作业的最大墙持续时间=
此帐户作业的子项可以运行的最长时间(与作业大小无关)。
组织=
拥有此帐户的组织名称。
服务质量(=,+=,-=)
服务质量名称的逗号分隔列表(在 sacctmgr 中定义)。
要将用户添加到帐户,请在父行后添加这样的行
父母 - 测试
用户 - 亚当:MaxNodesPerJob=2:MaxJobs=3:FairShare=1:MaxWallDurationPerJob=1:AdminLevel=Operator:Coordinator='test'
所有用户选项都是
管理员级别=
此用户的管理员类型(管理员、操作员)
必须 be 定义 on 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 第一 发生 of 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 用户。
协调员=
此用户是协调员的帐户的逗号分隔列表
必须 be 定义 on 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 第一 发生 of 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 用户。
默认帐户=
系统范围的默认帐户名
必须 be 定义 on 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 第一 发生 of 这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 用户。
公平分享=
与其他关联一起使用以确定作业优先级的数字。
最大工作数=
此用户可以运行的最大作业数。
每个作业的最大节点数=
此用户可以运行的每个作业的最大节点数。
每个作业的最大墙持续时间=
此用户可以运行的最长时间(与作业大小无关)。
服务质量(=,+=,-=)
服务质量名称的逗号分隔列表(在 sacctmgr 中定义)。
档案 的功能
Sacctmgr 能够归档到平面文件和/或在需要时加载该数据
之后。 归档通常由 slurmdbd 完成,强烈建议您
如果您完全了解自己在做什么,则只能通过 sacctmgr 来完成。 对于 slurmdbd
选项请参阅“man slurmdbd”以获取更多信息。 可以将数据加载到数据库中
从这些文件中完成以查看旧数据或重新生成汇总数据。
这些是存档信息转储和加载的选项。
存档转储
目录=
存储归档数据的目录。
活动 存档事件。 如果未指定并设置 PurgeEventAfter ,则所有事件数据都已删除
将永久丢失。
工作机会 存档工作。 如果未指定并设置了 PurgeJobAfter,则删除的所有作业数据将
永久丢失。
清除事件之后=
清除早于以月表示的时间的集群事件记录。 如果你想清除
在较短的时间段内,您可以在数值后面包含几小时或几天
进行更频繁的清洗。 (例如,'12hours' 的值会清除所有内容
超过 12 小时。)
清除作业后=
清除早于规定时间(以月为单位)的作业记录。 如果你想在一个
更短的时间段,您可以在数值后面包含几小时或几天以获得
那些更频繁的清洗。 (例如,'12hours' 的值会清除所有旧的
超过 12 小时。)
清除步骤之后=
清除步骤记录早于规定的时间(以月为单位)。 如果你想在一个
更短的时间段,您可以在数值后面包含几小时或几天以获得
那些更频繁的清洗。 (例如,'12hours' 的值会清除所有旧的
超过 12 小时。)
清除暂停后=
清除作业中止记录的时间早于规定的时间(以月为单位)。 如果你想清除
在较短的时间段内,您可以在数值后面包含几小时或几天
进行更频繁的清洗。 (例如,'12hours' 的值会清除所有内容
超过 12 小时。)
脚本=
运行此脚本而不是一般形式的归档到平面文件。
步骤 存档步骤。 如果未指定并设置 PurgeStepAfter,则删除所有步骤数据
将永久丢失。
暂停
存档挂起数据。 如果未指定且 PurgeSuspendAfter 设置为所有挂起
删除的数据将永久丢失。
存档 载荷
将先前存档的数据加载到数据库中。
文件= 要加载到数据库中的文件。
插入=
SQL 直接插入到数据库中。 这应该非常谨慎地使用
因为这是将您的 sql 写入数据库。
环境 变数
有 saccmgr 选项可以通过环境变量设置。 这些环境变量,
下面列出了它们的相应选项。 (注意:命令行选项将
始终覆盖这些设置)
SLURM_CONF Slurm 配置文件的位置。
示例
注意: 有设立会计协会的命令。 您必须定义集群
添加帐户之前,您必须先添加帐户,然后才能添加用户。
-> sacctmgr 创建集群 tux
-> sacctmgr 创建账户名=science fairshare=50
-> sacctmgr 创建账户名=chemistry parent=science fairshare=30
-> sacctmgr 创建账户名=physics parent=science fairshare=20
-> sacctmgr 创建用户名=adam cluster=tux account=physics fairshare=10
-> sacctmgr 删除用户名=adam cluster=tux account=physics
-> sacctmgr 删除账户名=physics cluster=tux
-> sacctmgr 修改 user where name=adam cluster=tux account=physics set
最大工作=2 最大墙=30:00
-> sacctmgr 列表关联 cluster=tux 格式=Account,Cluster,User,Fairshare tree withd
-> sacctmgr 列出交易 StartTime=11/03\-10:30:00 format=Timestamp,Action,Actor
-> sacctmgr 转储集群=tux 文件=tux_data_file
-> sacctmgr 加载 tux_data_file
不能直接更改用户的帐户。 需要创建一个新的关联
拥有新帐户的用户。 然后可以删除与旧帐户的关联。
修改对象时,放置关键字“set”和可选的“where”至关重要
正确执行以下是产生正确结果的示例。 根据经验
您放在集合前面的任何内容都将用作量词。 如果你想放一个
在关键字“set”之后的量词应该使用关键字“where”。
错误-> sacctmgr 修改用户名=adam set fairshare=10 cluster=tux
这将产生错误,因为上面的行读取修改用户 adam set fairshare=10 和
集群=无尾礼服。
right-> sacctmgr 修改用户名=adam cluster=tux set fairshare=10
right-> sacctmgr 修改用户名=adam set fairshare=10 where cluster=tux
更改某个东西的 qos 时,仅在想要显式设置时才使用“=”运算符
东西的质量。 在大多数情况下,您会希望使用 '+=' 或 '\-=' 运算符来
添加或删除现有的 qos。
如果用户已经拥有正常的 qos,则为父母备用或明确设置您
应该使用 qos+=expedite 以这种方式将其添加到列表中。
如果您只想将 qos 加速添加到某个帐户和/或集群
您可以通过在 sacctmgr 行中指定它们来实现。
-> sacctmgr 修改用户名=adam set qos+=expedite
> sacctmgr 修改用户名=adam acct=这个集群=tux set qos+=expedite
举例说明如何为用户账号添加QOS。 列出所有可用的 QOS
簇。
->sacctmgr 显示 qos 格式=名称
姓名
---------
正常
促进
列出集群中的所有关联。
->sacctmgr show assoc format=cluster,account,qos
集群账号QOS
------ ---------- -----
斑马根正常
斑马根正常
斑马 g 正常
斑马 g1 正常
将 QOS 加速添加到帐户 G1 并显示结果。 使用运算符 += QOS
将与现有的 QOS 一起添加到此帐户。
->sacctmgr 修改账号名=g1 set qos+=expedite
->sacctmgr show assoc format=cluster,account,qos
集群账号QOS
———————————————
斑马根正常
斑马根正常
斑马 g 正常
斑马 g1 加急,正常
现在设置QOS expedite为账号G的唯一QOS并显示结果。 使用
运营商 = 加急是帐户 G 唯一可用的 QOS
->sacctmgr 修改账号名=G 设置 qos=expedite
>sacctmgr show assoc format=cluster,account,user,qos
集群账号QOS
---------- ---------- -----
斑马根正常
斑马根正常
斑马 g 加速
斑马 g1 加急,正常
如果在帐户 G 下添加新帐户,它将继承 QOS 加速,并且
进不去QOS正常。
-> sacctmgr 添加账户香蕉 parent=G
->sacctmgr show assoc format=cluster,account,qos
集群账号QOS
---------- ---------- -----
斑马根正常
斑马根正常
斑马 g 加速
斑马香蕉加速
斑马 g1 加急,正常
列出可跟踪资源的示例
-> sacctmgr 显示 tres
类型名称 ID
---------- ----- --------
CPU 1
内存 2
能量3
节点4
gres GPU:特斯拉1001
许可证 vcs 1002
bb 克雷 1003
复印
版权所有 (C) 2008-2010 Lawrence Livermore National Security。 劳伦斯出品
利弗莫尔国家实验室(参见,免责声明)。
版权所有 (C) 2010-2015 SchedMD LLC。
该文件是资源管理程序 Slurm 的一部分。 有关详细信息,请参阅
<http://slurm.schedmd.com/>.
Slurm 是免费软件; 您可以根据条款重新分发和/或修改它
由自由软件基金会发布的 GNU 通用公共许可证; 版本 2
许可证,或(由您选择)任何更高版本。
Slurm 是分发的,希望它有用,但没有任何保证; 没有
甚至针对特定目的的适销性或适用性的默示保证。 见
有关更多详细信息,请参见GNU通用公共许可证。
使用 onworks.net 服务在线使用 sacctmgr