这是命令 alt-nvidia-340-smi,可以使用我们的多个免费在线工作站之一在 OnWorks 免费托管服务提供商中运行,例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器
程序:
您的姓名
nvidia-smi - NVIDIA 系统管理接口程序
概要
nvidia-smi [选项1 [ARG1]] [选项2 [ARG2]] ...
商品描述
nvidia-smi(也称为 NVSMI)为每个
来自 Fermi 和更高架构系列的 NVIDIA Tesla、Quadro 和 GRID 设备。 非常
还为 Geforce 设备提供了有限的信息。 NVSMI 是一个跨平台的工具
支持所有标准 NVIDIA 驱动程序支持的 Linux 发行版,以及 64 位
从 Windows Server 2008 R2 开始的 Windows 版本。 可以使用指标
直接由用户通过标准输出,或通过 CSV 和 XML 格式的文件提供用于脚本编写
的目的。
请注意,NVSMI 的大部分功能是由底层 NVML C-based 提供的
图书馆。 有关 NVML 的更多信息,请参阅下面的 NVIDIA 开发者网站链接。
也可以使用基于 NVML 的 python 绑定。
NVSMI 的输出不保证向后兼容。 然而,NVML 和
Python 绑定是向后兼容的,应该是编写时的首选
必须跨 NVIDIA 驱动程序版本维护的任何工具。
NVML SDK: http://developer.nvidia.com/nvidia-management-library-nvml/
Python 绑定: http://pypi.python.org/pypi/nvidia-ml-py/
配置
一般 配置
-H, - 帮帮我
打印使用信息并退出。
概要 配置
-L, --列出 GPU
列出系统中的每个 NVIDIA GPU 及其 UUID。
QUERY 配置
-q, - 询问
显示 GPU 或单位信息。 显示的信息包括 (GPU ATTRIBUTES)
要么 (单元 ATTRIBUTES) 部分。 某些设备和/或环境没有
支持所有可能的信息。 任何不受支持的数据在
输出。 默认情况下,显示所有可用 GPU 或单元的信息。 使用 -i
将输出限制为单个 GPU 或单元的选项。
[加 可选的]
-你, - 单元
显示单元数据而不是 GPU 数据。 单位数据仅适用于 NVIDIA S-class
特斯拉外壳。
-一世, --id=ID
显示单个指定 GPU 或单元的数据。 指定的 id 可能是 GPU/Unit 的
驱动程序返回的自然枚举中的基于 0 的索引,GPU 的板序列
数字、GPU 的 UUID 或 GPU 的 PCI 总线 ID(如域:总线:设备.函数,十六进制)。
建议需要一致性的用户使用 UUID 或 PCI 总线 ID,因为
设备枚举顺序不能保证在重新启动和板之间保持一致
序列号可能在同一块板上的多个 GPU 之间共享。
-f 文件, --文件名=文件
将查询输出重定向到指定的文件来代替默认的标准输出。 指定的
文件将被覆盖。
-X, --xml格式
生成 XML 输出以代替默认的人类可读格式。 GPU 和 Unit 查询
输出符合相应的 DTD。 这些可通过 --dtd 旗。
--dtd
与...配合使用 -x. 在 XML 输出中嵌入 DTD。
-d 类型, --显示=类型
仅显示选定信息:MEMORY、UTILIZATION、ECC、TEMPERATURE、POWER、CLOCK、
COMPUTE、PIDS、PERFORMANCE、SUPPORTED_CLOCKS、PAGE_RETIREMENT、ACCOUNTING 标志可以是
结合逗号,例如“MEMORY,ECC”。 使用 max、min 和 avg 采样数据也是
为 POWER、UTILIZATION 和 CLOCK 显示类型返回。 不适用于 -u/--unit 或
-x/--xml 格式标志。
-l 证监会, --循环=SEC
以指定的时间间隔连续上报查询数据,而不是默认的只是
一次。 应用程序将在查询之间休眠。 请注意,在 Linux ECC 错误或 XID 上
错误事件将在睡眠期间打印出来,如果 -x 未指定标志。
随时按 Ctrl+C 将中止循环,否则循环将无限期运行。
如果没有为 -l 使用 5 秒的默认间隔。
可选择的 QUERY 配置
允许调用者传递要查询的显式属性列表。
[一 的]
--查询-gpu=
关于 GPU 的信息。 传递要查询的属性的逗号分隔列表。 例如
--query-gpu=pci.bus_id,persistence_mode。 致电 --help-query-gpu 了解更多信息。
--查询支持的时钟=
支持的时钟列表。 致电 --help-query-supported-clocks 了解更多信息。
--查询计算应用=
当前活动的计算进程列表。 致电 --help-query-compute-apps 了解更多信息。
--query-accounted-apps=
已计算的计算进程列表。 致电 --help-query-accounted-apps 了解更多信息。
--query-retired-pages=
已停用的 GPU 设备内存页面列表。 调用 --help-query-retired-pages
获取更多信息。
[强制的]
--格式=
逗号分隔的格式选项列表:
· csv - 逗号分隔值(强制性)
· noheader - 跳过带有列标题的第一行
· nounits - 不要为数值打印单位
[加 任何 的]
-一世, --id=ID
显示单个指定 GPU 的数据。 指定的 id 可能是 GPU 的从 0 开始的索引
在驱动程序返回的自然枚举中,GPU 的板卡序列号,
GPU 的 UUID,或 GPU 的 PCI 总线 ID(如 domain:bus:device.function 十六进制)。 这是
建议需要一致性的用户使用 UUID 或 PCI 总线 ID,因为设备
不能保证重新启动和板序列之间的枚举顺序一致
数字可能在同一块板上的多个 GPU 之间共享。
-f 文件, --文件名=文件
将查询输出重定向到指定的文件来代替默认的标准输出。 指定的
文件将被覆盖。
-l 证监会, --循环=SEC
以指定的时间间隔连续上报查询数据,而不是默认的只是
一次。 应用程序将在查询之间休眠。 请注意,在 Linux ECC 错误或 XID 上
错误事件将在睡眠期间打印出来,如果 -x 未指定标志。
随时按 Ctrl+C 将中止循环,否则循环将无限期运行。
如果没有为 -l 使用 5 秒的默认间隔。
-lms 多发性硬化症, --loop-ms=毫秒
与 -l,--loop 相同,但以毫秒为单位。
支持装置 改性 配置
[任何 一种 的]
-下午, --持久模式=模式
为目标 GPU 设置持久化模式。 见 (GPU ATTRIBUTES) 部分
持久化模式的描述。 需要root。 除非单个 GPU,否则将影响所有 GPU
指定使用 -i 争论。 此操作的效果是立竿见影的。 然而,
它不会在重新启动后持续存在。 每次重启后持久化模式将默认为
“残疾”。 仅在 Linux 上可用。
-e, --ecc-config=配置
为目标 GPU 设置 ECC 模式。 见 (GPU ATTRIBUTES) 部分的说明
ECC 模式。 需要root。 除非使用指定单个 GPU,否则将影响所有 GPU
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 -i 争论。 此设置在下次重新启动后生效,并且是持久的。
-p, --reset-ecc-errors=类型
重置目标 GPU 的 ECC 错误计数器。 见 (GPU ATTRIBUTES) 部分
ECC 错误计数器类型的描述。 可用参数是 0|VOLATILE 或
1|聚合。 需要root。 除非使用指定单个 GPU,否则将影响所有 GPU
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 -i 争论。 此操作的效果是立竿见影的。
-C, --计算模式=模式
设置目标 GPU 的计算模式。 见 (GPU ATTRIBUTES) 部分
计算模式的描述。 需要root。 将影响所有 GPU,除非单个 GPU
指定使用 -i 争论。 此操作的效果是立竿见影的。 然而,它
在重新启动后不会持续存在。 每次重新启动后,计算模式将重置为“默认”。
-dm 类型, --driver-model=类型
-fdm 类型, --force-driver-model=类型
启用或禁用 TCC 驱动程序模型。 仅适用于 Windows。 需要管理员权限。
-dm 如果连接了显示器,将会失败,但是 -fdm 将强制更改驱动程序模型。
将影响所有 GPU,除非使用 -i 争论。 重启是
发生变化所必需的。 看 驱动器 型号 有关 Windows 的更多信息
驱动程序模型。
--gom=模式
设置 GPU 操作模式:0/ALL_ON、1/COMPUTE、2/LOW_DP GK110 M-class 和 X- 支持
开普勒系列的特斯拉产品。 Quadro 和 Tesla C-class 不支持
产品。 需要管理员权限。 看 GPU 操作 时尚 了解更多信息
关于 GOM。 GOM 更改在重新启动后生效。 可能会删除重新启动要求
在将来。 仅计算 GOM 不支持 WDDM(Windows 显示驱动程序模型)
-r, --gpu-重置
触发 GPU 重置。 可用于在以下情况下清除 GPU HW 和 SW 状态
否则将需要重新启动机器。 如果双位 ECC 错误具有
发生了。 需要 -i 切换到目标特定设备。 需要root。 不可能有
使用此特定设备的任何应用程序(例如 CUDA 应用程序、图形应用程序
像 X 服务器,监视应用程序像 nvidia-smi 的其他实例)。 还有
不能是系统中任何其他 GPU 上运行的任何计算应用程序。 仅在
支持在 Linux 上运行的 Fermi 和 Kepler 系列设备。
不能保证 GPU 重置在所有情况下都有效。 不推荐用于生产
此时的环境。 在某些情况下,板上可能有硬件组件
在复位请求之后未能恢复到初始状态。 这是更多
可能会在费米代产品与开普勒产品上看到,并且更有可能在以下情况下看到
正在挂起的 GPU 上执行重置。
重置后,建议先验证 GPU 的健康状况,然后再进一步
用。 nvidia-healthmon 工具是本次测试的不错选择。 如果 GPU 不健康
应通过对节点进行电源循环来启动完全重置。
访问 http://developer.nvidia.com/gpu-deployment-kit 下载 GDK 和 nvidia-
卫生员。
-交流, --applications-clocks=MEM_CLOCK,GRAPHICS_CLOCK
指定最大值时钟作为定义 GPU 的一对(例如 2000,800)
在 GPU 上运行应用程序时的速度。 仅适用于 Kepler+ 系列的 Tesla 设备。
除非使用 -acp 命令放宽限制,否则需要 root。
-rac, --重置应用程序时钟
将应用程序时钟重置为默认值。 仅适用于 Kepler+ 的 Tesla 设备
家庭。 除非使用 -acp 命令放宽限制,否则需要 root。
-acp, --applications-clocks-permission=模式
切换应用程序时钟是否可以由所有用户更改或仅由 root 用户更改。 可用的
参数为 0|不受限制,1|受限制。 仅在来自 Kepler+ 的 Tesla 设备上
家庭。 需要root。
-pl, --功率限制=POWER_LIMIT
以瓦特为单位指定最大功率限制。 接受整数和浮点数。 仅有的
在 Kepler 系列支持的设备上。 需要管理员权限。 价值需求
介于 nvidia-smi 报告的 Min 和 Max Power Limit 之间。
-是, --会计模式=模式
启用或禁用 GPU 计费。 使用 GPU Accounting 可以跟踪使用情况
单个进程的整个生命周期中的资源。 仅在 Kepler 支持的设备上
家庭。 需要管理员权限。 可用参数为 0|DISABLED 或
1|启用。
-caa, --清除帐户应用程序
清除目前为止的所有进程。 仅在 Kepler 系列受支持的设备上。
需要管理员权限。
--auto-boost-default=模式
将默认自动提升策略设置为 0/DISABLED 或 1/ENABLED,仅强制执行更改
在最后一个 boost 客户端退出后。 仅适用于 Kepler+ 的某些 Tesla 设备
家庭。 需要root。
--auto-boost-default-force=模式
将默认自动提升策略设置为 0/DISABLED 或 1/ENABLED,强制更改
立即地。 仅适用于 Kepler+ 系列的某些 Tesla 设备。 需要root。
--auto-boost-permission=模式
允许非管理员/root 控制自动提升模式。 可用的参数是
0|不受限制,1|受限制。 仅适用于 Kepler+ 系列的某些 Tesla 设备。
需要root。
[加 可选的]
-一世, --id=ID
修改单个指定的 GPU。 指定的 id 可能是 GPU/Unit 中的基于 0 的索引
驱动返回的自然枚举,GPU的板卡序列号,GPU的
UUID,或 GPU 的 PCI 总线 ID(如域:总线:设备。十六进制)。 推荐
要求一致性的用户使用 UUID 或 PCI 总线 ID,因为设备枚举
不能保证重新启动和板序列号之间的顺序一致
在同一块板上的多个 GPU 之间共享。
单元 改性 配置
-t, --toggle-led=状态
将本机正面和背面的 LED 指示灯状态设置为指定颜色。 看
这 (单元 ATTRIBUTES) 部分,了解 LED 状态的描述。 允许的颜色是
0|绿色和 1|琥珀色。 需要root。
[加 可选的]
-一世, --id=ID
修改单个指定单元。 指定的 id 是 Unit 中从 0 开始的索引
驱动程序返回的自然枚举。
SHOW DTD 配置
--dtd
显示设备或单元 DTD。
[加 可选的]
-f 文件, --文件名=文件
将查询输出重定向到指定的文件来代替默认的标准输出。 指定的
文件将被覆盖。
-你, - 单元
显示单元 DTD 而不是设备 DTD。
统计
显示有关 GPU 的统计信息。 使用“nvidia-smi stats -h”获取更多信息
信息。 仅限 Linux。
TOPO
显示系统的拓扑信息。 使用“nvidia-smi topo -h”获取更多信息
信息。 仅限 Linux。 注意:GPU 枚举与 NVML 相同。
返回 VALUE
返回码反映了操作是成功还是失败以及失败的原因
失败。
· 返回码 0 - 成功
· 返回码 2 - 提供的参数或标志无效
· 返回码 3 - 请求的操作在目标设备上不可用
· 返回码 4 - 当前用户无权访问此设备或
执行此操作
· 返回码 6 - 查找对象的查询不成功
· 返回代码 8 - 设备的外部电源线未正确连接
· 返回码 9 - 未加载 NVIDIA 驱动程序
· 返回码 10 - NVIDIA 内核检测到 GPU 的中断问题
· 返回码 12 - 找不到或无法加载 NVML 共享库
· 返回码 13 - 本地版本的 NVML 未实现此功能
· 返回码 14 - infoROM 已损坏
· 返回码 15 - GPU 已从总线上掉下来或以其他方式变成
无法访问
· 返回码 255 - 发生其他错误或内部驱动程序错误
GPU ATTRIBUTES
下面的列表描述了所有可能的数据返回 -q 设备查询选项。
除非另有说明,所有数值结果均以 10 为底且无单位。
时间戳
调用 nvidia-smi 时的当前系统时间戳。 格式为“星期几
月日 HH:MM:SS 年”。
驱动器 版本
已安装的 NVIDIA 显示驱动程序的版本。 这是一个字母数字字符串。
附 图形处理器
系统中 NVIDIA GPU 的数量。
产品 姓名
GPU 的官方产品名称。 这是一个字母数字字符串。 适用于所有产品。
屏 显: 时尚
指示物理显示器(例如监视器)当前是否连接到的标志
任何 GPU 的连接器。 “启用”表示连接的显示器。 “残疾人”
否则表示。
屏 显: 活跃
指示是否在 GPU 上初始化显示的标志(例如内存是
在设备上分配用于显示)。 即使没有显示器,显示器也可以处于活动状态
物理连接。 “启用”表示活动显示。 “禁用”表示
除此以外。
坚持 时尚
指示是否为 GPU 启用持久性模式的标志。 价值是
“启用”或“禁用”。 启用持久性模式后,NVIDIA 驱动程序仍然存在
即使不存在活动客户端(例如 X11 或 nvidia-smi),也会加载。 这最大限度地减少了
与运行相关应用程序(例如 CUDA 程序)相关的驱动程序加载延迟。 为了
所有支持 CUDA 的产品。 仅限 Linux。
财会部 时尚
指示是否为 GPU 值启用记帐模式的标志是
计费已启用,为运行在计算机上的每个计算进程计算统计信息
图形处理器。 进程终止后可以查询统计信息。 见--help-query-
会计应用程序以获取更多信息。
财会部 时尚 缓冲区 尺码
返回包含可以查询的进程列表的循环缓冲区的大小
用于会计统计。 这是会计信息的最大进程数
将在有关最旧进程的信息被覆盖之前存储
有关新进程的信息。
驱动器 型号
在 Windows 上,支持 TCC 和 WDDM 驱动程序模型。 可以更改驱动程序模型
与 (-dm)或(-fdm) 标志。 TCC 驱动程序模型针对计算进行了优化
应用程序。 使用 TCC,IE 内核启动时间会更快。 WDDM 驱动程序模型
专为图形应用程序设计,不推荐用于计算应用程序。
Linux 不支持多个驱动程序模型,并且始终具有“N/A”值。
电流 当前使用的驱动程序模型。 在 Linux 上总是“不适用”。
待审批 下次重新启动时将使用的驱动程序模型。 总是“不适用”
Linux操作系统。
串行 联系电话
该编号与实际印刷在每块板上的序列号相匹配。 它是一个全球
唯一不可变的字母数字值。
GPU UUID
该值是 GPU 的全局唯一不可变字母数字标识符。 它确实
不对应板上的任何物理标签。
未成年人 联系电话
设备的次要编号使得每个 GPU 的 Nvidia 设备节点文件将
格式为 /dev/nvidia[minor number]。 仅在 Linux 平台上可用。
BIOS 版本
GPU 板的 BIOS。
多GPU 烫衣板
此 GPU 是否是多 GPU 板的一部分。
烫衣板 ID
驱动程序分配的唯一板 ID。 如果两个或多个 GPU 具有相同的板 ID
并且上面的“MultiGPU”字段为真,则 GPU 位于同一块板上。
信息 版本
GPU 板信息存储中每个对象的版本号。 该信息是一个
GPU 的配置和状态数据的小型持久存储。 所有信息版本
字段是数字。 知道这些版本号会很有用,因为某些 GPU
功能仅适用于特定版本或更高版本的信息。
如果以下任何字段返回未知错误,则额外的 Inform 验证检查是
执行并显示相应的警告消息。
图片 版本 infoROM 映像的全球版本。 镜像版本就像 VBIOS 版本
唯一地描述了闪存在板上的 infoROM 的确切版本
与 infoROM 对象版本形成对比,后者只是支持的指标
功能。
OEM 摆件 OEM 配置数据的版本。
ECC 摆件 ECC 记录数据的版本。
电力 摆件 电源管理数据的版本。
GPU 操作 时尚
GOM 允许通过禁用 GPU 功能来降低功耗并优化 GPU 吞吐量。
每个 GOM 旨在满足特定的用户需求。
在“All On”模式下,一切都被启用并全速运行。
“计算”模式专为仅运行计算任务而设计。 图形操作不是
不允许的。
“低双精度”模式专为运行不
需要高带宽双精度。
GOM 可以用 (——戈姆) 旗帜。
支持 Kepler 系列的 GK110 M 级和 X 级 Tesla 产品。 不是
Quadro 和 Tesla C 级产品支持。
电流 当前使用的 GOM。
待审批 下次重新启动时将使用的 GOM。
PCI
设备的基本 PCI 信息。 每当卡片出现时,其中一些信息可能会发生变化
在系统中添加/删除/移动。 适用于所有产品。
公共汽车 PCI 总线编号,以十六进制表示
设备 PCI 设备编号,以十六进制表示
域名 PCI 域号,以十六进制表示
设备 Id PCI 供应商设备 ID,以十六进制表示
小组 系统 Id PCI 子系统 ID,十六进制
公共汽车 Id PCI 总线 ID 为“域:总线:设备.功能”,十六进制
GPU 链接 信息
PCIe 链路生成和总线宽度
电流 当前链接生成和宽度。 当 GPU
未使用。
最大 此 GPU 和系统可实现的最大链接生成和宽度
配置。 例如,如果 GPU 支持更高的 PCIe 代
比系统支持然后这报告系统 PCIe 代。
桥 芯片
与设备上的桥接芯片相关的信息。 桥接芯片固件仅存在
在某些板上,对于某些较新的多 GPU 板可能会显示“N/A”。
类型 桥接芯片的类型。 如果不存在,则报告为 N/A。
固件 版本
桥接芯片的固件版本。 如果不存在,则报告为 N/A。
风扇 速度
风扇速度值是设备风扇当前最大速度的百分比
打算运行。 它的范围从 0 到 100%。 注意:报告的速度是预期的
风扇转速。 如果风扇被物理阻塞且无法旋转,则此输出将不会
与实际风扇速度相匹配。 许多部件不报告风扇速度,因为它们依赖于
通过周围机柜中的风扇冷却。 对于所有具有专用的分立产品
球迷。
性能 州
GPU 的当前性能状态。 状态范围从 P0(最大性能)到
P12(最低性能)。
钟 风门 原因
检索有关降低时钟频率的因素的信息。 仅在
支持来自 Kepler 系列的 Tesla 设备。
如果所有节流原因都返回为“Not Active”,则意味着时钟正在运行
尽可能高。
空闲 GPU 上什么都没有运行,时钟下降到空闲状态。
此限制器可能会在以后的版本中删除。
应用领域 钟 设置
GPU 时钟受应用程序时钟设置的限制。 例如可以改变
使用 nvidia-smi --applications-clocks=
SW 电力 帽 SW Power Scaling 算法将时钟减少到低于请求的时钟
因为 GPU 消耗太多电量。 例如,软件功率上限限制可以
使用 nvidia-smi --power-limit= 更改
HW 慢一点 已启用 HW 减速(将核心时钟减少 2 倍或更多)。
这是一个指标:
* 温度过高
* 外部电源制动断言被触发(例如由系统电源
供应)
* 功耗太高,快速触发保护正在减少时钟
不明 其他一些未指定的因素是减少时钟。
FB 内存 用法
板载帧缓冲存储器信息。 报告的总内存受 ECC 状态的影响。
如果启用 ECC,总可用内存会减少几个百分点,因为
必要的奇偶校验位。 驱动程序也可能为内部保留少量内存
使用,即使没有在 GPU 上积极工作。 适用于所有产品。
合计 FB 存储器的总大小。
旧 已使用的 FB 内存大小。
免费 FB 存储器的可用大小。
酒吧1 内存 用法
BAR1 用于映射 FB(设备内存),以便 CPU 可以直接访问
或由第 3 方设备(PCIe 总线上的点对点)。
合计 BAR1 内存的总大小。
旧 使用的 BAR1 内存大小。
免费 BAR1 内存的可用大小。
计算 时尚
计算模式标志指示单个或多个计算应用程序是否可以
在 GPU 上运行。
“默认”意味着每个设备允许多个上下文。
“独占线程”意味着每个设备只允许一个上下文,可以从一个线程在
一个时间。
“独占进程”意味着每个设备只允许一个上下文,可以从多个
一次线程。
“禁止”意味着每个设备都不允许使用上下文(没有计算应用程序)。
在 CUDA 4.0 中添加了“EXCLUSIVE_PROCESS”。 之前的 CUDA 版本仅支持一个
独占模式,相当于 CUDA 4.0 及更高版本中的“EXCLUSIVE_THREAD”。
适用于所有支持 CUDA 的产品。
采用
利用率报告每个 GPU 随时间推移的繁忙程度,并可用于确定
很多应用程序都在使用系统中的 GPU。
注意:在驱动程序初始化期间启用 ECC 可以看到高 GPU 和内存
利用率读数。 这是由执行的 ECC 内存清理机制引起的
在驱动程序初始化期间。
GPU 在过去的样本期间,一个或多个
内核正在 GPU 上执行。 采样周期可能介于 1
秒和 1/6 秒取决于产品。
内存 过去采样期间全局(设备)的时间百分比
正在读取或写入内存。 采样周期可能介于 1
秒和 1/6 秒取决于产品。
软腐病 时尚
指示是否启用 ECC 支持的标志。 可能是“启用”或
“残疾”。 更改为 ECC 模式需要重新启动。 需要Inforom ECC 对象版本
1.0或更高。
电流 GPU 当前运行的 ECC 模式。
待审批 下次重启后 GPU 将运行的 ECC 模式。
ECC 故障
NVIDIA GPU 可以为各种类型的 ECC 错误提供错误计数。 一些 ECC 错误是
单比特或双比特,其中单比特错误被纠正,双比特错误
是无法纠正的。 纹理内存错误可以通过重新发送或不可纠正来纠正
如果重发失败。 这些错误可跨两个时间尺度(易失性和
总计的)。 单比特 ECC 错误由硬件自动纠正,不会导致
在数据损坏。 检测到双位错误但未纠正。 请参阅 ECC
有关双位计算应用程序行为信息的 Web 文档
发生错误。 易失性错误计数器跟踪自上次以来检测到的错误数
驱动程序负载。 聚合错误计数无限期地持续存在,因此作为一生
反击。
关于 volatile 计数的说明:在 Windows 上,这是每次启动一次。 在 Linux 上,这可能更多
频繁。 在 Linux 上,当不存在活动客户端时,驱动程序会卸载。 因此,如果
启用持久模式或始终有一个驱动程序客户端处于活动状态(例如 X11),然后
Linux 还会看到每次启动行为。 如果不是,则每次计算时都会重置易失性计数
应用程序运行。
Fermi 和 Kepler 系列的 Tesla 和 Quadro 产品可以显示总 ECC 错误
计数,以及基于芯片位置的错误分类。 地点是
如下面所描述的。 用于汇总错误计数的基于位置的数据需要Inforom ECC
对象版本 2.0。 所有其他 ECC 计数都需要 ECC 对象版本 1.0。
设备 内存 在全局设备内存中检测到错误。
即刻注册 文件 在寄存器文件存储器中检测到错误。
L1 缓存 在 L1 缓存中检测到错误。
L2 缓存 在 L2 缓存中检测到错误。
质地 内存 在纹理内存中检测到奇偶校验错误。
合计 在整个芯片上检测到的总错误。 总和 设备 内存, 即刻注册
文件, L1 缓存, L2 缓存 和 质地 内存.
页 退休计划
当 NVIDIA GPU 变得不可靠时,它们可以停用 GPU 设备内存的页面。 这个可以
当同一页或双位 ECC 发生多个单位 ECC 错误时发生
错误。 当页面退出时,NVIDIA 驱动程序将隐藏它,以便没有驱动程序,或
应用程序内存分配可以访问它。
双 位 ECC 由于某个原因而退役的 GPU 设备内存页数
双位 ECC 错误。
集成的 位 ECC 已退役的 GPU 设备内存页数
多个单比特 ECC 错误。
待审批 检查是否有任何 GPU 设备内存页面在下次重新启动时等待停用。
待停用的页面仍可分配,并可能导致进一步
可靠性问题。
温度
板上温度传感器的读数。 所有读数均以摄氏度为单位。 并非全部
产品支持所有阅读类型。 特别是,模块形式的产品会影响
依靠机箱风扇或被动冷却通常不提供温度读数。 看
下面是限制。
GPU 核心 GPU 温度。 适用于所有离散和 S 级产品。
电力 读
功率读数有助于了解 GPU 的当前功率使用情况,以及影响因素
影响使用。 启用电源管理后,GPU 将功耗限制在
通过操纵电流性能来适应预定义的功率包络
状态。 请参阅下面的可用性限制。
电力 州 电源状态已被弃用并已重命名为性能状态
2.285。 为了保持 XML 兼容性,XML 格式的性能状态是
两个地方都列出来了。
电力 管理
指示是否启用电源管理的标志。 任何一个
“支持”或“不适用”。 需要 Inform PWR 对象版本 3.0 或更高版本或
开普勒装置。
电力 平局 最后测量的整个电路板的功耗,以瓦特为单位。 仅有的
如果支持电源管理,则可用。 这个读数准确到
+/- 5 瓦以内。 需要 Inform PWR 对象版本 3.0 或更高版本或
开普勒装置。
电力 限制 软件功率限制,以瓦特为单位。 通过nvidia-smi等软件设置。
仅在支持电源管理时可用。 需要信息 PWR
对象版本 3.0 或更高版本或 Kepler 设备。 在 Kepler 设备上 电源
可以使用 -pl,--power-limit= 开关调整限制。
强制执行 电力 限制
电源管理算法的功率上限,以瓦特为单位。 总板
功率消耗由功率管理算法操纵,以便它
保持在该值以下。 此限制是各种限制中的最小值,例如
作为上面列出的软件限制。 仅当电源管理可用时可用
支持的。 需要开普勒设备。
默认 电力 限制
默认电源管理算法的功率上限,以瓦特为单位。 力量
卸载驱动程序后,限制将设置回默认功率限制。 仅在
来自 Kepler 系列的支持设备。
分钟 电力 限制
可以将功率限制设置为的最小值(以瓦特为单位)。 仅在
来自 Kepler 系列的支持设备。
max. 电力 限制
可以将功率限制设置为的最大值(以瓦为单位)。 仅在
来自 Kepler 系列的支持设备。
钟
GPU 各部分运行的当前频率。 所有读数均以 MHz 为单位。
图像 图形(着色器)时钟的当前频率。
SM SM(流式多处理器)时钟的当前频率。
内存 内存时钟的当前频率。
应用 钟
用户指定的应用程序运行频率。 可以改变
[-ac | --applications-clocks] 开关。
图像 用户指定的图形(着色器)时钟频率。
内存 用户指定的内存时钟频率。
默认 应用 钟
应用程序运行的默认频率。 应用时钟可以是
更改为 [-ac | --applications-clocks] 开关。 应用时钟可以设置为
默认使用 [-rac | --reset-applications-clocks] 开关。
图像 应用程序图形(着色器)时钟的默认频率。
内存 应用程序内存时钟的默认频率。
max. 钟
GPU 部分设计运行的最大频率。 所有读数均以 MHz 为单位。
在 Fermi 系列的 GPU 上,当前的 P0 时钟(在时钟部分报告)可能与
最大时钟数兆赫兹。
图像 图形(着色器)时钟的最大频率。
SM SM(流式多处理器)时钟的最大频率。
内存 内存时钟的最大频率。
时钟 方针政策
用户指定的自动时钟更改设置,例如自动升压。
Auto 提高 指示当前是否为此 GPU 启用了自动增强模式 (On) 或
禁用此 GPU(关闭)。 如果不支持提升,则显示 (N/A)。 汽车
boost 允许基于功率、热量和利用率的动态 GPU 时钟。
当自动提升被禁用时,GPU 将尝试将时钟保持在
精确的当前应用程序时钟设置(每当 CUDA 上下文
活跃)。 启用自动提升后,GPU 仍将尝试保持
这个楼层,但会在通电时机会性地提升到更高的时钟,
热和利用空间允许。 此设置终生有效
请求它的 CUDA 上下文。 应用程序可以请求一个
通过 NVML 调用(请参阅 NVML SDK)或通过设置
CUDA 环境变量 CUDA_AUTO_BOOST。
Auto 提高 默认
表示自动升压模式的默认设置,启用 (On) 或
禁用(关闭)。 如果不支持提升,则显示 (N/A)。 应用程序将在
默认模式,如果他们没有明确请求特定模式。
支持 时钟
GPU 可以操作的可能内存和图形时钟组合的列表(不是
考虑到 HW 制动减少的时钟)。 这些是唯一的时钟组合
可以传递给 --applications-clocks 标志。 仅当 -q -d 时才列出支持的时钟
SUPPORTED_CLOCKS 开关已提供或以 XML 格式提供。
计算 流程
在设备上具有计算上下文的进程列表。
每个条目的格式为“ . ”
旧 GPU 内存
上下文在设备上使用的内存量。 在 Windows 上不可用
在 WDDM 模式下运行时,因为 Windows KMD 管理所有内存而不是
英伟达驱动程序。
统计数据 (实验性)
列出 GPU 统计信息,例如功耗样本、利用率样本、xid 事件、时钟变化
事件和违规计数器。
在 Linux 下支持基于 Tesla、GRID 和 Quadro 的产品。
仅限于 Kepler 或更新的 GPU。
以 CSV 格式显示统计信息,如下所示:
, , ,
与其单位一起显示的指标如下:
以瓦特为单位的功率样本。
GPU、内存、编码器和解码器利用率示例(以百分比表示)。
使用 Xid 错误代码报告的 Xid 错误事件。 未知 xid 的错误代码为 999
错误。
处理器和内存时钟以 MHz 为单位变化。
由于功率封顶而导致的违规,违规时间以 ns 为单位。 (仅限特斯拉)
由于带有违规布尔标志 (1/0) 的热上限而导致违规。 (仅限特斯拉)
备注:
任何以“#”开头的统计数据都是注释。
不支持的设备显示为“# , 设备不受支持”。
不支持的指标显示为“ , ,不适用,不适用”。
仅适用于基于 Tesla 的产品支持因热/功率导致的违规。 热违规
仅限于 Tesla K20 及更高版本。
拓扑 (实验性)
列出有关系统 GPU 的拓扑信息,以及它们如何相互连接
作为能够进行 RDMA 的合格 NIC
显示具有以下图例的可用 GPU 矩阵:
传说:
X = 自己
SOC = 路径遍历套接字级链接(例如 QPI)
PHB = 路径穿过 PCIe 主机桥
PXB = 路径穿越多个 PCIe 内部交换机
PIX = 路径穿过 PCIe 内部交换机
单元 ATTRIBUTES
下面的列表描述了所有可能的数据返回 -q -u 单位查询选项。
除非另有说明,所有数值结果均以 10 为底且无单位。
时间戳
调用 nvidia-smi 时的当前系统时间戳。 格式为“星期几
月日 HH:MM:SS 年”。
驱动器 版本
已安装的 NVIDIA 显示驱动程序的版本。 格式是
“主要号码。次要号码”。
HIC 资料包
有关系统中安装的任何主机接口卡 (HIC) 的信息。
固件 版本
在 HIC 上运行的固件版本。
附 单位
系统中附加单元的数量。
产品 姓名
单位的正式产品名称。 这是一个字母数字值。 适用于所有 S 级
的产品。
产品 Id
单位的产品标识符。 这是表单的字母数字值
“第一部分-第二部分-第三部分”。 适用于所有 S 级产品。
产品 串行
单元的不可变全局唯一标识符。 这是一个字母数字值。
适用于所有 S 级产品。
固件 版本
设备上运行的固件版本。 格式为“主要编号.次要编号”。
适用于所有 S 级产品。
LED 州
LED 指示灯用于标记存在潜在问题的系统。 AMBER的LED颜色
表示有问题。 适用于所有 S 级产品。
颜色 LED 指示灯的颜色。 “绿色”或“琥珀色”。
原因 当前 LED 颜色的原因。 原因可能被列为任何
“未知”、“由主机系统设置为琥珀色”、“热传感器”的组合
故障”、“风扇故障”和“温度超过临界极限”。
温度
设备重要部件的温度读数。 所有读数均以摄氏度为单位。
并非所有读数都可用。 适用于所有 S 级产品。
入学时间 机组进气口的空气温度。
排气 机组排气点的空气温度。
烫衣板 整个单元板的空气温度。
电源供应器
单元电源的读数。 适用于所有 S 级产品。
州 PSU 的运行状态。 电源状态可以是以下任一状态
如下:“正常”、“异常”、“高压”、“风扇故障”、“散热片”
温度”、“电流限制”、“电压低于 UV 警报阈值”、
“低电压”、“I2C 远程关闭命令”、“MOD_DISABLE 输入”或“引脚短路”
过渡”。
电压 PSU 电压设置,单位为伏特。
电流 PSU 电流消耗,以安培为单位。
风扇 资料包
单位的风扇读数。 每个风扇都有一个读数,其中可以有
许多。 适用于所有 S 级产品。
州 风扇的状态,“正常”或“失败”。
速度 对于健康的风扇,风扇的转速以 RPM 为单位。
附 图形处理器
与连接到该单元的每个 GPU 相对应的 PCI 总线 ID 列表。 公交车
id 的格式为“domain:bus:device.function”,以十六进制表示。 适用于所有 S 级产品。
附注
在 Linux 上,如果以 root 身份运行,NVIDIA 设备文件可能会被 nvidia-smi 修改。 请参见
驱动程序自述文件的相关部分。
- -a 和 -g 现在不推荐使用参数 -q 和 -i, 分别。 However,然而,
旧参数仍然适用于此版本。
示例
NVIDIA-SMI -q
查询所有 GPU 的属性一次,并以纯文本显示到标准输出。
NVIDIA-SMI --format=csv,无标题 --query-gpu=uuid,persistence_mode
查询系统中所有GPU的UUID和持久化模式。
NVIDIA-SMI -q -d ECC,电源 -i 0 -l 10 -f 输出日志
以0秒的频率查询GPU 10的ECC错误和功耗,
无限期,并记录到文件out.log。
NVIDIA-SMI -c 1 -i GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8
将 UUID 的 GPU 的计算模式设置为“EXCLUSIVE_THREAD”
"GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8".
NVIDIA-SMI -q -u -x --dtd
一次查询所有单元的属性,并以嵌入 DTD 的 XML 格式显示
标准输出。
NVIDIA-SMI --dtd -u -f nvsmi_unit.dtd
将单元 DTD 写入 nvsmi_unit.dtd。
NVIDIA-SMI -q -d 支持时钟
显示所有 GPU 支持的时钟。
NVIDIA-SMI -i 0 --应用程序时钟 2500,745
将应用程序时钟设置为 2500 MHz 内存和 745 MHz 图形。
更改 登录
=== 已知问题 ===
* 在 Linux 上,当存在挂起的 GOM 更改时,无法触发 GPU 重置。
* 在 Linux GPU 重置上可能无法成功更改挂起的 ECC 模式。 完全重启可能是
需要启用模式更改。
* 在 Windows WDDM 模式下,GPU 内存由 Windows 在启动时分配,然后
直接管理。 Nvidia-smi 从驱动程序的角度报告已用/可用内存,因此在
WDDM 模式的结果可能会产生误导。 这可能会在未来得到修复。
=== nvidia-smi v331 更新和 v340 之间的变化 ===
* 添加了温度阈值信息的报告。
* 添加了品牌信息报告(例如 Tesla、Quadro 等)
* 添加了样本(功率、利用率、时钟变化)的最大值、最小值和平均值报告。
命令行示例:nvidia-smi -q -d power,utilization,clock
* 添加了 nvidia-smi stats 接口,用于收集电量、利用率、
时钟变化、xid 事件和 perf 上限计数器,每个计数器都附有时间概念
样本。 命令行示例:nvidia-smi stats
* 添加了对在多个 GPU 上集体报告指标的支持。 与逗号一起使用
用“-i”选项分隔。 示例:nvidia-smi -i 0,1,2
* 添加了对显示 GPU 编码器和解码器利用率的支持
* 新增nvidia-smi topo接口显示GPUDirect通讯矩阵
(实验性)
* 增加了显示GPU板ID和是否是multiGPU板的支持
* 从 XML 输出中删除了用户定义的节流原因
=== nvidia-smi v5.319 更新和 v331 之间的变化 ===
* 添加了次要号码的报告。
* 添加报告 BAR1 内存大小。
* 添加了桥接芯片固件的报告。
=== nvidia-smi v4.319 Production 和 v4.319 Update 之间的变化 ===
* 添加了新的 --applications-clocks-permission 开关以更改权限要求
用于设置和重置应用程序时钟。
=== nvidia-smi v4.304 和 v4.319 Production 之间的变化 ===
* 添加了显示活动状态的报告和更新的文档以阐明它如何
不同于显示模式和显示活动状态
* 为了在多 GPU 板上保持一致性 nvidia-smi -L 总是显示 UUID 而不是
序列号
* 添加了机器可读的选择性报告。 请参阅 SELECTIVE QUERY OPTIONS 部分
英伟达-smi -h
* 添加了页面退休信息的查询。 参见 --help-query-retired-pages 和 -d
PAGE_退休
* 将时钟节流原因用户定义时钟重命名为应用程序时钟设置
* 出错时,每个错误类别的返回码都有不同的非零值。 见返回
VALUE 部分
* nvidia-smi -i 现在可以在出现问题时从健康的 GPU 查询信息
系统中的其他 GPU
*所有指向GPU问题的消息都打印出故障GPU的pci总线ID
* 新标志 --loop-ms 用于以高于每秒一次的速率查询信息(可以
对系统性能有负面影响)
* 添加了对会计过程的查询。 请参阅 --help-query-accounted-apps 和 -d
会计
* 在查询输出中添加了强制功率限制
=== nvidia-smi v4.304 RC 和 v4.304 Production 之间的变化 ===
* 添加了 GPU 操作模式 (GOM) 的报告
* 添加了新的 --gom 开关来设置 GPU 操作模式
=== nvidia-smi v3.295 和 v4.304 RC 之间的变化 ===
* 由于用户反馈重新格式化非详细输出。 删除了待处理的信息
表。
* 如果由于内核模块未接收到初始化失败,打印出有用的消息
中断
* 当系统中不存在 NVML 共享库时更好的错误处理
* 添加了新的 --applications-clocks 开关
* 向 --display 开关添加了新过滤器。 使用 -d SUPPORTED_CLOCKS 运行以列出可能的
GPU 上的时钟
* 报告空闲内存时,从四舍五入的总数和已用内存中计算出来,以便
值加起来
* 添加了电源管理限制约束和默认限制的报告
* 添加了新的 --power-limit 开关
* 添加了纹理内存 ECC 错误的报告
* 添加时钟节流原因报告
=== nvidia-smi v2.285 和 v3.295 之间的变化 ===
* 更清晰的运行命令错误报告(如更改计算模式)
* 在多个 GPU 上同时运行命令时 N/A 错误被视为警告。
* nvidia-smi -i 现在也支持 UUID
* UUID 格式已更改以匹配 UUID 标准,并将报告不同的值。
=== nvidia-smi v2.0 和 v2.285 之间的变化 ===
* 报告 VBIOS 版本。
* 添加 -d/--display 标志来过滤部分数据
* 添加了 PCI 子系统 ID 的报告
* 更新文档以表明我们支持 M2075 和 C2075
* 使用 -u 开关报告 HIC HWBC 固件版本
*报告当前时钟旁边的最大(P0)时钟
* 添加 --dtd 标志以打印设备或单元 DTD
* 添加 NVIDIA 驱动程序未运行时的消息
* 添加了 PCIe 链路生成(最大和当前)和链路宽度(最大和
当前的)。
* 获取挂起的驱动程序模型适用于非管理员
* 添加了对在 Windows 来宾帐户上运行 nvidia-smi 的支持
* 在没有 -q 命令的情况下运行 nvidia-smi 将输出非详细版本的 -q 而不是
帮助
* 修正了 -l/--loop= 参数的解析(默认值,0,到大值)
* 更改了 pciBusId 的格式(更改为 XXXX:XX:XX.X - 此更改在 280 中可见)
* 为 -i 命令解析 busId 的限制较少。 您可以通过 0:2:0.0 或
0000:02:00 和其他变体
* 将版本控制方案更改为还包括“驱动程序版本”
* XML 格式始终符合 DTD,即使出现错误情况
* 添加了对单位和双位 ECC 事件和 XID 错误的支持(默认启用
为 -x 标志禁用 -l 标志)
* 添加了设备重置 -r --gpu-reset 标志
* 添加了计算运行进程列表
* 将电源状态重命名为性能状态。 XML 输出中存在已弃用的支持
只。
* 将 DTD 版本号更新为 2.0 以匹配更新的 XML 输出
使用 onworks.net 服务在线使用 alt-nvidia-340-smi