これは、Ubuntu Online、Fedora Online、Windowsオンラインエミュレーター、MACOSオンラインエミュレーターなどの複数の無料オンラインワークステーションの361つを使用してOnWorks無料ホスティングプロバイダーで実行できるコマンドalt-nvidia-XNUMX-smiです。
プログラム:
NAME
nvidia-smi-NVIDIAシステム管理インターフェイスプログラム
SYNOPSIS
nvidia-smi [OPTION1 [ARG1]] [OPTION2 [ARG2]]..。
DESCRIPTION
nvidia-smi(NVSMIも)は、それぞれの監視および管理機能を提供します
Fermi および上位アーキテクチャの NVIDIA の Tesla、Quadro、GRID、GeForce デバイス
ファミリー。GeForce Titanシリーズデバイスは、非常に限られた機能でほとんどの機能をサポートしています。
Geforceブランドの残りの部分に関する情報。NVSMIはクロスプラットフォームです
標準のNVIDIAドライバ対応Linuxディストリビューションすべてと64ビットをサポートするツール
Windows Server 2008R2以降のバージョンのWindows。 指標を消費することができます
stdoutを介してユーザーが直接、またはスクリプト用にCSVおよびXML形式を介してファイルで提供する
目的。
NVSMIの機能の多くは、基盤となるNVMLCベースによって提供されることに注意してください。
図書館。 NVMLの詳細については、以下のNVIDIA開発者向けWebサイトのリンクを参照してください。
NVMLベースのPythonバインディングも利用できます。
NVSMIの出力は、下位互換性が保証されていません。 ただし、NVMLと
Pythonバインディングは下位互換性があり、作成する際の最初の選択肢となるはずです
NVIDIAドライバーリリース全体で維持する必要のあるツール。
NVML SDK: http://developer.nvidia.com/nvidia-management-library-nvml/
Python バインディング: http://pypi.python.org/pypi/nvidia-ml-py/
OPTIONS
全般的な OPTIONS
-NS、 - 助けて
使用情報を印刷して終了します。
概要 OPTIONS
-L、 --list-gpu
システム内の各NVIDIAGPUを、それらのUUIDとともに一覧表示します。
QUERY OPTIONS
-NS、 -クエリ
GPUまたはユニット情報を表示します。 表示される情報には、(GPU ATTRIBUTES)
または(UNIT ATTRIBUTES)このドキュメントのセクション。 一部のデバイスや環境はそうではありません
考えられるすべての情報をサポートします。 サポートされていないデータは、
出力。 デフォルトでは、使用可能なすべてのGPUまたはユニットの情報が表示されます。 使用 -i
出力を単一のGPUまたはユニットに制限するオプション。
[プラス オプション]
-u、 - 単位
GPUデータの代わりにユニットデータを表示します。 ユニットデータはNVIDIASクラスでのみ利用可能です
テスラエンクロージャー。
-私、 --id = ID
指定された単一のGPUまたはユニットのデータを表示します。 指定されたIDはGPU /ユニットの
ドライバー、GPUのボードシリアルによって返される自然な列挙型の0ベースのインデックス
番号、GPUのUUID、またはGPUのPCIバスID(XNUMX進数のdomain:bus:device.functionとして)。
一貫性を望むユーザーは、UUIDまたはPCIバスIDのいずれかを使用することをお勧めします。
デバイス列挙の順序は、再起動とボードの間で一貫していることが保証されていません
シリアル番号は、同じボード上の複数のGPU間で共有される場合があります。
-f ファイル、 --filename = FILE
クエリ出力を、デフォルトのstdoutの代わりに指定されたファイルにリダイレクトします。 指定された
ファイルは上書きされます。
-NS、 --xml 形式
デフォルトの人間が読める形式の代わりにXML出力を生成します。 GPUとユニットクエリの両方
出力は対応するDTDに準拠しています。 これらは、 --dtd フラグ。
--dtd
で使用する -x。 DTDをXML出力に埋め込みます。
--debug=ファイル
NVIDIA にバグを報告する際に使用する暗号化されたデバッグ ログを生成します。
-d タイプ、 --display = TYPE
選択した情報のみを表示します:MEMORY、UTILIZATION、ECC、TEMPERATURE、POWER、CLOCK、
COMPUTE、PIDS、PERFORMANCE、SUPPORTED_CLOCKS、PAGE_RETIREMENT、ACCOUNTINGフラグは次のようになります。
カンマと組み合わせる(例:「MEMORY、ECC」)。 max、min、avgのサンプリングデータも
POWER、UTILIZATION、CLOCKの表示タイプで返されます。 -u / -unitまたは
-x /-xml-formatフラグ。
-l SEC、 --loop = SEC
デフォルトのだけでなく、指定された間隔でクエリデータを継続的にレポートします
一度。 アプリケーションはクエリの合間にスリープします。 LinuxのECCエラーまたはXIDに注意してください
次の場合、スリープ期間中にエラーイベントが出力されます。 -x フラグが指定されていません。
Ctrl + Cを押すとループが中止され、それ以外の場合は無期限に実行されます。
引数が指定されていない場合 -l 5秒のデフォルト間隔が使用されます。
選択的 QUERY OPTIONS
呼び出し元がクエリするプロパティの明示的なリストを渡すことを許可します。
[XNUMX の]
--query-gpu =
GPUに関する情報。 クエリするプロパティのコンマ区切りリストを渡します。 例えば
--query-gpu = pci.bus_id、persistence_mode。 詳細については、-help-query-gpuを呼び出してください。
--query-supported-clocks =
サポートされているクロックのリスト。 詳細については、-help-query-supported-clocksを呼び出してください。
--query-compute-apps =
現在アクティブなコンピューティングプロセスのリスト。 詳細については、-help-query-compute-appsを呼び出してください。
--query-accounted-apps =
考慮された計算プロセスのリスト。 詳細については、-help-query-accounted-appsを呼び出してください。
--query-retired-pages =
廃止されたGPUデバイスのメモリページのリスト。 --help-query-retired-pagesを呼び出します
詳細はこちら
[必須]
--format =
フォーマットオプションのコンマ区切りリスト:
・csv-カンマ区切り値(必須)
・noheader-列ヘッダーのある最初の行をスキップします
・nounits-数値の単位を出力しません
[プラス どれか の]
-私、 --id = ID
指定された単一のGPUのデータを表示します。 指定されたIDは、GPUの0ベースのインデックスである可能性があります
ドライバーによって返される自然な列挙では、GPUのボードシリアル番号、
GPUのUUID、またはGPUのPCIバスID(XNUMX進数のdomain:bus:device.functionとして)。 です
デバイスとして、一貫性を望むユーザーはUUIDまたはPCIバスIDのいずれかを使用することをお勧めします
列挙の順序は、リブートとボードシリアル間で一貫しているとは限りません。
番号は、同じボード上の複数のGPU間で共有される場合があります。
-f ファイル、 --filename = FILE
クエリ出力を、デフォルトのstdoutの代わりに指定されたファイルにリダイレクトします。 指定された
ファイルは上書きされます。
-l SEC、 --loop = SEC
デフォルトのだけでなく、指定された間隔でクエリデータを継続的にレポートします
一度。 アプリケーションはクエリの合間にスリープします。 LinuxのECCエラーまたはXIDに注意してください
次の場合、スリープ期間中にエラーイベントが出力されます。 -x フラグが指定されていません。
Ctrl + Cを押すとループが中止され、それ以外の場合は無期限に実行されます。
引数が指定されていない場合 -l 5秒のデフォルト間隔が使用されます。
-lms ミズ、 --loop-ms = ms
-l、-loopと同じですが、ミリ秒単位です。
デバイス 改変 OPTIONS
[どれか XNUMXつ の]
-午後、 --persistence-mode = MODE
ターゲットGPUの永続モードを設定します。 (GPU ATTRIBUTES)セクション
永続モードの説明。 rootが必要です。 単一のGPUでない限り、すべてのGPUに影響します
を使用して指定されます -i 口論。 この操作の効果はすぐに現れます。 でも、
再起動後も持続しません。 再起動するたびに、永続モードはデフォルトで
"無効"。 Linuxでのみ使用できます。
-e、 --ecc-config = CONFIG
ターゲットGPUのECCモードを設定します。 (GPU ATTRIBUTES)説明のセクション
ECCモードの。 rootが必要です。 を使用して単一のGPUが指定されていない限り、すべてのGPUに影響します
-i 口論。 この設定は、次回の再起動後に有効になり、永続的になります。
-NS、 --reset-ecc-errors = TYPE
ターゲットGPUのECCエラーカウンターをリセットします。 (GPU ATTRIBUTES)セクション
ECCエラーカウンタタイプの説明。 使用可能な引数は0 | VOLATILEまたは
1 |集約。 rootが必要です。 を使用して単一のGPUが指定されていない限り、すべてのGPUに影響します
-i 口論。 この操作の効果はすぐに現れます。
-NS、 --compute-mode = MODE
ターゲットGPUの計算モードを設定します。 (GPU ATTRIBUTES)セクション
計算モードの説明。 rootが必要です。 単一のGPUがない限り、すべてのGPUに影響します
を使用して指定 -i 口論。 この操作の効果はすぐに現れます。 しかし、それは
再起動後も持続しません。 再起動するたびに、計算モードは「デフォルト」にリセットされます。
-dm タイプ、 --driver-model = TYPE
-fdm タイプ、 --force-driver-model = TYPE
TCCドライバーモデルを有効または無効にします。 Windowsの場合のみ。 管理者権限が必要です。
-dm ディスプレイが接続されていると失敗しますが -fdm ドライバーモデルを強制的に変更します。
を使用して単一のGPUが指定されていない限り、すべてのGPUに影響します -i 口論。 再起動は
変更を行うために必要です。 見る ドライバ モデル Windowsの詳細については
ドライバーモデル。
--gom = MODE
GPU動作モードの設定:0 / ALL_ON、1 / COMPUTE、2 / LOW_DP GK110MクラスおよびX-でサポート
ケプラーファミリーのクラステスラ製品。 QuadroおよびTeslaCクラスではサポートされていません
製品。GeForce Titan デバイスでサポートされているモードは LOW_DP と ALL_ON のみです。
管理者権限が必要です。 GPU 操作 モード GOM の詳細については、
GOMの変更は再起動後に有効になります。再起動の必要性は、
将来。計算のみのGOMはWDDM(Windowsディスプレイドライバーモデル)をサポートしていません。
-NS、 --gpu-リセット
GPUのリセットをトリガーします。次のような状況でGPUのハードウェアとソフトウェアの状態をクリアするために使用できます
そうしないと、マシンを再起動する必要があります。 通常、ダブルビットECCエラーが発生した場合に役立ちます
発生した。 必要 -i ターゲットの特定のデバイスに切り替えます。 rootが必要です。 ありえない
この特定のデバイスを使用するすべてのアプリケーション(CUDAアプリケーション、グラフィックアプリケーションなど)
Xサーバーのように、nvidia-smiの他のインスタンスのようにアプリケーションを監視します)。 そこにも
システム内の他のGPUで実行されているコンピューティングアプリケーションにすることはできません。 オンのみ
Linux上で実行されているFermiおよびKeplerファミリーのサポートされているデバイス。
GPUリセットがすべての場合に機能することは保証されていません。 プロダクションにはお勧めしません
現時点での環境。 状況によっては、ボード上にHWコンポーネントが存在する場合があります
リセット要求後の初期状態への復帰に失敗します。 これはもっと
フェルミ世代の製品とケプラーで見られる可能性が高く、
ハングしたGPUでリセットが実行されています。
リセット後、GPUの状態を確認してから先に進むことをお勧めします
使用する。 nvidia-healthmonツールは、このテストに適しています。 GPUが正常でない場合
完全なリセットは、ノードの電源を入れ直すことによって開始する必要があります。
ロケーション選択 http://developer.nvidia.com/gpu-deployment-kit GDKとnvidiaをダウンロードするには-
healthmon。
-交流、 --applications-clocks = MEM_CLOCK、GRAPHICS_CLOCK
最大値を指定しますGPUを定義するペア(例:2000,800)としてのクロック
GPUでアプリケーションを実行する際の速度。Kepler+ファミリーのTeslaデバイスと
Maxwell ベースの GeForce Titan。-acp で制限が緩和されない限り、ルート権限が必要です。
指図..
-rac、 --reset-アプリケーション-クロック
アプリケーションのクロックをデフォルト値にリセットします。Kepler+のTeslaデバイスの場合
ファミリーおよびMaxwellベースのGeForce Titan。制限が緩和されない限り、ルート権限が必要です
-acp コマンドを使用します。
-acp、 --applications-clocks-permission = MODE
アプリケーションのクロックをすべてのユーザーが変更できるか、rootのみが変更できるかを切り替えます。 利用可能
引数は0|UNRESTRICTED、1|RESTRICTEDです。Kepler+ファミリーのTeslaデバイスと
Maxwell ベースの GeForce Titan。ルート権限が必要です。
-pl、 --power-limit = POWER_LIMIT
最大電力制限をワットで指定します。 整数と浮動小数点数を受け入れます。 それだけ
Keplerファミリのサポートされているデバイス。 管理者権限が必要です。 価値のニーズ
nvidia-smiによって報告されているように、最小電力制限と最大電力制限の間にあること。
-午前、 --accounting-mode = MODE
GPUアカウンティングを有効または無効にします。 GPUアカウンティングを使用すると、
単一プロセスの存続期間全体にわたるリソース。 Keplerのサポートされているデバイスでのみ
家族。 管理者権限が必要です。 使用可能な引数は0 | DISABLEDまたは
1 |有効。
-caa、 --明確な会計アプリ
これまでに説明されたすべてのプロセスをクリアします。 Keplerファミリのサポートされているデバイスでのみ。
管理者権限が必要です。
--auto-boost-default = MODE
デフォルトの自動ブーストポリシーを0 / DISABLEDまたは1 / ENABLEDに設定し、変更のみを適用します
最後のブーストクライアントが終了した後。 Kepler +の特定のTeslaデバイスでのみ
ファミリおよび Maxwell ベースの GeForce デバイス。 ルートが必要です。
--auto-boost-default-force = MODE
デフォルトの自動ブーストポリシーを0 / DISABLEDまたは1 / ENABLEDに設定し、変更を適用します
すぐに利用可能。Kepler+ファミリーおよびMaxwellベースの特定のTeslaデバイスのみ
GeForce デバイス。ルート権限が必要です。
--auto-boost-permission = MODE
自動ブーストモードの非管理者/ルート制御を許可します。 使用可能な引数は次のとおりです
0|制限なし、1|制限あり。Kepler+ファミリーの特定のTeslaデバイスのみ
Maxwell ベースの GeForce デバイス。ルート権限が必要です。
[プラス オプション]
-私、 --id = ID
指定された単一のGPUを変更します。 指定されたIDは、GPU /ユニットの0ベースのインデックスである可能性があります。
ドライバーによって返される自然な列挙、GPUのボードのシリアル番号、GPUの
UUID、またはGPUのPCIバスID(XNUMX進数でdomain:bus:device.functionとして)。 それをお勧めします
デバイスの列挙のため、一貫性を望むユーザーはUUIDまたはPCIバスIDのいずれかを使用します
再起動とボードのシリアル番号の間で順序が一貫しているとは限りません。
同じボード上の複数のGPU間で共有されます。
UNIT 改変 OPTIONS
-NS、 --toggle-led = STATE
ユニットの前面と背面のLEDインジケータの状態を指定された色に設定します。 見る
(UNIT ATTRIBUTES)LEDの状態の説明についてはセクションを参照してください。 許可される色は
0 | GREENおよび1 | AMBER。 rootが必要です。
[プラス オプション]
-私、 --id = ID
指定された単一のユニットを変更します。 指定されたIDは、ユニットの0ベースのインデックスです。
ドライバーによって返される自然な列挙。
SHOW DTD OPTIONS
--dtd
ディスプレイデバイスまたはユニットDTD。
[プラス オプション]
-f ファイル、 --filename = FILE
クエリ出力を、デフォルトのstdoutの代わりに指定されたファイルにリダイレクトします。 指定された
ファイルは上書きされます。
-u、 - 単位
デバイスDTDの代わりにユニットDTDを表示します。
統計情報
GPUに関する統計情報を表示します。 詳細については、「nvidia-smistats-h」を使用してください
情報。 Linuxのみ。
TOPO
システムに関するトポロジ情報を表示します。 詳細については、「nvidia-smitopo-h」を使用してください
情報。Linuxのみ。NVMLが検出できるすべてのGPUを表示しますが、CPUアフィニティは表示されません。
情報はKepler以降のアーキテクチャを搭載したGPUにのみ表示されます。注: GPU
列挙はNVMLと同じです。
ドレイン
GPU ドレイン状態を表示および変更します。詳細については、「nvidia-smi drain -h」を使用してください。
Linuxのみ。
nvlink
nvlink 情報を表示します。詳細については、「nvidia-smi nvlink -h」を使用してください。
クロック
クロッキング動作を照会および制御します。現在、これは同期ブーストにのみ関係します。
詳細については、「nvidia-smi clocks --help」を使用してください。
リターン VALUE
戻りコードは、操作が成功したか失敗したか、およびその理由を反映しています。
失敗。
・リターンコード0-成功
・リターンコード2-指定された引数またはフラグが無効です
・リターンコード3-要求された操作はターゲットデバイスで使用できません
・リターンコード4-現在のユーザーには、このデバイスにアクセスする権限がありません。
この操作を実行します
・リターンコード6-オブジェクトを見つけるためのクエリが失敗しました
・リターンコード8-デバイスの外部電源ケーブルが正しく接続されていません
・リターンコード9-NVIDIAドライバーがロードされていません
・リターンコード10-NVIDIAカーネルがGPUの割り込みの問題を検出しました
・リターンコード12-NVML共有ライブラリが見つからないかロードできませんでした
・リターンコード13-ローカルバージョンのNVMLはこの関数を実装していません
・リターンコード14-infoROMが破損しています
・リターンコード15-GPUがバスから落ちたか、そうでなければ
アクセスできない
・リターンコード255-その他のエラーまたは内部ドライバエラーが発生しました
GPU ATTRIBUTES
次のリストは、 -q デバイスクエリオプション。
特に明記されていない限り、すべての数値結果は基数10で単位がありません。
スタンプ
nvidia-smiが呼び出されたときの現在のシステムタイムスタンプ。 形式は「曜日」
月日HH:MM:SS年」。
ドライバ
インストールされているNVIDIAディスプレイドライバーのバージョン。 これは英数字の文字列です。
添付の GPU
システム内のNVIDIAGPUの数。
業務内容 お名前
GPUの正式な製品名。 これは英数字の文字列です。 すべての製品について。
ディスプレイ モード
物理ディスプレイ(モニターなど)が現在接続されているかどうかを示すフラグ
GPUのコネクタのいずれか。 「有効」は、接続されたディスプレイを示します。 "無効"
それ以外の場合を示します。
ディスプレイ 有効
GPUでディスプレイが初期化されているかどうかを示すフラグ(例:メモリは
表示用にデバイスに割り当てられます)。 モニターがない場合でもディスプレイをアクティブにすることができます
物理的に取り付けられています。 「有効」はアクティブな表示を示します。 「無効」は
さもないと。
固執 モード
GPUで永続モードが有効になっているかどうかを示すフラグ。 値はどちらかです
「有効」または「無効」。 永続モードが有効になっている場合、NVIDIAドライバーは残ります
X11やnvidia-smiなどのアクティブなクライアントが存在しない場合でもロードされます。 これにより、
CUDAプログラムなどの依存アプリの実行に関連するドライバーの負荷遅延。 にとって
すべてのCUDA対応製品。 Linuxのみ。
会計 モード
GPU値に対してアカウンティングモードが有効になっているかどうかを示すフラグは、次のいずれかです。
アカウンティングが有効になっている統計は、で実行されている計算プロセスごとに計算されます
GPU。統計情報は、プロセスの存続期間中または終了後に照会できます。
プロセスが実行状態にある間、プロセスの実行時間は0として報告され、
プロセス終了後の実際の実行時間に更新されます。--help-query- を参照してください。
詳細については、accounted-appsを参照してください。
会計 モード バッファ サイズ
照会できるプロセスのリストを保持する循環バッファーのサイズを返します
会計統計用。 これは、アカウンティング情報が処理するプロセスの最大数です。
最も古いプロセスに関する情報が上書きされる前に保存されます
新しいプロセスに関する情報。
ドライバ モデル
Windowsでは、TCCおよびWDDMドライバーモデルがサポートされています。 ドライバーモデルは変更可能
とともに (-dm)または(-fdm)フラグ。 TCCドライバーモデルはコンピューティング用に最適化されています
アプリケーション。 TCCを使用すると、IEカーネルの起動時間が短縮されます。 WDDMドライバーモデル
グラフィックアプリケーション用に設計されており、コンピューティングアプリケーションにはお勧めしません。
Linuxは複数のドライバーモデルをサポートしておらず、常に「N / A」の値を持ちます。
電流プローブ 現在使用中のドライバーモデル。 Linuxでは常に「N / A」。
保留中 次回の再起動時に使用されるドライバーモデル。 常に「N / A」オン
Linux。
シリアル 数
この番号は、各ボードに物理的に印刷されているシリアル番号と一致します。 それは世界的に
一意の不変の英数字値。
GPU UUID
この値は、GPUのグローバル一意の不変の英数字の識別子です。 します
ボード上の物理的なラベルに対応していません。
マイナー 数
デバイスのマイナー番号は、各GPUのNvidiaデバイスノードファイルが
/ dev / nvidia [マイナー番号]の形式にします。 Linuxプラットフォームでのみ使用できます。
VBIOS
GPUボードのBIOS。
マルチGPU 教育理事会
このGPUがmultiGPUボードの一部であるかどうか。
教育理事会 ID
ドライバーによって割り当てられた一意のボードID。 XNUMXつ以上のGPUが同じボードIDを持っている場合
上記の「MultiGPU」フィールドが真の場合、GPUは同じボード上にあります。
インフォーム
GPUボードのinforomストレージ内の各オブジェクトのバージョン番号。 inforomは
GPUの構成および状態データの小さな永続的なストア。 すべてのinforomバージョン
フィールドは数値です。 一部のGPUは、これらのバージョン番号を知っていると便利です。
機能は、特定のバージョン以上のインフォロムでのみ使用できます。
以下のフィールドのいずれかが不明なエラーを返す場合、追加のInforom検証チェックは次のとおりです。
実行され、適切な警告メッセージが表示されます。
画像 infoROMイメージのグローバルバージョン。 VBIOSバージョンと同じイメージバージョン
ボード上でフラッシュされたinfoROMの正確なバージョンを一意に記述します
サポートされていることを示すだけのinfoROMオブジェクトバージョンとは対照的です
機能。
OEM オブジェクト OEM構成データのバージョン。
ECC オブジェクト ECC記録データのバージョン。
出力 オブジェクト 電力管理データのバージョン。
GPU 操作 モード
GOMを使用すると、GPU機能を無効にすることで、電力使用量を削減し、GPUスループットを最適化できます。
各GOMは、特定のユーザーのニーズを満たすように設計されています。
「オールオン」モードでは、すべてが有効になり、フルスピードで実行されます。
「計算」モードは、計算タスクのみを実行するように設計されています。 グラフィック操作はそうではありません
ことができました。
「低倍精度」モードは、そうでないグラフィックアプリケーションを実行するために設計されています
高帯域幅の倍精度が必要です。
GOMは(--ゴム) 国旗。
KeplerファミリーのGK110MクラスおよびXクラスTesla製品でサポートされています。 いいえ
QuadroおよびTesla Cクラス製品でサポートされています。低倍精度モードとオールオンモードは
サポートされている GeForce Titan 製品で使用できる唯一のモードです。
電流プローブ 現在使用中のGOM。
保留中 次回の再起動時に使用されるGOM。
PCI
デバイスの基本的なPCI情報。 この情報の一部は、カードが
システムで追加/削除/移動されました。 すべての製品について。
バス PCIバス番号(XNUMX進数)
デバイス PCIデバイス番号(XNUMX進数)
ドメイン PCIドメイン番号(XNUMX進数)
デバイス Id PCIベンダーのデバイスID(XNUMX進数)
サブ システム Id PCIサブシステムID、XNUMX進数
バス Id 「domain:bus:device.function」としてのPCIバスID(XNUMX進数)
GPU リンク 情報
PCIeリンクの生成とバス幅
電流プローブ 現在のリンクの生成と幅。 GPUを使用すると、これらが減少する可能性があります
使用されていません。
最大 このGPUとシステムで可能な最大のリンク生成と幅
構成。たとえば、GPUがより高いPCIe世代をサポートしている場合
システムがサポートするよりも、これはシステムのPCIe生成を報告します。
ブリッジ 欠け傷
デバイスのブリッジチップに関連する情報。 ブリッジチップファームウェアは存在するだけです
特定のボードでは「N/A」と表示され、一部の新しいマルチ GPU ボードでは「N/A」と表示される場合があります。
タイプ ブリッジチップのタイプ。 存在しない場合はN / Aとして報告されます。
ファームウェア
ブリッジチップのファームウェアバージョン。 存在しない場合はN / Aとして報告されます。
リプレイ カウンタ
これは、PCIe バス上のさまざまなエラーを記録する内部カウンターです。
Tx スループット
過去 20 ミリ秒間の PCIe バス全体の GPU 中心の転送スループット (MB/秒)。
Maxwell アーキテクチャ以降でのみサポートされます。
Rx スループット
過去20ミリ秒間のPCIeバス上のGPU中心の受信スループット(MB/秒)。
Maxwell アーキテクチャ以降でサポートされています。
ファン 速度
ファン速度の値は、デバイスのファンが現在使用している最大速度のパーセントです。
で実行することを目的としています。 範囲は0〜100%です。 注:報告された速度は意図されたものです
ファン回転速度。 ファンが物理的にブロックされていて回転できない場合、この出力は回転しません
実際のファンの速度と一致します。 多くの部品は、に依存しているため、ファンの速度を報告しません
周囲のエンクロージャーのファンを介して冷却します。 専用のすべてのディスクリート製品用
ファン。
パフォーマンス 都道府県
GPUの現在のパフォーマンス状態。 状態の範囲はP0(最大パフォーマンス)から
P12(最小パフォーマンス)。
時計 スロットル 理由
クロックの頻度を減らしている要因に関する情報を取得します。 オンのみ
KeplerファミリーのTeslaデバイスをサポートしました。
すべてのスロットル理由が「非アクティブ」として返される場合、それはクロックが次のように実行されていることを意味します
可能な限り高い。
アイドル GPUで何も実行されておらず、クロックがアイドル状態になっています。
このリミッターは、今後のリリースで削除される可能性があります。
Application 時計 Setting
GPUクロックは、アプリケーションのクロック設定によって制限されます。 例:変更可能
nvidia-smi --applications-clocks =を使用する
SW 出力 キャップ SW Power Scalingアルゴリズムは、要求されたクロックよりもクロックを減らしています
GPUが消費する電力が多すぎるためです。 たとえば、SWの電力上限制限は
nvidia-smi --power-limit =で変更する
HW 速度を落とす HWスローダウン(コアクロックを2分のXNUMX以上に減らす)が実行されます。
これは次の指標です。
*温度が高すぎる
*外部電源ブレーキアサーションがトリガーされます(たとえば、システム電源によって)
供給)
*消費電力が高すぎるため、高速トリガー保護によりクロックが減少しています
不明 他のいくつかの不特定の要因は、クロックを減らすことです。
FB メモリ 使用法
オンボードフレームバッファメモリ情報。 報告される合計メモリは、ECCの状態の影響を受けます。
ECCを有効にすると、使用可能なメモリの合計が数パーセント減少します。
必要なパリティビット。 ドライバは、内部用に少量のメモリを予約する場合もあります
GPUでアクティブな作業がなくても、使用できます。 すべての製品について。
トータル FBメモリの合計サイズ。
中古 FBメモリの使用サイズ。
Free FBメモリの使用可能なサイズ。
バー1 メモリ 使用法
BAR1は、CPUが直接アクセスできるようにFB(デバイスメモリ)をマップするために使用されます
またはサードパーティのデバイス(PCIeバス上のピアツーピア)。
トータル BAR1メモリの合計サイズ。
中古 BAR1メモリの使用サイズ。
Free BAR1メモリの使用可能なサイズ。
Rescale 計算する モード
計算モードフラグは、個々の計算アプリケーションまたは複数の計算アプリケーションが可能かどうかを示します
GPUで実行します。
「デフォルト」は、デバイスごとに複数のコンテキストが許可されることを意味します。
「排他的プロセス」とは、デバイスごとにXNUMXつのコンテキストのみが許可され、複数のコンテキストから使用できることを意味します
一度にスレッド。
「禁止」とは、デバイスごとにコンテキストが許可されていないことを意味します(コンピューティングアプリは許可されていません)。
「EXCLUSIVE_PROCESS」はCUDA4.0で追加されました。 以前のCUDAリリースはXNUMXつだけをサポートしていました
排他モード。これは、CUDA4.0以降の「EXCLUSIVE_THREAD」と同等です。
すべてのCUDA対応製品用。
利用
使用率は、各GPUが時間の経過とともにどれだけビジーであるかを報告し、その方法を判断するために使用できます。
多くのアプリケーションがシステムでGPUを使用しています。
注:ECCが有効になっている場合のドライバーの初期化中に、高いGPUとメモリが表示されることがあります
使用率の測定値。これは、実行されるECCメモリスクラビングメカニズムが原因で発生します
ドライバの初期化中。
GPU XNUMXつ以上の過去のサンプル期間中の時間の割合
カーネルはGPUで実行されていました。 サンプル期間は1の間である可能性があります
製品に応じて秒と1/6秒。
メモリ グローバル(デバイス)が存在する過去のサンプル期間の時間の割合
メモリが読み取りまたは書き込みされていました。 サンプル期間は1の間である可能性があります
製品に応じて秒と1/6秒。
エンコーダ 過去のサンプル期間におけるGPUのビデオ
エンコーダが使用されていました。サンプリングレートは可変で、
nvmlDeviceGetEncoderUtilization() API 経由で直接
デコード 過去のサンプル期間におけるGPUのビデオ
デコーダが使用されていました。サンプリングレートは可変であり、
nvmlDeviceGetDecoderUtilization() API 経由で直接
Ecc モード
ECCサポートが有効かどうかを示すフラグ。 「有効」または
"無効"。 ECCモードに変更するには、再起動が必要です。 InforomECCオブジェクトバージョンが必要です
1.0以降。
電流プローブ GPUが現在動作しているECCモード。
保留中 次の再起動後にGPUが動作するECCモード。
ECC Errors
NVIDIA GPUは、さまざまなタイプのECCエラーのエラーカウントを提供できます。 いくつかのECCエラーは
シングルビットまたはダブルビットのいずれか。シングルビットエラーが修正され、ダブルビットエラーが修正されます。
修正できません。 テクスチャメモリエラーは、再送信によって修正可能または修正不可能な場合があります
再送信が失敗した場合。 これらのエラーは、XNUMXつのタイムスケール(揮発性と
集計)。 シングルビットECCエラーは、HWによって自動的に修正され、結果として発生しません。
データ破壊で。 ダブルビットエラーが検出されましたが、修正されていません。 ECCをご覧ください
ダブルビット時のコンピューティングアプリケーションの動作に関する情報については、Web上のドキュメント
エラーが発生します。 揮発性エラーカウンターは、最後から検出されたエラーの数を追跡します
ドライバーの負荷。集計エラーカウントは無期限に持続するため、ライフタイムとして機能します
カウンター。
揮発性カウントに関する注意:Windowsでは、これはブートごとにXNUMX回です。 Linuxでは、これはもっと多くなる可能性があります
頻繁。 Linuxでは、アクティブなクライアントが存在しない場合、ドライバーはアンロードされます。 したがって、
永続モードが有効になっているか、常にドライバークライアントがアクティブ(X11など)である場合は、
Linuxでは、起動ごとの動作も確認されます。 そうでない場合、揮発性カウントは計算のたびにリセットされます
アプリが実行されます。
FermiおよびKeplerファミリーのTeslaおよびQuadro製品は、合計ECCエラーを表示できます
カウント、およびチップ上の位置に基づくエラーの内訳。 場所は
以下で説明します。 集計エラーカウントのロケーションベースのデータには、InforomECCが必要です
オブジェクトバージョン2.0。 他のすべてのECCカウントには、ECCオブジェクトバージョン1.0が必要です。
デバイス メモリ グローバルデバイスメモリでエラーが検出されました。
会員登録する File レジスタファイルメモリでエラーが検出されました。
L1 キャッシュ L1キャッシュでエラーが検出されました。
L2 キャッシュ L2キャッシュでエラーが検出されました。
テクスチャー メモリ テクスチャメモリで検出されたパリティエラー。
トータル チップ全体で検出されたエラーの総数。 の合計 デバイス メモリ, 会員登録する
File, L1 キャッシュ, L2 キャッシュ テクスチャー メモリ.
ページへ移動します。 退職
NVIDIA GPUは、信頼性が低くなると、GPUデバイスメモリのページをリタイアできます。 これはできます
同じページまたはダブルビットECCで複数のシングルビットECCエラーが発生した場合に発生します
エラー。 ページが廃止されると、NVIDIAドライバーは、ドライバーがないようにページを非表示にします。
アプリケーションのメモリ割り当てはそれにアクセスできます。
ダブル ビット ECC 次の理由でリタイアされたGPUデバイスのメモリページの数
ダブルビットECCエラー。
単発講座 ビット ECC が原因でリタイアされたGPUデバイスのメモリページの数
複数のシングルビットECCエラー。
保留中 次回の再起動時に、GPUデバイスのメモリページがリタイアを保留しているかどうかを確認します。
廃止が保留されているページは引き続き割り当てることができ、さらに原因となる可能性があります
信頼性の問題
温度
ボード上の温度センサーからの読み取り。 すべての測定値は摂氏です。すべてではありません
製品はすべての読み取りタイプをサポートします。 特に、モジュールフォームファクターの製品は
ケースファンに依存するか、パッシブ冷却は通常、温度の読み取り値を提供しません。 見る
制限については以下をご覧ください。
GPU コアGPU温度。 すべてのディスクリートおよびSクラス製品用。
シャットダウン 温度 GPU がシャットダウンする温度。
速度を落とす 温度 GPUが速度を落とし始める温度。
涼しい。
出力 朗読
電力測定値は、GPUの現在の電力使用量と要因を明らかにするのに役立ちます
その使用法に影響を与えます。 電力管理が有効になっている場合、GPUは消費電力を制限します
現在のパフォーマンスを操作することにより、事前定義された電力エンベロープ内に収まるように負荷をかける
州。 可用性の制限については、以下を参照してください。
出力 都道府県 Power Stateは非推奨になり、でPerformanceStateに名前が変更されました。
2.285。 XMLの互換性を維持するために、XML形式のパフォーマンス状態は
両方の場所に記載されています。
出力 マネジメント
電源管理が有効かどうかを示すフラグ。また
「サポート済み」または「N / A」。 InforomPWRオブジェクトバージョン3.0以降または
ケプラーデバイス。
出力 引き分け ボード全体で最後に測定された消費電力(ワット単位)。 それだけ
電源管理がサポートされている場合に使用できます。 この読みは正確です
+/- 5ワット以内。 InforomPWRオブジェクトバージョン3.0以降または
ケプラーデバイス。
出力 リミット ソフトウェアの電力制限(ワット単位)。 nvidia-smiなどのソフトウェアによって設定されます。
電源管理がサポートされている場合にのみ使用できます。 InforomPWRが必要
オブジェクトバージョン3.0以降またはKeplerデバイス。 ケプラーデバイスの場合Power
制限は、-pl、-power-limit =スイッチを使用して調整できます。
実施済み 出力 リミット
電力管理アルゴリズムの電力上限(ワット単位)。 トータルボード
消費電力は、電力管理アルゴリズムによって操作され、次のようになります。
この値の下にとどまります。 この制限は、次のようなさまざまな制限の最小値です。
上記のソフトウェア制限として。 電力管理が
サポートされています。 ケプラーデバイスが必要です。
デフォルト 出力 リミット
デフォルトの電力管理アルゴリズムの電力上限(ワット単位)。 力
ドライバーのアンロード後、制限はデフォルトの電力制限に戻されます。 オンのみ
Keplerファミリーのサポートされているデバイス。
最小値 出力 リミット
電力制限を設定できるワット単位の最小値。 オンのみ
Keplerファミリーのサポートされているデバイス。
最大値 出力 リミット
電力制限を設定できるワット単位の最大値。 オンのみ
Keplerファミリーのサポートされているデバイス。
時計
GPUの一部が実行されている現在の頻度。 すべての読み取り値はMHzです。
グラフィック グラフィック(シェーダー)クロックの現在の周波数。
SM SM(ストリーミングマルチプロセッサ)クロックの現在の周波数。
メモリ メモリクロックの現在の周波数。
動画 ビデオ (エンコーダー + デコーダー) クロックの現在の周波数。
アプリケーション 時計
アプリケーションが実行されるユーザー指定の頻度。 で変更できます
[-ac | --applications-clocks]スイッチ。
グラフィック グラフィック(シェーダー)クロックのユーザー指定の周波数。
メモリ ユーザーが指定したメモリクロックの周波数。
デフォルト アプリケーション 時計
アプリケーションが実行されるデフォルトの頻度。 アプリケーションクロックは
[-ac |で変更--applications-clocks]スイッチ。 アプリケーションクロックは次のように設定できます
[-rac |を使用するデフォルト--reset-applications-clocks]スイッチ。
グラフィック アプリケーショングラフィックス(シェーダー)クロックのデフォルト周波数。
メモリ アプリケーションのメモリクロックのデフォルト周波数。
最大値 時計
GPUの一部が実行するように設計されている最大周波数。 すべての読み取り値はMHzです。
FermiファミリのGPUでは、現在のP0クロック([クロック]セクションで報告)は、
数MHzの最大クロック。
グラフィック グラフィック(シェーダー)クロックの最大周波数。
SM SM(ストリーミングマルチプロセッサ)クロックの最大周波数。
メモリ メモリクロックの最大周波数。
動画 ビデオ (エンコーダー + デコーダー) クロックの最大周波数。
時計 ポリシー
自動ブーストなどの自動クロッキング変更のユーザー指定設定。
自動応答オプション ブースト このGPUで自動ブーストモードが現在有効になっているか(オン)、または
このGPUでは無効(オフ)。 ブーストがサポートされていない場合は(N / A)を表示します。 自動
ブーストにより、電力、熱、および使用率に基づいた動的GPUクロッキングが可能になります。
自動ブーストが無効になっている場合、GPUはクロックを次の位置に維持しようとします
正確に現在のアプリケーションクロック設定(CUDAコンテキストの場合は常に)
アクティブです)。 自動ブーストを有効にしても、GPUは引き続き維持を試みます
このフロアですが、電力が供給されると、機会に応じてより高いクロックにブーストされます。
熱と利用のヘッドルームが許します。 この設定は一生続きます
要求されたCUDAコンテキストの。 アプリはリクエストできます
NVML呼び出し(NVMLSDKを参照)を介して、または
CUDA環境変数CUDA_AUTO_BOOST。
自動応答オプション ブースト デフォルト
自動ブーストモードのデフォルト設定を示します。有効(オン)または
無効(オフ)。 ブーストがサポートされていない場合は(N / A)を表示します。 アプリはで実行されます
明示的に特定のモードを要求していない場合は、デフォルト モードになります。注:
自動ブースト設定は、「持続モード」が有効になっている場合にのみ変更できます。
これはデフォルトではそうではありません。
サポート クロック
GPUが動作できるメモリとグラフィックスクロックの可能な組み合わせのリスト(
HWブレーキ短縮クロックを考慮に入れる)。 これらは、
--applications-clocksフラグに渡すことができます。 サポートされているクロックは、-q-dの場合にのみ表示されます
SUPPORTED_CLOCKSスイッチは、XML形式で提供されています。
プロセス
デバイス上でコンピューティングまたはグラフィックスコンテキストを持つプロセスのリスト。コンピューティングプロセスは
完全にサポートされているすべての製品について報告されます。グラフィックスプロセスの報告は制限されています
Kepler アーキテクチャ以降のサポート対象製品。
各エントリの形式は「 「
GPU 目次 デバイスの NVML インデックスを表します。
PID アクティブなコンピューティングまたはグラフィックスに対応するプロセスIDを表します。
コンテキスト。
タイプ 計算プロセスの場合は「C」、グラフィックスプロセスの場合は「G」、C+G と表示されます。
コンピューティング コンテキストとグラフィックス コンテキストの両方を持つプロセスの場合。
プロセス お名前 コンピューティングまたはグラフィックス プロセスのプロセス名を表します。
GPU メモリ 使用法
コンテキストによってデバイスで使用されるメモリの量。
WindowsはWDDMモードで実行されているときは、Windows KMDがすべての
メモリではなく NVIDIA ドライバー。
統計 (実験的)
電力サンプル、使用率サンプル、xidイベント、クロック変更などのGPU統計を一覧表示します
イベントと違反カウンター。
LinuxのTesla、GRID、Quadroベースの製品でサポートされています。
Kepler以降のGPUに限定されます。
次のようにCSV形式で統計を表示します。
、 、 、
単位とともに表示するメトリックは次のとおりです。
ワット単位の電力サンプル。
GPU 温度サンプル (摂氏)。
GPU、メモリ、エンコーダー、デコーダーの使用率のサンプル(パーセンテージ)。
Xidエラーコードで報告されたXidエラーイベント。 不明なxidのエラーコードは999です
エラー。
プロセッサとメモリのクロックはMHz単位で変化します。
違反時間(ns)による電力上限による違反。 (テスラのみ)
違反ブールフラグ(1/0)によるサーマルキャッピングによる違反。 (テスラのみ)
注意:
「#」で始まる統計はコメントです。
サポートされていないデバイスは「# 、デバイスはサポートされていません」。
サポートされていないメトリックは「 、 、N / A、N / A」。
火力/電力による違反は、テスラベースの製品でのみサポートされています。 熱違反
TeslaK20以降に限定されています。
デバイス 監視
「nvidia-smi dmon」コマンドラインは、4 つ以上の GPU (最大 XNUMX つのデバイス) を監視するために使用されます。
このツールを使用すると、ユーザーは1行の監視データを見ることができます。
監視サイクル。出力は簡潔な形式で、インタラクティブに解釈しやすい。
モード。1行あたりの出力データは端末のサイズによって制限されます。Teslaでサポートされています。
GRID、Quadro、およびベアメタル 64 の Kepler 以降の GPU 向けの限定された GeForce 製品
ビットLinux。デフォルトでは、監視データには電力使用量、温度、SMクロック、
SM、メモリ、エンコーダ、デコーダのメモリクロックと使用率の値。
フレームバッファメモリ使用量、bar1メモリ使用量などの他のメトリックを報告するように構成されています。
電力/熱違反と集約シングル/ダブルビットECCエラー。
デバイスでサポートされていないか、メトリックの取得中に他のエラーが発生した場合は、
出力データに「-」が表示されます。ユーザーは監視頻度と監視回数も設定できます。
各実行の繰り返しを監視します。日付と時刻を含めるオプションもあります。
各行。サポートされているすべてのオプションは排他的であり、任意の順序で一緒に使用できます。
使用法:
1) デフォルト いいえ 引数
アンビディアスミ デーモン
最大4台のサポートされているデバイスのデフォルトメトリックを自然列挙(開始値)で監視します。
GPU インデックス 0 で 1 秒間隔で実行されます。^C で終了するまで実行されます。
2) 選択する XNUMXつ or よ デバイス
アンビディアスミ デーモン -i <デバイス1,デバイス2, .. , デバイスN>
カンマ区切りのデバイスリストで選択されたデバイスのデフォルトのメトリックを報告します。ツール
サポートされているデバイスを自然列挙(GPUから始まる)のリストから最大4つ選択します。
インデックス 0)。
3) 選択する メトリクス 〜へ be 表示される
アンビディアスミ デーモン -s
次の XNUMX つ以上を指定できます。
p - 電力使用量 (ワット) と温度 (摂氏)
u - 使用率 (SM、メモリ、エンコーダー、およびデコーダーの使用率 (%))
c - Proc および Mem クロック (MHz)
v - 電力違反(%)と熱違反(ブールフラグ)
m - フレーム バッファと Bar1 のメモリ使用量 (MB)
e - ECC (集約されたシングルビット、ダブルビット ECC エラーの数) および PCIe リプレイ
エラー
t - MB/秒単位の PCIe Rx および Tx スループット (Maxwell 以上)
4) 構成 モニタリング 繰り返し
アンビディアスミ デーモン -c <数値 of サンプル>
指定したサンプル数のデータを表示して終了します。
5) 構成 モニタリング 周波数
アンビディアスミ デーモン -d <時間 in 秒>
指定された監視間隔ごとにデータを収集して表示し、終了するまで
^C.
6) ディスプレイ date
アンビディアスミ デーモン -o D
監視データの先頭に YYYYMMDD 形式の日付を追加します。
7) ディスプレイ 時間
アンビディアスミ デーモン -o T
HH:MM:SS 形式で、監視データの先頭に時刻を追加します。
8) カスタマーサービス 情報
アンビディアスミ デーモン -h
コマンド ラインを使用するためのヘルプ情報を表示します。
デーモン (実験的)
「nvidia-smiデーモン」は、接続されている1つ以上のGPUを監視するバックグラウンドプロセスを開始します。
システムに。監視サイクルごとに要求されたGPUを監視し、ファイルをログに記録します。
ユーザーが指定したパスまたはデフォルトの場所 (/var/log/nvstats/) に圧縮形式で保存されます。
ログファイルはシステムの日付が付加され、nvstats-という形式で作成されます。
YYYYMMDD。ログ ファイルへのフラッシュ操作は、交互の監視サイクルごとに実行されます。
デーモンは自身のPIDを/var/run/nvsmi.pidに記録します。デフォルトでは、監視データは
持続には、電力使用量、温度、SMクロック、メモリクロック、使用率の値が含まれます。
SM、メモリ、エンコーダ、デコーダ用。デーモンツールは、記録するように設定することもできます。
フレームバッファメモリ使用量、bar1メモリ使用量、電力/熱などの他の指標
違反と集約シングル/ダブルビットECCエラー。デフォルトの監視サイクルは
10秒まで設定可能で、コマンドラインから設定できます。Tesla、GRID、Quadroでサポートされています。
ベアメタル64ビットLinux上のKepler以降のGPU用のGeForce製品。デーモン
実行にはルート権限が必要であり、
システム。サポートされているオプションはすべて排他的であり、任意の順序で一緒に使用できます。
使用法:
1) デフォルト いいえ 引数
アンビディアスミ デーモン
バックグラウンドで実行され、最大4台のサポートされているデバイスのデフォルトのメトリックを監視します。
0秒間隔で自然列挙(GPUインデックス10から開始)。日付は
ログ ファイルは /var/log/nvstats/ に作成されます。
2) 選択する XNUMXつ or よ デバイス
アンビディアスミ デーモン -i <デバイス1,デバイス2, .. , デバイスN>
バックグラウンドで実行され、コンマで選択されたデバイスのデフォルトのメトリックを監視します。
分離されたデバイスリスト。ツールは、以下のリストから最大4つのサポートされているデバイスを選択します。
自然列挙(GPU インデックス 0 から始まる)。
3) 選択する メトリクス 〜へ be 監視対象
アンビディアスミ デーモン -s
次の XNUMX つ以上を指定できます。
p - 電力使用量 (ワット) と温度 (摂氏)
u - 使用率 (SM、メモリ、エンコーダー、およびデコーダーの使用率 (%))
c - Proc および Mem クロック (MHz)
v - 電力違反(%)と熱違反(ブールフラグ)
m - フレーム バッファと Bar1 のメモリ使用量 (MB)
e - ECC (集約されたシングルビット、ダブルビット ECC エラーの数) および PCIe リプレイ
エラー
t - MB/秒単位の PCIe Rx および Tx スループット (Maxwell 以上)
4) 構成 モニタリング 周波数
アンビディアスミ デーモン -d <時間 in 秒>
終了するまで、指定した監視間隔ごとにデータを収集します。
5) 構成 ログ ディレクトリにジョブを開始します。
アンビディアスミ デーモン -p <パス of ディレクトリ>
指定したディレクトリにログファイルが作成されます。
6) 構成 ログ file 名
アンビディアスミ デーモン -j <文字列 〜へ アペンド ログ file 名前>
コマンドラインは、ユーザーが指定した文字列をログ ファイル名に追加するために使用されます。
7) Terminate デーモン
アンビディアスミ デーモン -t
このコマンドラインは、保存されたPID(/var/run/nvsmi.pid)を使用してデーモンを終了します。
デーモンを停止するために最大限の努力をしますが、終了を保証するものではありません。
デーモンが終了しない場合は、ユーザーはkillを送信して手動で終了することができます。
デーモンに信号を送ります。GPUリセット操作(nvidia-smi経由)を実行するには、すべてのGPU
デーモンを含むすべてのプロセスが終了されます。デーモンを開いているユーザーには、
GPU がビジー状態であるというエラー。
8) カスタマーサービス 情報
アンビディアスミ デーモン -h
コマンド ラインを使用するためのヘルプ情報を表示します。
リプレイ モード (実験的)
「nvidia-smi replay」コマンドラインは、ログファイルの全部または一部を抽出/再生するために使用されます。
デーモンによって生成される。デフォルトでは、ツールは電力などの指標を取得しようとする。
使用状況、温度、SMクロック、メモリクロック、SM、メモリの使用率の値、
エンコーダとデコーダ。リプレイツールはフレームバッファなどの他のメトリックも取得できます。
メモリ使用量、バー1メモリ使用量、電力/熱違反、および合計シングル/ダブルビット
eccエラー。再生するメトリックのセットを選択するオプションがあります。
要求されたメトリックが維持されていないか、サポートされていないとして記録されている場合は、「-」として表示されます。
出力。このモードで生成されるデータの形式は、ユーザーが
デバイス監視ユーティリティを対話的に実行します。コマンドラインには必須オプション「-f」が必要です。
ログファイル名の完全なパスを指定するには、他のサポートされているオプションはすべて
排他的で、任意の順序で一緒に使用できます。
使用法:
1) 指定 ログ file 〜へ be 再生
アンビディアスミ リプレイ -f <ログ file 名前>
圧縮されたログファイルから監視データを取得し、ユーザーが1行で確認できるようにします。
保存された各監視反復の監視データ(タイムスタンプ付きのデフォルトメトリック)
ログファイルには、監視データの新しい行が1秒ごとに再生されます。
収集時に維持された実際の監視頻度。表示される
ファイルの終わりまで、または ^C で終了するまで。
2) フィルター メトリクス 〜へ be 再生
アンビディアスミ リプレイ -f <パス 〜へ ログ ファイル> -s
次の XNUMX つ以上を指定できます。
p - 電力使用量 (ワット) と温度 (摂氏)
u - 使用率 (SM、メモリ、エンコーダー、およびデコーダーの使用率 (%))
c - Proc および Mem クロック (MHz)
v - 電力違反(%)と熱違反(ブールフラグ)
m - フレーム バッファと Bar1 のメモリ使用量 (MB)
e - ECC (集約されたシングルビット、ダブルビット ECC エラーの数) および PCIe リプレイ
エラー
t - MB/秒単位の PCIe Rx および Tx スループット (Maxwell 以上)
3) リミット リプレイ 〜へ XNUMXつ or よ デバイス
アンビディアスミ リプレイ -f <ログ ファイル> -i <デバイス1,デバイス2, .. , デバイスN>
カンマ区切りのデバイスで選択されたデバイスのセットにメトリックのレポートを制限します。
リスト。ツールは、ログ ファイルに保持されていないデバイスをスキップします。
4) 制限します 時間 フレーム の間に which データ is 報告
アンビディアスミ リプレイ -f <ログ ファイル> -b <開始 時間 in HH:MM:SS フォーマット> -e <終了 時間 in
HH:MM:SS フォーマット>
このオプションでは、指定された時間範囲内でデータを制限できます。
-b または -e オプションで時間を 0 にすると、それぞれファイルの開始または終了を意味します。
5) リダイレクト リプレイ 情報 〜へ a ログ file
アンビディアスミ リプレイ -f <ログ ファイル> -r <出力 file 名前>
このオプションはログファイルを入力として受け取り、デフォルトに関連する情報を抽出します。
指定された出力ファイル内のメトリック。
6) カスタマーサービス 情報
アンビディアスミ リプレイ -h
コマンド ラインを使用するためのヘルプ情報を表示します。
プロセス 監視
「nvidia-smi pmon」コマンドラインは、コンピューティングとグラフィックスのプロセスを監視するために使用されます。
システムに接続された4台以上のGPU(最大XNUMX台)で実行できます。このツールを使用すると、
ユーザーは、各デバイスで実行中のすべてのプロセスの統計情報をいつでも確認することができます。
監視サイクル。出力は簡潔な形式で、インタラクティブに解釈しやすい。
モード。1行あたりの出力データは端末のサイズによって制限されます。Teslaでサポートされています。
GRID、Quadro、およびベアメタル 64 の Kepler 以降の GPU 向けの限定された GeForce 製品
ビットLinux。デフォルトでは、各プロセスの監視データにはpid、コマンドが含まれます。
SM、メモリ、エンコーダ、デコーダの名前と平均使用率(前回の
監視サイクル。また、各フレームバッファのメモリ使用量を報告するように設定することもできます。
プロセス。デバイスで実行中のプロセスがない場合、すべてのメトリックが報告されます。
デバイスの場合は「-」として表示されます。デバイスでサポートされていないメトリックやその他のメトリックがある場合は、
メトリックの取得エラーも出力データに「-」として報告されます。ユーザーはまた、
監視頻度と各実行の監視反復回数を設定します。
各行に日付と時刻を含めるオプションもあります。サポートされているオプションはすべて
排他的で、任意の順序で一緒に使用できます。
使用法:
1) デフォルト いいえ 引数
アンビディアスミ PMON
最大4台のサポートされているデバイスで各デバイス上で実行されているすべてのプロセスを監視
0秒間隔で自然列挙(GPUインデックス1から開始)。
^C で終了します。
2) 選択する XNUMXつ or よ デバイス
アンビディアスミ PMON -i <デバイス1,デバイス2, .. , デバイスN>
カンマで選択されたデバイス上で実行されているすべてのプロセスの統計を報告します。
分離されたデバイスリスト。ツールは、以下のリストから最大4つのサポートされているデバイスを選択します。
自然列挙(GPU インデックス 0 から始まる)。
3) 選択する メトリクス 〜へ be 表示される
アンビディアスミ PMON -s
次の XNUMX つ以上を指定できます。
u - 使用率(プロセスの SM、メモリ、エンコーダー、デコーダーの使用率(%))。
前回の監視サイクル以降の平均使用率を報告します。
m - フレーム バッファーの使用量 (MB 単位)。メモリ使用量の瞬間値を報告します。
4) 構成 モニタリング 繰り返し
アンビディアスミ PMON -c <数値 of サンプル>
指定したサンプル数のデータを表示して終了します。
5) 構成 モニタリング 周波数
アンビディアスミ PMON -d <時間 in 秒>
指定された監視間隔ごとにデータを収集して表示し、終了するまで
^C. 監視頻度は 1 ~ 10 秒の範囲でなければなりません。
6) ディスプレイ date
アンビディアスミ PMON -o D
監視データの先頭に YYYYMMDD 形式の日付を追加します。
7) ディスプレイ 時間
アンビディアスミ PMON -o T
HH:MM:SS 形式で、監視データの先頭に時刻を追加します。
8) カスタマーサービス 情報
アンビディアスミ PMON -h
コマンド ラインを使用するためのヘルプ情報を表示します。
トポロジー (実験的)
システムのGPUに関するトポロジ情報、GPUの相互接続方法を一覧表示します
RDMAが可能な認定NICとして
次の凡例を使用して、使用可能なGPUのマトリックスを表示します。
伝説:
X =自己
SOC =パスはソケットレベルのリンクを通過します(例:QPI)
PHB =パスはPCIeホストブリッジを通過します
PXB =パスは複数のPCIe内部スイッチを通過します
PIX =パスはPCIe内部スイッチを通過します
UNIT ATTRIBUTES
次のリストは、 -q -u ユニットクエリオプション。
特に明記されていない限り、すべての数値結果は基数10で単位がありません。
スタンプ
nvidia-smiが呼び出されたときの現在のシステムタイムスタンプ。 形式は「曜日」
月日HH:MM:SS年」。
ドライバ
インストールされているNVIDIAディスプレイドライバーのバージョン。 フォーマットは
「メジャー番号。マイナー番号」。
HIC インフォ
システムにインストールされているホストインターフェイスカード(HIC)に関する情報。
ファームウェア
HICで実行されているファームウェアのバージョン。
添付の 我が軍の部隊数
システムに接続されているユニットの数。
業務内容 お名前
ユニットの正式な製品名。 これは英数字の値です。 すべてのSクラス用
製品。
業務内容 Id
ユニットの製品ID。 これは、フォームの英数字の値です
「part1-part2-part3」。 すべてのSクラス製品用。
業務内容 シリアル
ユニットの不変のグローバル一意識別子。 これは英数字の値です。
すべてのSクラス製品用。
ファームウェア
ユニットで実行されているファームウェアのバージョン。 形式は「メジャー番号。マイナー番号」です。
すべてのSクラス製品用。
LED製品 都道府県
LEDインジケータは、潜在的な問題があるシステムにフラグを立てるために使用されます。 琥珀色のLEDカラー
問題を示します。 すべてのSクラス製品用。
色圏 LEDインジケータの色。 「GREEN」または「AMBER」のいずれか。
原因となる 現在のLEDの色の理由。 原因は次のように記載されている可能性があります
「不明」、「ホストシステムによってAMBERに設定」、「熱センサー」の組み合わせ
故障」、「ファン故障」および「温度が臨界限界を超えています」。
温度
ユニットの重要なコンポーネントの温度測定値。 すべての測定値は摂氏です。
すべての測定値が利用できるわけではありません。 すべてのSクラス製品用。
摂取 ユニット吸気口の気温。
排気 ユニット排気ポイントの気温。
教育理事会 ユニットボード全体の気温。
PSU
ユニット電源の測定値。 すべてのSクラス製品用。
都道府県 PSUの動作状態。 電源の状態は、次のいずれかになります。
次のとおりです:「正常」、「異常」、「高電圧」、「ファン障害」、「ヒートシンク
温度」、「電流制限」、「電圧がUVアラームしきい値を下回っています」、
「低電圧」、「I2Cリモートオフコマンド」、「MOD_DISABLE入力」または「ショートピン」
遷移"。
電圧 PSU電圧設定(ボルト単位)。
電流プローブ PSU電流引き込み(アンペア単位)。
ファン インフォ
ユニットのファン測定値。 ファンごとに読み取り値が提供されます。
多くの。 すべてのSクラス製品用。
都道府県 ファンの状態。「NORMAL」または「FAILED」のいずれかです。
速度 健全なファンの場合、ファンの速度(RPM)。
添付の GPU
ユニットに接続されている各GPUに対応するPCIバスIDのリスト。 バス
IDの形式は、XNUMX進数で「domain:bus:device.function」です。 すべてのSクラス製品用。
注意事項
Linuxでは、ルートとして実行すると、NVIDIAデバイスファイルがnvidia-smiによって変更される場合があります。 見てください
ドライバーのREADMEファイルの関連セクション。
当学校区の -a -g 引数は非推奨になり、 -q -i、それぞれ。 しかしながら、
古い引数は、このリリースでも引き続き機能します。
例
アンビディアスミ -q
すべてのGPUの属性を一度クエリし、プレーンテキストでstdoutに表示します。
アンビディアスミ --format = csv、noheader --query-gpu = uuid、persistence_mode
システム内のすべてのGPUのUUIDと永続モードを照会します。
アンビディアスミ -q -d ECC、POWER -i 0 -l 10 -f アウトログ
0秒の頻度でGPU10のECCエラーと消費電力を照会します。
無期限に、ファイルout.logに記録します。
「nvidia-smi」 -c 1 -i GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8"
UUID を持つ GPU の計算モードを「禁止」に設定します
"GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8".
アンビディアスミ -q -u -x --dtd
すべてのユニットの属性を一度クエリし、DTDが埋め込まれたXML形式で表示します。
stdout。
アンビディアスミ --dtd -u -f nvsmi_unit.dtd
ユニットDTDをnvsmi_unit.dtdに書き込みます。
アンビディアスミ -q -d SUPPORTED_CLOCKS
すべてのGPUでサポートされているクロックを表示します。
アンビディアスミ -i 0 -アプリケーション-時計 2500,745
アプリケーションのクロックを2500MHzのメモリと745MHzのグラフィックスに設定します。
CHANGE LOG
===既知の問題===
* Linuxでは、保留中のGOM変更がある場合、GPUリセットをトリガーできません。
* Linuxでは、GPUリセットは保留中のECCモードを正常に変更できない場合があります。 完全に再起動すると、
モード変更を有効にするために必要です。
=== nvidia-smi v346Updateとv352の間の変更===
* GPU ごとのアフィニティを表示する topo サポートを追加
* 特定のレベルの隣接する GPU を表示する topo サポートを追加
* 特定の XNUMX つの GPU 間の経路を表示する topo サポートを追加
* スクロール形式でのプロセス監視用の「nvidia-smi pmon」コマンドラインを追加しました
* バグ報告に使用する暗号化されたデバッグログを生成するための「--debug」オプションを追加しました
NVIDIAに戻る
* Windows WDDM モードでの使用済み/空きメモリのレポートを修正
* アカウンティング統計は、実行中のプロセスと終了したプロセスの両方を含むように更新されます。
実行中のプロセスの実行時間は0として報告され、
プロセスは終了します。
=== nvidia-smi v340Updateとv346の間の変更===
* PCIe リプレイ カウンターのレポートを追加
* nvidia-smi によるグラフィックス プロセスのレポートのサポートを追加
* PCIe 使用率のレポートを追加
* スクロール形式でデバイスを監視するための dmon コマンドラインを追加
* バックグラウンドで実行し、デバイスをデーモンとして監視するためのデーモンコマンドラインを追加しました
プロセス。/var/log/nvstats/に日付付きログファイルを生成します。
* デーモンによって生成された統計ファイルを再生/抽出するための再生コマンドラインを追加しました
ツール
=== nvidia-smi v331Updateとv340の間の変更===
*温度しきい値情報のレポートを追加しました。
*ブランド情報(Tesla、Quadroなど)のレポートを追加しました
* K40d および K80 のサポートが追加されました。
*サンプル(電力、使用率、クロックの変更)の最大、最小、平均のレポートを追加しました。
コマンドラインの例:nvidia-smi -q -d power、utilization、clock
*電力、使用率、
クロックの変更、xidイベント、およびそれぞれに時間の概念が付加されたパフォーマンスキャッピングカウンター
サンプル。 コマンドラインの例:nvidia-smi stats
*複数のGPUでメトリックをまとめてレポートするためのサポートが追加されました。 カンマと一緒に使用
「-i」オプションで区切ります。 例:nvidia-smi -i 0,1,2
* GPUエンコーダーとデコーダーの使用率を表示するためのサポートが追加されました
* GPUDirect通信マトリックスを表示するためのnvidia-smitopoインターフェースを追加しました
(実験的)
* GPUボードIDの表示と、それがmultiGPUボードであるかどうかのサポートが追加されました
* XML出力からユーザー定義のスロットル理由を削除しました
=== nvidia-smi v5.319Updateとv331の間の変更===
*マイナー番号のレポートを追加しました。
*レポートBAR1のメモリサイズを追加しました。
*ブリッジチップファームウェアのレポートを追加しました。
=== nvidia-smi v4.319Productionとv4.319Updateの間の変更===
*権限要件を変更するための新しい--applications-clocks-permissionスイッチを追加しました
アプリケーションクロックの設定とリセット用。
=== nvidia-smiv4.304とv4.319Production間の変更===
*ディスプレイのアクティブ状態のレポートを追加し、ドキュメントを更新して、その方法を明確にしました
表示モードおよび表示アクティブ状態とは異なります
*マルチGPUボードでの一貫性のために、nvidia-smi-Lは常にではなくUUIDを表示します
シリアルナンバー
*機械可読な選択的レポートを追加しました。 の「選択クエリオプション」セクションを参照してください。
nvidia-smi-h
*ページの廃止情報に関するクエリを追加しました。 --help-query-retired-pagesおよび-dを参照してください
PAGE_RETIREMENT
*クロックスロットルの理由ユーザー定義のクロックをアプリケーションのクロック設定に変更
*エラーの場合、戻りコードには、エラークラスごとに異なるゼロ以外の値があります。 RETURNを参照してください
VALUEセクション
* nvidia-smi -iは、問題が発生したときに正常なGPUから情報をクエリできるようになりました
システム内の他のGPU
*障害のあるGPUのGPU印刷pciバスIDに問題があることを示すすべてのメッセージ
*新しいフラグ--loop-msは、XNUMX秒にXNUMX回よりも高いレートで情報をクエリします(
システムパフォーマンスに悪影響を及ぼします)
*アカウンティングプロセスのクエリを追加しました。 --help-query-accounted-appsおよび-dを参照してください
会計
*クエリ出力に強制電力制限を追加しました
=== nvidia-smi v4.304RCとv4.304Production間の変更===
* GPU操作モード(GOM)のレポートを追加しました
* GPU動作モードを設定するための新しい--gomスイッチを追加しました
=== nvidia-smiv3.295とv4.304RCの間の変更===
*ユーザーのフィードバックにより、非冗長出力を再フォーマットしました。 から保留中の情報を削除しました
列で番号の横にあるXをクリックします。
*カーネルモジュールが受信しないために初期化が失敗した場合に役立つメッセージを出力します
割り込み
* NVML共有ライブラリがシステムに存在しない場合のエラー処理が改善されました
*新しい--applications-clocksスイッチを追加しました
*-displayスイッチに新しいフィルターを追加しました。 -d SUPPORTED_CLOCKSを指定して実行し、可能なリストを作成します
GPUの時計
*空きメモリを報告する場合は、丸められた合計と使用済みメモリから計算してください。
その値を合計します
*電力管理制限の制約とデフォルト制限のレポートを追加しました
*新しい--power-limitスイッチを追加しました
*テクスチャメモリECCエラーのレポートを追加しました
*クロックスロットルの理由のレポートを追加しました
=== nvidia-smiv2.285とv3.295の間の変更===
*実行中のコマンドのエラーレポートがより明確になりました(計算モードの変更など)
*複数のGPUで同時にコマンドを実行する場合、N / Aエラーは警告として扱われます。
* nvidia-smi-iはUUIDもサポートするようになりました
* UUID形式がUUID標準に一致するように変更され、異なる値が報告されます。
=== nvidia-smiv2.0とv2.285の間の変更===
* VBIOSバージョンを報告します。
*データの一部をフィルタリングするために-d / -displayフラグを追加しました
* PCIサブシステムIDのレポートを追加しました
*ドキュメントを更新してM2075とC2075をサポートしていることを示します
* -uスイッチを使用してHICHWBCファームウェアバージョンを報告する
*現在のクロックの横にmax(P0)クロックを報告する
*デバイスまたはユニットのDTDを印刷するための--dtdフラグを追加しました
* NVIDIAドライバーが実行されていない場合のメッセージを追加
* PCIeリンク生成(最大および現在)、およびリンク幅(最大および現在)のレポートを追加しました
現在)。
*保留中のドライバーモデルの取得は非管理者で機能します
* Windowsゲストアカウントでnvidia-smiを実行するためのサポートが追加されました
* -qコマンドなしでnvidia-smiを実行すると、代わりに-qの非冗長バージョンが出力されます
助けます
* -l / -loop =引数の解析を修正しました(デフォルト値、0、大きな値)
* pciBusIdの形式を変更しました(XXXX:XX:XX.Xに-この変更は280で表示されました)
* -iコマンドのbusIdの解析は制限が少なくなります。 0:2:0.0または
0000:02:00およびその他のバリエーション
*「ドライバーバージョン」も含むようにバージョン管理スキームを変更
*エラー状態が発生した場合でも、XML形式は常にDTDに準拠します
*シングルビットおよびダブルビットのECCイベントとXIDエラーのサポートが追加されました(デフォルトで有効)
-xフラグに対して-lフラグを無効にした場合)
*デバイスリセット-r--gpu-resetフラグを追加しました
*コンピューティング実行プロセスのリストを追加
*電源状態の名前をパフォーマンス状態に変更しました。 非推奨のサポートがXML出力に存在します
のみ。
*更新されたXML出力と一致するようにDTDバージョン番号を2.0に更新しました
onworks.netサービスを使用してオンラインでalt-nvidia-361-smiを使用する