linux server - 檢查nvidia driver 異常並自動重新開機

此bash腳本,可以檢查nvidia-smi命令的輸出是否包含"driver/library version mismatch"字串,如果包含則重新啟動系統:

bash

#!/bin/bash # 執行nvidia-smi命令並捕獲輸出 output=$(nvidia-smi 2>&1) # 檢查輸出中是否包含"driver/library version mismatch"字串 if [[ $output == *"driver/library version mismatch"* ]]; then echo "發現NVIDIA驅動程式版本不匹配錯誤,系統將重新啟動..." # 以root權限重新啟動系統 sudo reboot else echo "NVIDIA驅動程式版本正常" fi



說明:

  1. 第一行#!/bin/bash指定使用bash shell來執行腳本。
  2. 第4行使用nvidia-smi命令並將其輸出(包括錯誤訊息)存入變數output中。
  3. 第7行使用[[ ]]結構來檢查output變數的值是否包含"driver/library version mismatch"字串。
  4. 如果包含,則輸出警告訊息並使用sudo reboot命令以root權限重新啟動系統。
  5. 如果不包含,則輸出"NVIDIA驅動程式版本正常"。

使用方式:

  1. 將上述腳本內容保存為一個文件,例如nvidia_check.sh
  2. 給予執行權限:chmod +x nvidia_check.sh
  3. 執行腳本:./nvidia_check.sh

根據需要,您可以將此腳本加入定期維護任務(cron job)中,定期檢查NVIDIA驅動程式版本是否匹配。

留言

這個網誌中的熱門文章

windows server 「虛擬化型保護的程式碼完整性」(Virtualization Based Protection of Code Integrity,VBS) 功能說明與設定

Docker 應用: 再以建置好container狀況下 如何透過json設定檔設定 在修改 Working Directory 和 Restart Policy 設定