通过云助手插件可以对当前实例的GPU卡状态或驱动状态等方面进行全方位诊断,帮助您快速检测使用GPU时遇到的一些常见问题(例如GPU卡异常、驱动异常等),一旦诊断出异常情况,可以自动发起运维动作,例如发送通知给用户等。
说明 本文适用于诊断Linux操作系统GPU实例,该GPU实例在创建时已默认预装了云助手插件,关于云助手的详细信息,请参见云助手概述。 登录ECS管理控制台。 在左侧导航栏,选择 。 在页面左侧顶部,选择目标GPU实例所在地域。 在ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令。 在创建执行命令面板的命令信息区域,完成参数配置。 主要参数配置项如下所示,其他参数保持默认。更多信息,请参见创建命令。 重要 参数取值必须按照下文提供的取值来设置,否则可能会导致云助手执行失败。 ①命令类型:选择Shell。 ②命令内容:粘贴如下命令。有关Shell命令的示例,请参见查看实例系统配置。 ③超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。取值:180。 说明 超时时间仅支持设置为正整数,单位为秒,取值范围:10~86400秒(24小时)。 单击执行,通过云助手命令诊断GPU实例健康状态。 执行结果中各检查项均显示 执行结果中某个或多个检查项显示 通过云助手插件一键诊断GPU状态,具体诊断项说明如下: 诊断项 诊断说明 异常处理措施 诊断项 诊断说明 异常处理措施 Double Bit Error Check 检测GPU的Double Bit Error情况 根据错误数不同会提示用户重启实例。 Info Rom Corrupted Check 检测GPU的infoROM固件信息 会向用户发送运维通知。 eRDMA Incorrect Check 检测GPU的eRDMA网卡状态 会向用户发送运维通知。 Kernel Upgrade Check 检测由于Kernel升级导致驱动异常情况 需要用户卸载驱动后重新安装驱动。 Fabricmanager running Check 检测Fabricmanager组件运行状态 需要用户安装或启动Fabricmanager组件服务。 Power Cable Error Check 检测GPU电源线及供电状态 会向用户发送运维通知。 GPU Device Lost Check 检测GPU丢卡情况 会向用户发送运维通知。 GPU Driver Install Check 检测GPU驱动的安装状态 需要用户安装驱动。 GPU Xid Error Check 检测GPU Xid error异常情况 根据不同的XID错误提示用户重启实例。操作步骤
if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
then
acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
fi
acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck
OK
状态,表示GPU诊断无异常。Failed
状态,表示GPU诊断出现异常(例如Double Bit Error Check
)。诊断项和诊断结果说明