云监控通过安装在阿里云主机(ECS实例)上的云监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。
请确保您已在云服务器ECS上创建GPU计算型实例,且已安装GPU驱动。具体操作,请参见创建GPU实例。 说明 如果您先安装云监控插件,再安装GPU驱动,则需要重启云监控插件。关于如何重启云监控插件,请参见如何重启云监控C++版本插件?。 请确保您已在云服务器ECS上安装云监控插件。具体操作,请参见安装云监控插件。 您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。 监控项 单位 MetricName Dimensions (Agent)GPU维度解码器使用率 % gpu_decoder_utilization userId、instanceId、gpuId (Agent)GPU维度编码器使用率 % gpu_encoder_utilization userId、instanceId、gpuId (Agent)GPU维度GPU温度 ℃ gpu_gpu_temperature userId、instanceId、gpuId (Agent)GPU维度GPU使用率 % gpu_gpu_usedutilization userId、instanceId、gpuId (Agent)GPU维度显存空闲量 Byte gpu_memory_freespace userId、instanceId、gpuId (Agent)GPU维度显存空闲率 % gpu_memory_freeutilization userId、instanceId、gpuId (Agent)GPU维度显存使用量 Byte gpu_memory_usedspace userId、instanceId、gpuId (Agent)GPU维度显存使用率 % gpu_memory_usedutilization userId、instanceId、gpuId (Agent)GPU维度GPU功率 W gpu_power_readings_power_draw userId、instanceId、gpuId前提条件
监控项说明
查看GPU的监控数据
相关文档