安装并使用DeepGPU-LLM

2025-07-07   访问量:1002


在处理大语言模型(LLM)任务中,您可以根据实际业务部署情况,选择在不同环境(例如GPU云服务器环境或Docker环境)下安装推理引擎DeepGPU-LLM,然后通过使用DeepGPU-LLM实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)在GPU上的高性能推理优化功能。

说明

LLM模型的特性适用于GPU计算型实例,更多信息,请参见GPU计算型(gn/ebm/scc系列)。本文以GPU计算型实例规格gn7i为例。

GPU云服务器环境下安装DeepGPU-LLM

部分云市场镜像中已预装了DeepGPU-LLM工具,在创建GPU实例时,您可以一键获取预装DeepGPU-LLM的镜像来自动安装DeepGPU-LLM;也可以先购买GPU实例,然后手动安装DeepGPU-LLM。

自动方式(选择云市场镜像)

  1. 获取云市场镜像并创建GPU实例。

    云市场镜像中预装了DeepGPU-LLM工具,您可以通过以下两个入口获取云市场镜像。

    通过ECS购买页面获取

    通过云市场获取

    • 实例:以ecs.gn7i-c8g1.2xlarge,8 vCPU 30 GiB实例规格为例。

    • 镜像:以选择云市场镜像中的镜像为例,该镜像是阿里云免费提供的基于大语言模型LLM场景的AI推理解决方案镜像。在创建GPU计算型实例时,云市场镜像中提供了更多基于大语言模型LLM场景的AI推理解决方案镜像供您选择,具体镜像如下:

      更多镜像及版本信息

    • 公网IP:选中分配公网IPv4地址,带宽计费方式选择按使用流量,带宽峰值选择100Mbps,以加快模型下载速度。

    1. 前往实例创建页

    2. 选择自定义购买页签。

    3. 按需选择付费类型、地域、实例规格、镜像等配置。

      需要注意的参数项设置如下图所示,其他配置项参数的详细说明,请参见配置项说明

      实例和镜像.png

    4. 按照页面提示操作,单击确定下单

    5. 在支付页面查看实例的总费用,如无疑问,按照提示完成支付。

  2. 远程连接已创建的GPU实例。

    具体操作,请参见使用Workbench工具以SSH协议登录Linux实例

  3. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

     

    sudo pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.3。

    deepgpu-llm.jpg

    说明

    您也可以执行sudo pip show -f deepgpu-llm命令查看已安装的DeepGPU-LLM相关详细信息。

  4. (可选)升级DeepGPU-LLM。

    如果安装的DeepGPU-LLM版本过低,不满足您的业务需求,您可以安装高版本的DeepGPU-LLM来实现升级操作。

    1. 进入DeepGPU-LLM安装包

    2. 找到待安装的DeepGPU-LLM包,右键单击复制链接地址获取安装包路径。

    3. GPU远程登录页面,执行以下命令,安装高版本的DeepGPU-LLM。

      本示例以下载deepgpu_llm-24.6+pt2.1cu121-py3-none-any.whl为例,请您替换成实际需要的DeepGPU-LLM版本。

       

      sudo wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm-24.6%2Bpt2.1cu121-py3-none-any.whl
      sudo pip install deepgpu_llm-24.6+pt2.1cu121-py3-none-any.whl
    4. 执行以下命令,查看DeepGPU-LLM版本是否升级。

       

      sudo pip list | grep deepgpu-llm

      显示结果如下,表示DeepGPU-LLM已成功升级为24.6版本。

      升级Deepllm.png

手动方式(选择公共镜像)

先创建GPU实例,然后在该GPU实例上安装DeepGPU-LLM。本文以选择公共镜像中的Ubuntu 22.04 64位系统或Alibaba Cloud Linux 3系统的镜像为例。

基于Ubuntu 22.04系统

基于Alibaba Cloud Linux 3系统

  1. 创建GPU实例。

    • 实例:以ecs.gn7i-c8g1.2xlarge 8 vCPU 30 GiB实例规格为例。

    • 镜像:在公共镜像中选择Ubuntu 22.04 64。您可以选中安装GPU驱动选项同步安装GPU驱动、CUDACUDNN。

      镜像选择页面.jpg

    • 公网IP:选中分配公网IPv4地址,带宽计费方式选择按使用流量,带宽峰值选择100 Mbps,以加快模型下载速度。

    1. 前往实例创建页

    2. 选择自定义购买页签。

    3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。

      需要注意的参数项设置如下图所示,其他配置项参数的详细说明,请参见配置项说明

    4. 按照页面提示操作,单击确定下单

    5. 在支付页面查看实例的总费用,如无疑问,按照提示完成支付。

  2. (条件必选)如果创建GPU实例时无法选中或忘记选中安装GPU驱动项,手动安装GPU实例的Tesla驱动和CUDA Toolkit。

    具体操作,请参见GPU计算型实例中手动安装Tesla驱动(Linux)安装CUDA

  3. 远程连接GPU实例。

    具体操作,请参见使用Workbench工具以SSH协议登录Linux实例

  4. 依次执行以下命令,配置环境变量。

     

    export PATH=/usr/local/cuda-12.4/bin:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH
  5. 依次执行以下命令,查看GPU实例的驱动以及CUDA是否安装成功。

     

    nvidia-smi
    nvcc -V

    显示结果如下所示,表示驱动和CUDA已安装成功。

    Dingtalk_20240926145659.jpg

  6. (条件必选)如果您的GPU实例规格族为ebmgn7、ebmgn7e、ebmgn7exsccgn7ex时,安装与驱动版本对应的nvidia-fabricmanager服务。

    具体操作,请参见安装nvidia-fabricmanager服务

  7. 执行以下命令,安装DeepGPU-LLM的部分依赖项。

     

    sudo apt-get update
    sudo apt-get -y install python3.10 python3-pip openmpi-bin libopenmpi-dev curl vim
  8. 执行以下命令,安装DeepGPU-LLM。

    说明

    下载和安装过程需要较长时间,请您耐心等待。

    根据所需DeepGPU-LLM版本和环境依赖PyTorch版本、CUDA版本,选择合适的DeepGPU-LLM安装包。如何获取最新DeepGPU-LLM版本号,请参见DeepGPU-LLM加速安装包

     

    sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

    例如{DeepGPU-LLM版本号}24.7.2{PyTorch版本}pt2.4{CUDA版本}cu124表示安装24.7.2版本的DeepGPU-LLM。

     

    sudo pip3 install deepgpu_llm==24.7.2+pt2.4cu124 \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  9. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

     

    sudo pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.7.2。

    Dingtalk_20240926155919.jpg

Docker环境下安装DeepGPU-LLM

手动安装方式

容器镜像安装方式

  1. 准备Docker环境。

    • 基于Ubuntu操作系统

    • 基于Alibaba Cloud Linux系统

    1. 执行以下命令,安装或升级docker-ce。

    2. 执行以下命令,安装nvidia-container-toolkit。

      基于Ubuntu操作系统

      基于Alibaba Cloud Linux系统

      如需了解更多信息,请参见Installing the NVIDIA Container Toolkit

  2. 执行以下命令,在Docker环境中拉取并启用Docker镜像。

    本示例以拉取pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel镜像为例。

     

    sudo docker pull pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel
    sudo docker run -ti --gpus all --name="deepgpu_llm" --network=host \
               -v /root/workspace:/root/workspace \
               --shm-size 5g pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel

    主要参数说明

  3. 执行以下命令,安装依赖库。

     

    apt update
    apt install openmpi-bin libopenmpi-dev curl

    上述命令安装的openmpi-bin提供了OpenMPI、libopenmpi-dev软件包以及curl软件包。

  4. 安装DeepGPU-LLM。

    根据所需的DeepGPU-LLM版本和依赖PyTorch版本,通过pip3 install命令安装DeepGPU-LLM。如何获取最新DeepGPU-LLM版本号,请参见DeepGPU-LLM加速安装包

     

    sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

    例如{DeepGPU-LLM版本号}24.3{PyTorch版本}pt2.1{CUDA版本}cu121表示安装24.3版本的DeepGPU-LLM。

     

    sudo pip3 install deepgpu_llm==24.3+pt2.1cu121 \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  5. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

     

    sudo pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.3。

    Dingtalk_20240929155256.jpg

使用DeepGPU-LLM运行模型

下载模型前,请确认您已成功登录GPU实例。更多信息,请参见连接方式概述

  1. 下载开源模型。

    modelscope是阿里达摩院提供的开源模型平台,以下载modelscope格式的通义千问-7B-Chat模型为例,您可以通过以下任一方式下载该模型。

    重要

    下载模型过程中,如果显示内存不足导致模型下载失败,您可以通过扩容云盘来解决,具体操作,请参见云盘扩容指引

    git lfs clone命令方式

    ModelScope库中的snapshot_download方式

    1. 进入ModelScope官网,搜索模型名称(例如qwen)。

    2. 在搜索页面的模型库区域,单击通义千问-7B-Chat

    3. 找到modelscope的专属模型名并复制模型ID。

      模型ID.jpg

    4. 执行以下命令,构建下载命令并下载模型ID。

       

      sudo git-lfs clone https://modelscope.cn/qwen/Qwen-7B-Chat.git

      说明

      下载模型时,如果提示git-lfs: command not found,表示当前系统中未安装git-lfs,请先执行以下命令安装该工具。

       

      sudo apt-get update
      sudo apt-get install git-lfs
  2. 运行Qwen模型推理对话功能。

    • xxx_cli:脚本名称,请根据DeepGPU-LLM版本替换为相应的具体脚本名称,例如qwen_clideepgpu_cli

    • [MODEL_DIR]:模型文件所在的目录。请替换为LLM模型成功下载后存放的实际路径。

    • [TP_SIZE]:推理的GPU数量。

    • [Type]:推理时使用的精度类型。请根据实际需要选择fp16、int8、int4中的一种精度类型。

    • 24.9版本以下的DeepGPU-LLM提供了xxx_cli脚本(如llama_cliqwen_clibaichuan_clichatglm_cli等)运行LLM模型。

    • 24.9及以上版本的DeepGPU-LLM提供了deepgpu_cli脚本运行LLM模型。

    1. 获取DeepGPU-LLM提供的脚本详细信息,便于运行LLM模型。

      DeepGPU-LLM提供了不同脚本帮助您直接运行相应类别的LLM模型,不同版本的DeepGPU-LLM提供的脚本不同,具体如下所示:

      您可以执行xxx_cli -hdeepgpu_cli -h命令获取DeepGPU -LLM所提供的脚本信息。例如执行qwen_cli -h获取qwen_cli脚本的使用帮助信息。image

    2. 执行以下命令,使用脚本运行Qwen模型推理对话功能。

       

      xxx_cli --model_dir [MODEL_DIR] --tp_size [TP_SIZE] --precision [Type]

      以运行qwen_cli脚本加载qwen-7b-chat模型或qwen1.5-7b-chat模型推理进行对话为例。

      qwen-7b-chat模型

       

      qwen_cli --model_dir /home/ecs-user/Qwen-7B-Chat --tp_size 1 --precision fp16

      调用完成后,您可以输入内容和Qwen模型进行对话。例如:

      image

      qwen1.5-7b-chat模型

       

      qwen_cli --model_dir /home/ecs-user/Qwen1.5-7B-Chat --tp_size 1 --precision fp16

      调用完成后,您可以输入内容和Qwen模型进行对话。例如:

      image

  3. (可选)模型转换并运行模型推理对话功能。

    对于某些受限场景,可以提前做好模型转换,然后部署运行模型的推理对话功能即可。本步骤以qwen1.5-7b-chat模型为例。

    1. 转换模型格式。

       

      huggingface_model_convert --in_file /root/Qwen1.5-7B-Chat --saved_dir /root/qwen1.5-7b-chat --infer_gpu_num 1 --weight_data_type fp16 --model_name qwen1.5-7b-chat

      参数说明

    2. 执行以下命令,运行Qwen模型推理对话功能。

       

      qwen_cli --tokenizer_dir /root/Qwen1.5-7B-Chat --model_dir /root/qwen1.5-7b-chat/1-gpu/  --tp_size 1 --precision fp16

      参数说明

      Dingtalk_20241011173236.jpg

常见问题

  • 问题:在Ubuntu 20.04系统上GPU上,执行以下命令安装DeepGPU-LLM时失败。

     

    apt-get update
    apt-get -y install python3-pip openmpi-bin libopenmpi-dev curl vim
    pip3 install deepgpu_llm -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  • 原因及措施:由于apt无法直接安装python 3.10,直接放弃python 3.10安装,安装其他组件即可。安装过程中可能会被动安装gdm3模块导致系统变为图形界面,而非默认的命令行,您可以通过以下命令关闭。

     

    systemctl disable gdm3
    reboot

联系我们

如果您在安装和使用DeepGPU-LLM过程中遇到问题,欢迎加入钉钉群23210030587寻求帮助(钉钉通讯客户端下载地址)。