首页 >> 帮助中心 >> 阿里云国际 > 安装并使用DeepGPU-LLM

安装并使用DeepGPU-LLM

2025-07-07 访问量：1015

在处理大语言模型（LLM）任务中，您可以根据实际业务部署情况，选择在不同环境（例如GPU云服务器环境或Docker环境）下安装推理引擎DeepGPU-LLM，然后通过使用DeepGPU-LLM实现大语言模型（例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型）在GPU上的高性能推理优化功能。

说明

LLM模型的特性适用于GPU计算型实例，更多信息，请参见GPU计算型（gn/ebm/scc系列）。本文以GPU计算型实例规格gn7i为例。

在GPU云服务器环境下安装DeepGPU-LLM

部分云市场镜像中已预装了DeepGPU-LLM工具，在创建GPU实例时，您可以一键获取预装DeepGPU-LLM的镜像来自动安装DeepGPU-LLM；也可以先购买GPU实例，然后手动安装DeepGPU-LLM。

自动方式（选择云市场镜像）

获取云市场镜像并创建GPU实例。
云市场镜像中预装了DeepGPU-LLM工具，您可以通过以下两个入口获取云市场镜像。
通过ECS购买页面获取
通过云市场获取

①实例：以ecs.gn7i-c8g1.2xlarge，8 vCPU 30 GiB实例规格为例。
②镜像：以选择云市场镜像中的镜像为例，该镜像是阿里云免费提供的基于大语言模型LLM场景的AI推理解决方案镜像。在创建GPU计算型实例时，云市场镜像中提供了更多基于大语言模型LLM场景的AI推理解决方案镜像供您选择，具体镜像如下：
更多镜像及版本信息
公网IP：选中分配公网IPv4地址，带宽计费方式选择按使用流量，带宽峰值选择100Mbps，以加快模型下载速度。

前往实例创建页。
选择自定义购买页签。
按需选择付费类型、地域、实例规格、镜像等配置。
需要注意的参数项设置如下图所示，其他配置项参数的详细说明，请参见配置项说明。
按照页面提示操作，单击确定下单。
在支付页面查看实例的总费用，如无疑问，按照提示完成支付。

远程连接已创建的GPU实例。
具体操作，请参见使用Workbench工具以SSH协议登录Linux实例。
执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.3。
说明
您也可以执行sudo pip show -f deepgpu-llm命令查看已安装的DeepGPU-LLM相关详细信息。
（可选）升级DeepGPU-LLM。
如果安装的DeepGPU-LLM版本过低，不满足您的业务需求，您可以安装高版本的DeepGPU-LLM来实现升级操作。

进入DeepGPU-LLM安装包。
找到待安装的DeepGPU-LLM包，右键单击复制链接地址获取安装包路径。

在GPU远程登录页面，执行以下命令，安装高版本的DeepGPU-LLM。

本示例以下载deepgpu_llm-24.6+pt2.1cu121-py3-none-any.whl为例，请您替换成实际需要的DeepGPU-LLM版本。

sudo wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm-24.6%2Bpt2.1cu121-py3-none-any.whl
sudo pip install deepgpu_llm-24.6+pt2.1cu121-py3-none-any.whl

执行以下命令，查看DeepGPU-LLM版本是否升级。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功升级为24.6版本。

手动方式（选择公共镜像）

先创建GPU实例，然后在该GPU实例上安装DeepGPU-LLM。本文以选择公共镜像中的Ubuntu 22.04 64位系统或Alibaba Cloud Linux 3系统的镜像为例。

基于Ubuntu 22.04系统

基于Alibaba Cloud Linux 3系统

创建GPU实例。

实例：以ecs.gn7i-c8g1.2xlarge 8 vCPU 30 GiB实例规格为例。
镜像：在公共镜像中选择Ubuntu 22.04 64位。您可以选中安装GPU驱动选项同步安装GPU驱动、CUDA和CUDNN。
公网IP：选中分配公网IPv4地址，带宽计费方式选择按使用流量，带宽峰值选择100 Mbps，以加快模型下载速度。

前往实例创建页。
选择自定义购买页签。
按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。
需要注意的参数项设置如下图所示，其他配置项参数的详细说明，请参见配置项说明。
按照页面提示操作，单击确定下单。
在支付页面查看实例的总费用，如无疑问，按照提示完成支付。

（条件必选）如果创建GPU实例时无法选中或忘记选中安装GPU驱动项，手动安装GPU实例的Tesla驱动和CUDA Toolkit。
具体操作，请参见在GPU计算型实例中手动安装Tesla驱动（Linux）和安装CUDA。
远程连接GPU实例。
具体操作，请参见使用Workbench工具以SSH协议登录Linux实例。

依次执行以下命令，配置环境变量。

export PATH=/usr/local/cuda-12.4/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH

依次执行以下命令，查看GPU实例的驱动以及CUDA是否安装成功。
```
nvidia-smi
nvcc -V
```
显示结果如下所示，表示驱动和CUDA已安装成功。
（条件必选）如果您的GPU实例规格族为ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex时，安装与驱动版本对应的nvidia-fabricmanager服务。
具体操作，请参见安装nvidia-fabricmanager服务。

执行以下命令，安装DeepGPU-LLM的部分依赖项。

sudo apt-get update
sudo apt-get -y install python3.10 python3-pip openmpi-bin libopenmpi-dev curl vim

执行以下命令，安装DeepGPU-LLM。
说明
下载和安装过程需要较长时间，请您耐心等待。
根据所需DeepGPU-LLM版本和环境依赖PyTorch版本、CUDA版本，选择合适的DeepGPU-LLM安装包。如何获取最新DeepGPU-LLM版本号，请参见DeepGPU-LLM加速安装包。
```
sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
```
例如{DeepGPU-LLM版本号}为24.7.2、{PyTorch版本}为pt2.4、{CUDA版本}为cu124表示安装24.7.2版本的DeepGPU-LLM。
```
sudo pip3 install deepgpu_llm==24.7.2+pt2.4cu124 \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
```
执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.7.2。

在Docker环境下安装DeepGPU-LLM

手动安装方式

容器镜像安装方式

准备Docker环境。

基于Ubuntu操作系统
基于Alibaba Cloud Linux系统

执行以下命令，安装或升级docker-ce。
执行以下命令，安装nvidia-container-toolkit。
基于Ubuntu操作系统
基于Alibaba Cloud Linux系统
如需了解更多信息，请参见Installing the NVIDIA Container Toolkit。

执行以下命令，在Docker环境中拉取并启用Docker镜像。

本示例以拉取pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel镜像为例。

sudo docker pull pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel
sudo docker run -ti --gpus all --name="deepgpu_llm" --network=host \
           -v /root/workspace:/root/workspace \
           --shm-size 5g pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel

主要参数说明

执行以下命令，安装依赖库。
```
apt update
apt install openmpi-bin libopenmpi-dev curl
```
上述命令安装的openmpi-bin提供了OpenMPI、libopenmpi-dev软件包以及curl软件包。

安装DeepGPU-LLM。

根据所需的DeepGPU-LLM版本和依赖PyTorch版本，通过pip3 install命令安装DeepGPU-LLM。如何获取最新DeepGPU-LLM版本号，请参见DeepGPU-LLM加速安装包。

sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

例如{DeepGPU-LLM版本号}为24.3、{PyTorch版本}为pt2.1、{CUDA版本}为cu121表示安装24.3版本的DeepGPU-LLM。

sudo pip3 install deepgpu_llm==24.3+pt2.1cu121 \
    -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

执行以下命令，查看DeepGPU-LLM安装状态及版本。
```
sudo pip list | grep deepgpu-llm
```
显示结果如下，表示DeepGPU-LLM已成功安装且当前版本为24.3。

使用DeepGPU-LLM运行模型

下载模型前，请确认您已成功登录GPU实例。更多信息，请参见连接方式概述。

下载开源模型。
modelscope是阿里达摩院提供的开源模型平台，以下载modelscope格式的通义千问-7B-Chat模型为例，您可以通过以下任一方式下载该模型。
重要
下载模型过程中，如果显示内存不足导致模型下载失败，您可以通过扩容云盘来解决，具体操作，请参见云盘扩容指引。
git lfs clone命令方式
ModelScope库中的snapshot_download方式

进入ModelScope官网，搜索模型名称（例如qwen）。
在搜索页面的模型库区域，单击通义千问-7B-Chat。
找到modelscope的专属模型名并复制模型ID。
执行以下命令，构建下载命令并下载模型ID。
```
sudo git-lfs clone https://modelscope.cn/qwen/Qwen-7B-Chat.git
```
说明
下载模型时，如果提示git-lfs: command not found，表示当前系统中未安装git-lfs，请先执行以下命令安装该工具。
```
sudo apt-get update
sudo apt-get install git-lfs
```

运行Qwen模型推理对话功能。

xxx_cli：脚本名称，请根据DeepGPU-LLM版本替换为相应的具体脚本名称，例如qwen_cli或deepgpu_cli。
[MODEL_DIR]：模型文件所在的目录。请替换为LLM模型成功下载后存放的实际路径。
[TP_SIZE]：推理的GPU数量。
[Type]：推理时使用的精度类型。请根据实际需要选择fp16、int8、int4中的一种精度类型。
24.9版本以下的DeepGPU-LLM提供了xxx_cli脚本（如llama_cli、qwen_cli、baichuan_cli和chatglm_cli等）运行LLM模型。
24.9及以上版本的DeepGPU-LLM提供了deepgpu_cli脚本运行LLM模型。

获取DeepGPU-LLM提供的脚本详细信息，便于运行LLM模型。
DeepGPU-LLM提供了不同脚本帮助您直接运行相应类别的LLM模型，不同版本的DeepGPU-LLM提供的脚本不同，具体如下所示：
您可以执行xxx_cli -h或deepgpu_cli -h命令获取DeepGPU -LLM所提供的脚本信息。例如执行qwen_cli -h获取qwen_cli脚本的使用帮助信息。
执行以下命令，使用脚本运行Qwen模型推理对话功能。
```
xxx_cli --model_dir [MODEL_DIR] --tp_size [TP_SIZE] --precision [Type]
```
以运行qwen_cli脚本加载qwen-7b-chat模型或qwen1.5-7b-chat模型推理进行对话为例。
qwen-7b-chat模型
```
qwen_cli --model_dir /home/ecs-user/Qwen-7B-Chat --tp_size 1 --precision fp16
```
调用完成后，您可以输入内容和Qwen模型进行对话。例如：
qwen1.5-7b-chat模型
```
qwen_cli --model_dir /home/ecs-user/Qwen1.5-7B-Chat --tp_size 1 --precision fp16
```
调用完成后，您可以输入内容和Qwen模型进行对话。例如：

（可选）模型转换并运行模型推理对话功能。
对于某些受限场景，可以提前做好模型转换，然后部署运行模型的推理对话功能即可。本步骤以qwen1.5-7b-chat模型为例。

转换模型格式。

huggingface_model_convert --in_file /root/Qwen1.5-7B-Chat --saved_dir /root/qwen1.5-7b-chat --infer_gpu_num 1 --weight_data_type fp16 --model_name qwen1.5-7b-chat

参数说明

执行以下命令，运行Qwen模型推理对话功能。

qwen_cli --tokenizer_dir /root/Qwen1.5-7B-Chat --model_dir /root/qwen1.5-7b-chat/1-gpu/  --tp_size 1 --precision fp16

参数说明

常见问题

问题：在Ubuntu 20.04系统上GPU上，执行以下命令安装DeepGPU-LLM时失败。

apt-get update
apt-get -y install python3-pip openmpi-bin libopenmpi-dev curl vim
pip3 install deepgpu_llm -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

原因及措施：由于apt无法直接安装python 3.10，直接放弃python 3.10安装，安装其他组件即可。安装过程中可能会被动安装gdm3模块导致系统变为图形界面，而非默认的命令行，您可以通过以下命令关闭。
```
systemctl disable gdm3
reboot
```

联系我们

如果您在安装和使用DeepGPU-LLM过程中遇到问题，欢迎加入钉钉群23210030587寻求帮助（钉钉通讯客户端下载地址）。

上一篇：安装并使用DeepNCCL

下一篇： DeepGPU-LLM的API接口说明及示例

全部类型

更多>

阿里云国际腾讯云国际亚马逊云教程中心安全中心