步骤一:创建GPU云主机
进入创建云主机页面
点击天翼云门户首页的“控制中心”,输入登录的用户名和密码,进入控制中心页面。
单击“服务列表>弹性云主机”,进入主机列表页。
单击“创建云主机”,进入弹性云主机创建页。
进行基础配置
基础配置
根据业务需求配置“计费模式”、“地域”、“企业项目”、“虚拟私有云”、“实例名称”、“主机名称”等。
选择规格。
此处选择"CPU架构"为"X86"、"分类"为"GPU加速/AI加速型"、"规格族"为"GPU计算加速型pn8r"、"规格"为"pn8r.16xlarge.4"。
选择镜像
“镜像类型”选择“镜像市场”,在云镜像市场中选择预置了DeepSeek R1模型的DeepSeek-R1-32B-vLLM-Ubuntu22.04镜像。
设置云硬盘。
网络及高级配置
设置网络,包括"网卡"、"安全组",这里,为安全和成本考虑,我们先不设置弹性IP,后续按需开放IP;设置高级配置,包括"登录方式"、"云主机组"、"用户数据"。
确认并支付
步骤二:配置弹性负载均衡
现在,我们已经有了两台 Deepseek-R1-32B 服务器,接下来,我们利用弹性负载均衡构建一个可任意横向扩容的 Deepseek 集群。
配置 vllm 服务
首先需要为所有服务器上的 vllm 服务配置相同的 --api-key。
服务的配置文件目录在
/var/vllm_service.env,我们将API_KEY 设置为想要的值。然后重启服务。
systemctl restart vllm创建弹性负载均衡
我们参考弹性负载均衡官方文档进行服务创建。
创建弹性负载均衡
在此例中,我们的Deepseek集群仅用于集群自带的 Open WebUI内网使用,不涉及外网通讯,因此 “网络类型” 选择 “内网”,如果你想将此集群暴露到外网,则选择外网。VPC和子网跟 Deepseek 服务器保持一致。
创建监听器
完成网络负载均衡创建,接下来配置监听器,在负载均衡列表页,点击开始配置。
端口类型,选择 “HTTP”,端口填 8000。
进入下一步,创建健康检查。这里我们通过 HTTP 进行健康检查,返回码部分选择 2xx、3xx、4xx。
点击“立即创建”,完成创建。
为监听器开通GPU云主机白名单
此时监听器列表中,我们可以看到访问Deepseek服务器的主机组地址为 “100.89.0.0/16”,我们需要在Deepseek集群的安全组中,为vllm端口配置此地址的白名单。
为Deepseek云主机所在的安全组新增规则,操作文档详见添加安全组规则帮助文档。
为监听器添加后端云主机
选中主机,然后下一步。
设置端口为 “8000”。
点击确认即可完成配置。
验证连通性
监听器页面,显示监控检查正常。
通过一台 Deepseek 服务器,测试负载均衡连通性。
步骤三:配置 UI 访问能力
为便于公网访问,我们选择一台DeepSeek服务器,利用DeepSeek服务器自带的Open WebUI进行交互。Open WebUI使用文档见Open WebUI 快速入门。
注意
Openai API地址为前面弹性负载均衡的地址,在本例中为 “http://10.0.0.8:8000/v1”,密钥为我们刚刚设置的 vllm 的 --api-key。