虚拟节点使用L20 GPU最佳实践
更新时间 2025-10-20 17:45:49
最近更新时间: 2025-10-20 17:45:49
本文为您介绍如何通过虚拟节点使用L20 GPU。
主流的AI训练、推理等应用普遍采用容器化方式运行,这类任务对GPU算力需求大,且通常需要短时间内快速申请大量计算资源,并在任务完成后及时释放,以提升资源利用效率、控制成本。在已经创建云容器引擎集群的基础上,您可以通过部署虚拟节点(基于VK)来调用弹性容器实例,实现按需、弹性地调度GPU算力资源。
推荐您使用云容器引擎集群对接ECI GPU实例进行弹性扩容,从而高效、灵活地满足算力扩展需求。以下以扩容L20机型为例,指导您如何通过虚拟节点使用L20 GPU 弹性容器实例。
操作步骤
在弹性容器实例控制台左侧导航栏中选择“容器组”,进入容器组列表页。
点击“创建弹性容器组”,进入弹性容器实例订购页,确认 L20 资源可售卖的可用区以及规格名称。
进入云容器引擎产品控制台,选择想要扩容L20 GPU弹性容器实例的集群。
在左侧导航栏中选择“节点”,进入节点列表页,点击“创建虚拟节点”。
在创建虚拟节点页面,选择第二步中仍未售罄的可用区。
等待虚拟节点状态正常。
进入工作负载页面,选择“新增YAML”,最后点击“确定”。
通过 annotations 指定 ECI 规格。例如下面的 k8s.ctyun.cn/eci-use-specs: pn8i.4x.large.8
通过 nodeName 指定工作负载调度到虚拟节点。例如下面 nodeName: vnd-4klpjmam8j8hf57m-cn-huadong1-jsnj2a-public-ctcloud
通过 resources 指定工作负载的资源需求。其中,GPU指定为 ctyun.cn/gpu: 1
apiVersion: apps/v1
kind: Deployment
metadata:
name: cuda-l20
namespace: default
labels:
app: cuda
spec:
replicas: 1
selector:
matchLabels:
app: cuda
template:
metadata:
annotations:
k8s.ctyun.cn/eci-use-specs: pn8i.4xlarge.8
labels:
app: cuda
spec:
containers:
- name: cuda
image: docker.io/library/cuda:11.4.3-base-ubuntu20.04
imagePullPolicy: IfNotPresent
command:
- /bin/bash
- '-c'
args:
- nvidia-smi -L; sleep infinity
resources:
requests:
memory: "128Gi"
cpu: "16"
ctyun.cn/gpu: 1
limits:
memory: "128Gi"
cpu: "16"
ctyun.cn/gpu: 1
nodeName: vnd-4klpjmam8j8hf57m-cn-huadong1-jsnj2a-public-ctcloud
等待工作负载 Running。