主流的AI训练、推理等应用普遍采用容器化方式运行，这类任务对GPU算力需求大，且通常需要短时间内快速申请大量计算资源，并在任务完成后及时释放，以提升资源利用效率、控制成本。在已经创建云容器引擎集群的基础上，您可以通过部署虚拟节点（基于VK）来调用弹性容器实例，实现按需、弹性地调度GPU算力资源。

推荐您使用云容器引擎集群对接ECI GPU实例进行弹性扩容，从而高效、灵活地满足算力扩展需求。以下以扩容L20机型为例，指导您如何通过虚拟节点使用L20 GPU 弹性容器实例。

操作步骤

在弹性容器实例控制台左侧导航栏中选择“容器组”，进入容器组列表页。
点击“创建弹性容器组”，进入弹性容器实例订购页，确认 L20 资源可售卖的可用区以及规格名称。

进入云容器引擎产品控制台，选择想要扩容L20 GPU弹性容器实例的集群。
在左侧导航栏中选择“节点”，进入节点列表页，点击“创建虚拟节点”。

在创建虚拟节点页面，选择第二步中仍未售罄的可用区。

等待虚拟节点状态正常。

进入工作负载页面，选择“新增YAML”，最后点击“确定”。

通过 annotations 指定 ECI 规格。例如下面的 k8s.ctyun.cn/eci-use-specs: pn8i.4x.large.8

通过 nodeName 指定工作负载调度到虚拟节点。例如下面 nodeName: vnd-4klpjmam8j8hf57m-cn-huadong1-jsnj2a-public-ctcloud

通过 resources 指定工作负载的资源需求。其中，GPU指定为 ctyun.cn/gpu: 1

apiVersion: apps/v1
kind: Deployment
metadata:
  name: cuda-l20
  namespace: default
  labels:
    app: cuda
spec:
  replicas: 1
  selector:
    matchLabels:
      app: cuda
  template:
    metadata:
      annotations: 
        k8s.ctyun.cn/eci-use-specs: pn8i.4xlarge.8
      labels:
          app: cuda
    spec:
      containers:
      - name: cuda
        image: docker.io/library/cuda:11.4.3-base-ubuntu20.04
        imagePullPolicy: IfNotPresent
        command:
          - /bin/bash
          - '-c'
        args:
          - nvidia-smi -L; sleep infinity
        resources:
          requests:
            memory: "128Gi"
            cpu: "16"
            ctyun.cn/gpu: 1
          limits:
            memory: "128Gi"
            cpu: "16"
            ctyun.cn/gpu: 1
      nodeName: vnd-4klpjmam8j8hf57m-cn-huadong1-jsnj2a-public-ctcloud

等待工作负载 Running。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

弹性容器实例

弹性容器实例

操作步骤

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

弹性容器实例

弹性容器实例

操作步骤