资源配额 前言 资源配额是允许用户对购买的专属集群资源按照自身业务实际情况进行资源划分的一种资源分配方式,凸显“专款专用”的理念。比如,用户可以基于作业类型维度将专属集群的资源进行划分:希望将专属集群的部分资源专门交给训练任务使用,因此可以创建一份资源配额专门交给训练任务使用;还可以基于用户公司部门/团队维度进行划分:将专属集群的部分资源交给A部门/团队使用,此时可以创建一份资源配额专供A部门/团队使用;总之,资源配额是将专属集群资源进行划分的一种方式。资源配额的使用需要结合工作空间一起使用,需要将资源配额与对应工作空间进行关联,这样在工作空间里进行相关作业(如任务训练、推理、开发机)时,就可以使用划分给工作空间的资源配额的资源。工作空间是息壤训推智算服务平台的顶层逻辑概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,可以将工作空间类比成“办公室”,“办公室”就是员工工作的地方,允许有权进入“办公室”的人员进行相关作业(如任务训练、推理、开发机),在“办公室”内作业时可以使用资源配额的资源,即资源配额的使用需要在关联的工作空间进行作业时才能使用。 创建资源配额 前置条件 1. 已购买专属集群(专属资源) 2. 当前账号为IAM管理员 操作步骤 1. 进入训推智算服务平台后,将集群切换为购买的专属集群,然后在【管理中心】打开【资源配额】菜单,点击【新增资源配额】按钮,打开【新增资源配额】页面。 2. 在【新增资源配额】页面,依次填写【基础信息】【资源配额】【算力借用】【调度策略】【关联工作空间】等模块内容。其中最重要的是【资源配额】【算力借用】【调度策略】【关联工作空间】四个模块,其介绍如下: 2.1资源配额:指的是分配给配额的资源量,由所属集群、负载类型、实例规格、实例数四个字段组成。 1. 所属集群:即用户购买的专属集群,数据来源于用户在训推智算服务平台顶部所选的专属集群。 2. 支持任务类型:即当前资源配额给哪些任务类型使用,目前有两大任务类型,分别是:IDE、自定义训练,若只选择自定义训练,则该资源配额只允许自定义训练可以使用,IDE不可使用该资源配额的资源。 3. 实例规格:选择资源配额的实例规格,由专属集群自身机器资源细分而来,分为1、2、4、8卡四种粒度的资源规格,如集群的资源为英伟达H800资源,则实例规格由H8001卡、H8002卡、H8004卡、H8008卡四种规格可选。 4. 即所选资源规格的数量,如实例规格选择的是H8002卡,实例数选择2,则资源配额总资源为H8004卡。注:实例规格选择的是H8002卡,实例数选择2和实例规格选择的是H8004卡,实例数选择1,其总资源是一样的,都是4张H800的GPU卡,此处的资源只代表资源配额的资源总量,提供不同的实例规格是为了更精细的分配资源配额的资源。例:实例规格选择的是H8002卡,实例数选择2,并不代表任务在使用该配额时,只能选择资源规格为H8002卡的资源,而是可以在不超过资源配额总资源4张H800 GPU卡的情况下自由选择,比如可以创建一个任务直接使用资源配额的全部资源H8004卡,也可以创建4个任务资源使用量为H8001卡的任务。 2.2算力借用:可以设置配额的权重、是否可以借用同一专属集群下其他配额的闲置资源以及是否允许别的配额借用自身的闲置资源。由资源配额权重、闲时算力借用、独享配额资源三个字段组成: 1. 资源配额权重:允许填入1100的整数,数字越大代表资源配额的重要性越高,同一集群下的资源配额权重不可重复。 2. 闲时算力借用:默认关闭 ,开启则代表允许使用当前资源配额的任务在资源配额所剩资源不足时,可以去借用同一专属集群下其他资源配额的闲置资源,从而保证任务优先运行,被借用资源的资源配额,在借用资源的任务运行完成后,被借用的资源会自动归还。若存在多个资源配额,则优先去借用资源配额权重低的资源配额的闲置资源。若资源配额权重较高建议开启此设置,开启后使用此资源配额运行的任务,在当前资源配额资源不足时,将不会排队等待已运行的任务运行完毕后释放资源配额的资源,而去借用其他配额的闲置资源,保证任务可以优先运行。注:可借用的最大资源量专属集群总资源专属集群未分配的资源(未分配给资源配额的资源)当前资源配额的资源。 3. 独享资源配额:独享资源配额是设置自身配额资源不被其他配额借用的开关,开启后则不允许别的配额来借用,关闭则允许别的配额借用,若需要保证资源配额的资源随时可用,不被其他配额借用资源,则建议开启此开关。 2.3调度策略:指的是当提交给资源配额的任务由于配额资源不够时导致任务排队时,排队任务的排队逻辑,目前仅有一个先进先出策略,先进先出策略是指:按照任务提交时间升序进行排队(提交时间最早的排在前),如果队列中的第一个任务无法出队(配额剩余资源>第一个排队任务所需资源时就会出队,任务将会调度成功),系统将反复尝试对第一个任务进行出队操作,而不会跳过。 2.4关联工作空间:只有关联工作空间后,资源配额才可以在对应的工作空间内使用,由管理员、关联工作空间两个字段组成。 1. 管理员:可以添加指定用户为管理员,管理员除了能使用资源以外,还能管理该资源配额,具体包含管理用户,编辑,更配、启动/停止、删除操作。 2. 关联工作空间:将该资源配额分配给指定工作空间,在该工作空间内进行作业时,可以使用该资源配额。