前言
资源配额是允许用户对购买的专属集群资源按照自身业务实际情况进行资源划分的一种资源分配方式,凸显“专款专用”的理念。比如,用户可以基于作业类型维度将专属集群的资源进行划分:希望将专属集群的部分资源专门交给训练任务使用,因此可以创建一份资源配额专门交给训练任务使用;还可以基于用户公司部门/团队维度进行划分:将专属集群的部分资源交给A部门/团队使用,此时可以创建一份资源配额专供A部门/团队使用;总之,资源配额是将专属集群资源进行划分的一种方式。资源配额的使用需要结合工作空间一起使用,需要将资源配额与对应工作空间进行关联,这样在工作空间里进行相关作业(如任务训练、推理、开发机)时,就可以使用划分给工作空间的资源配额的资源。工作空间是息壤一站式智算服务平台的顶层逻辑概念,为企业和团队提供统一的计算资源管理及人员权限管理能力,可以将工作空间类比成“办公室”,“办公室”就是员工工作的地方,允许有权进入“办公室”的人员进行相关作业(如任务训练、推理、开发机),在“办公室”内作业时可以使用资源配额的资源,即资源配额的使用需要在关联的工作空间进行作业时才能使用。
注:仅在杭州7资源池支持
创建资源配额
前置条件
已购买专属集群(专属资源)
当前账号为IAM管理员
操作步骤
进入一站式智算平台后,将集群切换为购买的专属集群,然后在【管理中心】打开【资源配额】菜单,点击【新增资源配额】按钮,打开【新增资源配额】页面。
在【新增资源配额】页面,依次填写【基础信息】【资源配额】【算力借用】【调度策略】【关联工作空间】等模块内容。其中最重要的是【资源配额】【算力借用】【调度策略】【关联工作空间】四个模块,其介绍如下:
2.1资源配额:指的是分配给配额的资源量,由所属集群、负载类型、实例规格、实例数四个字段组成。
所属集群:即用户购买的专属集群,数据来源于用户在一站式智算平台顶部所选的专属集群。
负载类型:即当前资源配额给哪些任务类型使用,目前有两大任务类型,分别是:IDE、自定义训练,若只选择自定义训练,则该资源配额只允许自定义训练可以使用,IDE不可使用该资源配额的资源。
实例规格:选择资源配额的实例规格,由专属集群自身机器资源细分而来,分为1、2、4、8卡四种粒度的资源规格,如集群的资源为英伟达H800资源,则实例规格由H800*1卡、H800*2卡、H800*4卡、H800*8卡四种规格可选。
即所选资源规格的数量,如实例规格选择的是H800*2卡,实例数选择2,则资源配额总资源为H800*4卡。注:实例规格选择的是H800*2卡,实例数选择2和实例规格选择的是H800*4卡,实例数选择1,其总资源是一样的,都是4张H800的GPU卡,此处的资源只代表资源配额的资源总量,提供不同的实例规格是为了更精细的分配资源配额的资源。例:实例规格选择的是H800*2卡,实例数选择2,并不代表任务在使用该配额时,只能选择资源规格为H800*2卡的资源,而是可以在不超过资源配额总资源4张H800 GPU卡的情况下自由选择,比如可以创建一个任务直接使用资源配额的全部资源H800*4卡,也可以创建4个任务资源使用量为H800*1卡的任务。
2.2算力借用:可以设置配额的权重、是否可以借用同一专属集群下其他配额的闲置资源以及是否允许别的配额借用自身的闲置资源。由资源配额权重、闲时算力借用、独享配额资源三个字段组成:
资源配额权重:允许填入1-100的整数,数字越大代表资源配额的重要性越高,同一集群下的资源配额权重不可重复。
闲时算力借用:默认关闭 ,开启则代表允许使用当前资源配额的任务在资源配额所剩资源不足时,可以去借用同一专属集群下其他资源配额的闲置资源,从而保证任务优先运行,被借用资源的资源配额,在借用资源的任务运行完成后,被借用的资源会自动归还。若存在多个资源配额,则优先去借用资源配额权重低的资源配额的闲置资源。若资源配额权重较高建议开启此设置,开启后使用此资源配额运行的任务,在当前资源配额资源不足时,将不会排队等待已运行的任务运行完毕后释放资源配额的资源,而去借用其他配额的闲置资源,保证任务可以优先运行。注:可借用的最大资源量=专属集群总资源-专属集群未分配的资源(未分配给资源配额的资源)-当前资源配额的资源。
独享资源配额:独享资源配额是设置自身配额资源不被其他配额借用的开关,开启后则不允许别的配额来借用,关闭则允许别的配额借用,若需要保证资源配额的资源随时可用,不被其他配额借用资源,则建议开启此开关。
2.3调度策略:指的是当提交给资源配额的任务由于配额资源不够时导致任务排队时,排队任务的排队逻辑,目前仅有一个先进先出策略,先进先出策略是指:按照任务提交时间升序进行排队(提交时间最早的排在前),如果队列中的第一个任务无法出队(配额剩余资源>=第一个排队任务所需资源时就会出队,任务将会调度成功),系统将反复尝试对第一个任务进行出队操作,而不会跳过。
2.4关联工作空间:只有关联工作空间后,资源配额才可以在对应的工作空间内使用,由管理员、关联工作空间两个字段组成。
管理员:可以添加指定用户为管理员,管理员除了能使用资源以外,还能管理该资源配额,具体包含管理用户,编辑,更配、启动/停止、删除操作。
关联工作空间:将该资源配额分配给指定工作空间,在该工作空间内进行作业时,可以使用该资源配额。
查看资源配额
在【资源配额】页面可以查看创建的资源配额,可以看到资源配额的资源使用情况
查看资源配额信息核心需要关注这几个功能:
查询功能:可以通过右上角的查询功能,按照资源配额名称、所属集群、工作空间名称三个维度进行查询
工作空间:查看该资源配额属于那个工作空间,资源配额只有分配给工作空间后才可以在工作空间内使用
列表里的显卡、CPU、MEM(内存)三个字段:这三个字段表示资源配额的资源使用情况,以显卡字段为例:
鼠标hover到“详情”按钮,可以进一步查看详情明细:
【编辑】操作:在列表右侧【操作】列,点击【编辑】按钮,会弹出资源配额编辑窗口,可修改配额名称、描述。
【更配】操作
前置条件:当前资源配额的状态处于停止状态
在列表右侧【操作】列,点击【更多】会出现下拉菜单,展示了具体的操作项,选择【更配】,则进入更配页面,可修改资源配额的负载类型、实例规格、实例数、资源配额权重、闲时算力借用、独享配额资源、调度策略字段。更配操作需注意:
1)负载类型修改:当前配额支持的任务类型按最新修改生效,比如之前支持大模型评估,修改后不支持了,则后续评估任务选资源配额时,则不再展示该资源配额。
2)实例规格修改:若该资源配额的存量任务中存在正在运行的任务以及排队中的任务,则不能修改,反之可以修改。
3)实例数修改:实例数调大,上限是:资源池内可支持的上限,比如资源池里还有100卡没有划分到队列,则实例数最大就是100除以规格向下取整。若用户设置的超过这个数,则给出报错提示。实例数调小,下限是:资源配额里已分配的卡数与该配额里排队中的任务中单任务所需的最大卡数的较小值。若用户设置的低于这个数,则给出报错提示。
【启动/停止】操作
在列表右侧【操作】列,点击【更多】会出现下拉菜单,展示了具体的操作项,选择【启动/停止】,点击即可,需注意:
1)停止资源配额:则不可以继续往该资源配额里提交任务,存量任务还是会执行完。
2)启动资源配额:则可以继续向该队列里提交任务。
【删除】操作
前置条件:当前资源配额的状态处于停止状态
在列表右侧【操作】列,点击【更多】会出现下拉菜单,展示了具体的操作项,选择【删除】,点击即可,需注意:
只有状态是已停止的资源配额,才能进行删除操作,且当用户执行删除操作时,系统会检查当前配额的存量任务是否都执行完毕,若存在未运行结束的任务,则不能删除,给出报错提示,可等待任务执行完毕后再删除,或者将任务迁移后再删除。若不存未运行结束的任务,则可以删除。资源配额删除后,底层的资源释放。
使用资源配额
前置条件
资源配额使用前,需要关联工作空间,关联工作空间共有两种方式,一是创建配额时关联,具体参见创建资源配额,二是在工作空间内关联,具体参见工作空间关联资源配额。
已进入资源配额所关联的工作空间内
资源配额所选负载类型需要包含对应任务类型,如开发机,训练任务
以创建训练任务为例,在创建训练任务的资源配置模块,可以选择资源配额来创建训练任务,资源配额将为训练任务提供所需资源,若当前工作空间关联了多个资源配额,在此次可以自由选择需要的资源配额。因为同一专属集群下的资源配额之间可以互相借用资源(创建配额时可以设置是否允许借用别的配额资源以及是否允许别的资源配额借用自身资源),所以,只要同一专属集群下的其他资源配额有足够资源出借,即使训练任务所需资源超出了当前资源配额的剩余资源,训练任务也是可以借用其他配额资源来进行任务训练的。
附表:资源配额与队列的区别
资源配额和队列都是对集群资源的一种自定义分配方式,具体区别如下:
类型 | 定义 | 区别 |
---|---|---|
队列 | 将集群资源划分给队列,提交给队列的任务将使用volcano进行资源调度;同一集群下的队列之间无法相互借用各自的闲置资源 |
1.默认集群自带默认队列,无需用户创建 2.专属集群资源的使用需要用户创建队列
1.在默认工作空间内关联队列,关联后,在默认工作空间内作业可以使用队列资源(仅默认工作空间可使用队列)
1.所有资源池都支持 注:后续产品迭代会逐步取消队列,建议使用资源配额 |
资源配额 | 将集群资源在逻辑层面进行了资源配额划分,集群资源划分与资源调度进行了解耦,提交给资源配额的任务将通过资源调度层进行资源调度;根据创建资源配额时的设置,同一集群下的资源配额之间可以进行闲置资源借用 |
1.专属集群资源的使用需要用户创建资源配额(默认集群无法使用资源配额,只有默认队列)
1.在非默认工作空间内关联资源配额,关联后,在非默认工作空间内作业可以使用资源配额资源(仅非默认工作空间可使用资源配额)
1.仅杭州7资源池支持
|