前置条件
使用前,您的租户账号需在天翼云存储控制台开通并创建相应的存储 ,详见对象存储快速入门、并行文件服务快速入门。
已在本平台完成相关产品的委托授权。
操作说明
基础数据集统一走挂载模式,需要您提前在存储的管理面完成数据导入、记录路径等前置操作,您在本平台只需填写已有存储的路径,平台将在任务中自动挂载该路径。基础数据集的存储方式包括普通存储、智算存储与其他存储:
普通存储(ZOS):
账号自有存储:指租户在天翼云官网同资源池下开通的对象存储,用于数据长期存储和备份,完成委托授权后您可在本平台直接使用。
平台共享存储:本平台赠予您体验的存储,默认集群额度为 300G,是所有用户共享的存储,您的用量受限且不支持扩容,超出用量后需自行前往对象存储购买自有存储。平台后续将逐渐废弃此类存储,建议您直接使用自有存储。
智算存储(HPFS):
账号自有存储:指租户在天翼云官网同资源池下开通的HPFS存储,常用于大模型的开发和训练等数据密集性的高性能计算场景,完成委托授权后您可在本平台直接使用。如需使用开发机和训练任务功能,请提前将数据、模型、代码导入智算存储中。训练时需要与文件存储频繁交互,请确保存储状态可用且充足。
平台共享存储:您在本平台开通的共享存储,默认集群额度为 512 G,是所有用户共享的存储,您的用量受限且不支持扩容,超出用量后需自行前往HPFS购买自有存储。平台后续将逐渐废弃此类存储,建议您直接使用自有存储。
其他存储:天翼云的集群分为两类:天翼云自建集群、与合作伙伴共营的其他集群,其中,自建集群对应自有存储,其他集群对应其他存储。其他存储便是指其他集群中对应配置的存储。该存储与集群强相关,您在开通相应的集群后平台会自动打通与存储的关联,不需要进行委托授权步骤。
上述可使用的存储类型都与集群强相关,例如集群A支持自有ZOS、自有HPFS,集群B支持自有其他存储,您不能在集群B下使用自有ZOS。您可切换顶部集群查看该集群支持的存储类型,也可事先联系您的客户经理了解集群的存储类型支持情况。
创建数据集
创建普通存储数据集:登录智算服务控制台,单击左侧菜单栏的“智算资产”>“我的数据集”菜单项进入我的数据集模块,点击“基础数据集“菜单,选择“普通/智算存储”,点击【+创建普通/智算存储数据集】,进入创建页面
填写相关配置并提交。基础数据集创建目前仅支持使用自有存储,创建完成后,自动为您创建拼接此数据后缀的容器内挂载路径。
类型
字段
说明
存储基本信息
数据集名称
数据集名称,不超过25个字符
描述
数据集描述信息
权限配置
可见范围
读写权限范围,支持设置仅文件所有者可见、指定工作空间内的算法开发角色可见两种权限策略
存储位置
自有ZOS存储
您租户账号下的自有ZOS存储,若您还未创建,您可点击【去创建】跳转到存储控制台进行创建。
存储桶:选择您自有的ZOS存储桶名称;
数据源路径:您对应存储的具体的目录路径,您可根据提示示例进行填写,平台会对您填写路径的存在性进行校验,若校验不通过会进行提示,并禁止提交。对于管理员用户,此项选填;对于普通子用户,此项必填。
自有HPFS存储
您租户账号下的自有HPFS存储,若您还未创建,您可点击【去创建】跳转到存储控制台进行创建。
HPFS名称:选择您自有的HPFS名称;
数据源路径:您对应存储的具体的目录路径,您可根据提示示例进行填写,平台会对您填写路径的存在性进行校验,若校验不通过会进行提示,并禁止提交。对于管理员用户,此项选填;对于普通子用户,此项必填。
自有其他存储
您租户账号下的自有其他存储。
数据源路径:您对应存储的具体的目录路径,您可根据提示示例进行填写,此项必填。
特殊配置
设为保密数据集
仅存储委托的自有ZOS与自有HPFS类型支持该功能。
对于某些行业客户,在大模型训练时会涉及到保密数据的处理问题,比如需要避免用户下载到本地造成数据泄漏,针对这类问题,平台推出了特色的数据保密功能,以应对用户下载或拷贝保密数据的行为。相关配置仅对管理员用户开放,且此功能会增加操作复杂度和资源占用,建议您只在需要的时候使用。
开启此按钮后,可将本数据集设置为保密数据集。开启保密后,此数据集将:1)仅支持读操作,禁止写操作,运行后的输出将单独写入到保密输出路径;2)数据挂载到容器时禁止访问外网。
设为保密数据集的输出路径
若您已设置保密数据集,您还需再创建一个保密输出数据集,专门用于存储保密数据集的输出,并谨慎设置相关权限:1)若您使用了自有存储,建议您只给自己或管理者读写权限(需前往对应存储控制台设置),即您需要确保这是由您完全可控的存储;2)此数据集的可见范围(在本页面的权限配置设置),建议您只对需要的用户设置。
云审计
您设置好保密输出路径后,会自动弹出云审计设置,此设置对使用了对应保密输出数据集的任务生效。开启云审计后,使用此保密输出数据集的任务在容器内的命令操作将会被记录并发送到云审计,并标识拷贝等高危操作。
审计频率
您开启云审计后,会弹出审计频率设置。审计频率是指审计上报的时间间隔,支持输入1-1440的整数。如果您设置的时间间隔太短,频繁扫描将会增加损耗,如时间太长,上报的事件信息较密集,建议您根据业务实际情况填写合适的时间。
管理数据集
查看文件:对于共享存储,点击可查看数据集中的文件列表;对于自有存储,点击可跳转至存储控制台查看您有权限的文件。
删除:只有导入成功、导入失败、创建成功、创建失败的数据集支持删除操作。如果有保密设置,则仅管理员用户可操作;无特殊设置,则创建人及管理员用户可操作。该数据集若正在被开发机和训练任务使用,则删除数据集后所有使用中和已完成的开发机和训练任务对应挂载路径下的文件也将被清空。