基础数据集 创建数据集 1. 创建普通存储数据集:登录智算服务控制台,单击左侧菜单栏的“智算资产”>“我的数据集”菜单项进入我的数据集模块,点击“基础数据集“菜单,选择“普通/智算存储”,点击【+创建普通/智算存储数据集】,进入创建页面 2. 填写相关配置并提交。基础数据集创建目前仅支持使用自有存储,创建完成后,自动为您创建拼接此数据后缀的容器内挂载路径。 类型 字段 说明 存储基本信息 数据集名称 数据集名称,不超过25个字符 存储基本信息 描述 数据集描述信息 权限配置 可见范围 读写权限范围,支持设置仅文件所有者可见、指定工作空间内的算法开发角色可见两种权限策略 存储位置 自有ZOS存储 您租户账号下的自有ZOS存储,若您还未创建,您可点击【去创建】跳转到存储控制台进行创建。 存储桶:选择您自有的ZOS存储桶名称; 数据源路径:您对应存储的具体的目录路径,您可根据提示示例进行填写,平台会对您填写路径的存在性进行校验,若校验不通过会进行提示,并禁止提交。对于管理员用户,此项选填;对于普通子用户,此项必填。 存储位置 自有HPFS存储 您租户账号下的自有HPFS存储,若您还未创建,您可点击【去创建】跳转到存储控制台进行创建。 HPFS名称:选择您自有的HPFS名称; 数据源路径:您对应存储的具体的目录路径,您可根据提示示例进行填写,平台会对您填写路径的存在性进行校验,若校验不通过会进行提示,并禁止提交。对于管理员用户,此项选填;对于普通子用户,此项必填。 存储位置 自有其他存储 您租户账号下的自有其他存储。 数据源路径:您对应存储的具体的目录路径,您可根据提示示例进行填写,此项必填。 特殊配置 设为保密数据集 仅存储委托的自有ZOS与自有HPFS类型支持该功能。 对于某些行业客户,在大模型训练时会涉及到保密数据的处理问题,比如需要避免用户下载到本地造成数据泄漏,针对这类问题,平台推出了特色的数据保密功能,以应对用户下载或拷贝保密数据的行为。相关配置仅对管理员用户开放,且此功能会增加操作复杂度和资源占用,建议您只在需要的时候使用。 开启此按钮后,可将本数据集设置为保密数据集。开启保密后,此数据集将:1)仅支持读操作,禁止写操作,运行后的输出将单独写入到保密输出路径;2)数据挂载到容器时禁止访问外网。 特殊配置 设为保密数据集的输出路径 若您已设置保密数据集,您还需再创建一个保密输出数据集,专门用于存储保密数据集的输出,并谨慎设置相关权限:1)若您使用了自有存储,建议您只给自己或管理者读写权限(需前往对应存储控制台设置),即您需要确保这是由您完全可控的存储;2)此数据集的可见范围(在本页面的权限配置设置),建议您只对需要的用户设置。 特殊配置 云审计 您设置好保密输出路径后,会自动弹出云审计设置,此设置对使用了对应保密输出数据集的任务生效。开启云审计后,使用此保密输出数据集的任务在容器内的命令操作将会被记录并发送到云审计,并标识拷贝等高危操作。 特殊配置 审计频率 您开启云审计后,会弹出审计频率设置。审计频率是指审计上报的时间间隔,支持输入11440的整数。如果您设置的时间间隔太短,频繁扫描将会增加损耗,如时间太长,上报的事件信息较密集,建议您根据业务实际情况填写合适的时间。