功能介绍
对于某些行业客户,在大模型训练时会涉及到保密数据的处理问题,比如需要避免用户下载到本地造成数据泄漏。针对这一问题,平台推出了特色的数据保密功能,以应对用户下载或拷贝保密数据的行为。
平台主要从数据集限制+操作审计两方面进行限制:
数据集限制:保密数据相关的实现依赖平台数据集功能,将需要保密的数据集打上保密标签,对此数据集进行限制。
容器外,根据用户身份严格限制平台的数据操作权限;
容器内,创造断外网的沙箱环境防止下载到本地,并严格限制读写,任务执行者仅可写入到管理员可控的安全存储中。
云审计:将用户的所有命令操作记录到云审计,并对可能涉及拷贝的敏感操作进行标识,给到客户主管人审核确认。
前置条件
存储准备:已在天翼云开通对象存储或HPFS,并在本平台完成委托授权。
其他限制:您是管理员用户(包括主账号、IAM管理员、工作空间管理员)。
操作说明
1. 创建仅管理员可控的安全存储
保密数据集可工作的一个重要前提是限制写操作仅写入到保密输出路径中,这就要求输出路径是慧聚管理员完全可控的存储。
管理员(需有存储控制台相应权限)首先登录存储控制台,根据所使用的存储类型(ZOS或HPFS),创建保密数据集与保密输出路径。保密数据集是指您含有保密信息的数据集;保密输出路径是指当用户使用保密数据时,您指定的写入路径,建议您创建一个空文件夹专用于输出,并对不同的任务创建不同的输出路径。
注意:主账号天然是各产品的管理员,拥有所有权限。但对于子账号,在慧聚拥有管理员权限不代表在存储控制台拥有管理员权限,子账号如需存储控制台权限,需要主账号进入IAM授予相应的权限。建议您只给信任的用户授予存储控制台的操作权限,否则可能造成数据泄漏等事故。
2. 创建保密数据集
管理员用户登录智算平台,进入“我的数据集”>“基础数据集”,选择需要创建的类型,点击【创建普通/智算存储数据集】,填写保密数据集的路径,并在特殊配置中开启【设为保密数据集】按钮。可见范围对需要的用户设置,用户才可使用,保密相关的数据集读写权限系统固定。
保密数据集仅支持读操作,禁止写操作,运行后的输出将单独写入到保密输出路径;数据挂载到容器禁止访问外网。
3. 创建保密输出路径
若您已设置保密数据集,您还需再创建一个数据集(建议保密数据集和输出路径设为两个数据集),专门用于存储保密数据集的输出,并谨慎设置相关权限:
若您使用了自有存储,建议您只给自己或管理者读写权限(第一步操作);
此数据集的可见范围,建议您只对需要的用户设置。
点击【创建普通/智算存储数据集】,填写保密数据集的输出路径,可见范围建议与保密数据集设置一致,并在特殊配置中开启【设为保密数据集的输出路径】按钮,同时可以选择是否上报云审计及上报频率。
云审计:开启云审计后,使用此保密输出数据集的任务在容器内的命令操作将会被记录并发送到云审计,并标识拷贝等高危操作。
审计频率:审计频率是指审计上报的时间间隔,支持输入1-1440的整数。如果您设置的时间间隔太短,频繁扫描将会增加损耗,如时间太长,上报的事件信息较密集,建议您根据业务实际情况填写合适的时间。
本平台将自动为您创建此数据集在容器内的挂载路径,并写入PROTECT_OUTPUT_DIR_PREFIX环境变量,您可在代码中直接引用此环境变量。
4. 任务中使用保密数据集
支持在开发机、训练任务中使用保密数据,下面以开发机任务为例,为您展示保密数据集的相关使用。
1. 管理员设置可见范围后,可见范围内的用户可以选择需要的保密数据集使用,当选择的数据集中含有保密数据集时,环境配置中将自动跳出保密输出路径配置,用户选择可见的保密输出路径。本平台将自动为您创建保密输出在容器内的挂载路径,并写入PROTECT_OUTPUT_DIR_PREFIX环境变量,用户可在代码中直接引用此环境变量。
2. 开发机查看:列表中对含有保密设置开发机的保存数据操作进行限制,仅管理员用户可操作数据存储。且进入开发机后即创造沙箱环境,不通公网。
3. 上报云审计:如果您的保密输出路径开启了云审计,相关联的任务将按照设置将用户操作上报云审计,若识别到可疑操作将进行提醒,管理员可进入云审计事件列表查看。