保密数据集最佳实践 功能介绍 对于某些行业客户,在大模型训练时会涉及到保密数据的处理问题,比如需要避免用户下载到本地造成数据泄漏。针对这一问题,平台推出了特色的数据保密功能,以应对用户下载或拷贝保密数据的行为。 平台主要从数据集限制+操作审计两方面进行限制: 数据集限制:保密数据相关的实现依赖平台数据集功能,将需要保密的数据集打上保密标签,对此数据集进行限制。 容器外,根据用户身份严格限制平台的数据操作权限; 容器内,创造断外网的沙箱环境防止下载到本地,并严格限制读写,任务执行者仅可写入到管理员可控的安全存储中。 云审计:将用户的所有命令操作记录到云审计,并对可能涉及拷贝的敏感操作进行标识,给到客户主管人审核确认。 前置条件 1. 存储准备:已在天翼云开通对象存储或HPFS,并在本平台完成委托授权。 2. 其他限制:您是管理员用户(包括主账号、IAM管理员、工作空间管理员)。 操作说明 1. 创建仅管理员可控的安全存储 保密数据集可工作的一个重要前提是限制写操作仅写入到保密输出路径中,这就要求输出路径是智算平台管理员完全可控的存储。 管理员(需有存储控制台相应权限)首先登录存储控制台,根据所使用的存储类型(ZOS或HPFS),创建保密数据集与保密输出路径。保密数据集是指您含有保密信息的数据集;保密输出路径是指当用户使用保密数据时,您指定的写入路径,建议您创建一个空文件夹专用于输出,并对不同的任务创建不同的输出路径。 注意:主账号天然是各产品的管理员,拥有所有权限。但对于子账号,在本平台拥有管理员权限不代表在存储控制台拥有管理员权限,子账号如需存储控制台权限,需要主账号进入IAM授予相应的权限。建议您只给信任的用户授予存储控制台的操作权限,否则可能造成数据泄漏等事故。
来自: