数据安全专区-数据脱敏能力具有广泛的数据库支持、出色的性能和良好的可扩展性。它采用独特的脱敏与水印/溯源算法,能够高效处理敏感数据,实现去标识化和匿名化。多种处理方式如固定值替换、置空、乱序、保留统计特征等确保了在不改变现有业务逻辑的前提下,脱敏后的数据仍能保留原有业务逻辑特征。
数据安全专区支持软硬件一体机或虚拟化部署(保证与生产环境和开发 第三方测试环境前后路由可达即可)。生产库中的原始数据,经过数据脱敏清洗后离线分发至测试环境,所有敏感数据全部在内存中处理,可保证整个环节敏感数据不落地。
主要功能
敏感数据自动发现
数据脱敏系统内置多种发现规则,支持基于数据内容的识别,不仅依赖于用户的元数据管理系统、字段名或字段注释等信息。支持用户基于自身需求自定义规则,实现对敏感数据的自动发现和标识。
同时数据脱敏系统可和数据分级分类平台进行对接,可基于行业或法律法规对敏感数据进行分类分级与梳理,便于用户按照不同级别进行脱敏算法的配置,有效避免数据的过度保护。
支持采用随机采样的方式,在采样的过程中过滤空值及脏数据。如在业务初期数据逻辑定义不规范往往会产生较多脏数据,而传统的敏感数据检索方式通常是简单过滤表中前若干条数据,无法有效避免此类脏数据的干扰。数据脱敏系统的随机采样是基于表总行数进行随机抽取,可有效避免脏数据的干扰,提高敏感数据识别的准确性。数据发现算法除常规的正则表达式、字典等,还加入了NLP算法,开箱即用70多种通用敏感字段识别算法,大幅提升了对敏感数据内容的识别和处理能力。有效避免敏感数据的误报、漏报。
丰富的脱敏算法支持
数据脱敏系统支持24大类240+种脱敏算法,适用各种业务场景主要算法支持情况如下:
置空:直接将待脱敏的信息以填充空字符或者删除的形式抹除。
乱序:在结构化数据(例如数据库)中颇为常用,对于待脱敏的列,不对列的内容进行修改,仅对数据的顺序进行随机打乱。
遮蔽:保留数据一些位置上的信息,对于敏感位置的信息使用指定的字符进行替换。
分割:保留数据一些位置上的信息,对于敏感位置的信息进行删除。
替换:使用固定值或字典映射表对敏感数据进行替换。
取整:对数值类型和日期时间类型的数据进行取整操作。
哈希:将哈希(或哈希加盐)编码后的数据作为脱敏结果输出。
仿真(保留业务含义):考虑到业务含义,则生成的数据需符合核验规则,主要包括长度、取值范围以及校验规则和校验位的计算等。
密码学:根据所选参数指定的密码学加密算法对数据进行加密。支持的加密算法有: 。
编码:根据所选参数指定的编码方式对数据进行编码。
保留类别频次特征:主要指的是反映事物类别的数据类型,具有有限个无序的值,或枚举类型,脱敏后各个类型出现的频次可保持不变。
保留数值统计特征:支持分布重建、平均、区间、标准化、归一化、添加噪声、一致性等算法(对数值型数据在脱敏后可保留数据中的高阶统计特征及数据分布特征,仍满足趋势分析要求)。
关联关系保留:支持计算关系保留、乱序关联保留、身份信息关联保留等算法(对数据在脱敏后可保留其原始的字段间关联关系)。
保留原数据:对指定的列的数据不做脱敏处理。
溯源算法:对数据本身添加仿真水印,做到精准溯源。
灵活的数据抽取
用户可基于自身需要,可灵活配置数据抽取的增量条件,数据脱敏系统可支持的增量条件包括但不限于:基于时间戳、基于主键或唯一键、基于分区或分片。
水印溯源
支持多种数据水印格式,包括并不限于伪行水印、伪列水印、脱敏水印、内容修改水印、零宽水印:
伪行 伪列水印:通过添加配置比例的数据行或数据列来插入水印信息,当数据泄漏后,通过提取伪行 伪列水印信息来进行泄漏追溯。
脱敏水印:支持基于数据本身特征脱敏水印方式,不影响业务逻辑的同时能有效的避免了水印数据被绕开。
内容修改水印算法:适用于不能影响数据的业务含义并具有较强的业务使用或分析需求的场景,同时隐蔽性要求高。
零宽水印算法:在常见办公软件(office等)或数据库管理软件(dbeaver等)打开时是不可见的,在可视宽度上是不可感知的,不易单独选中。更适用于以文件形式发放数据,在文件中的数据内容中添加水印的场景。