结构化数据的分类分级是产品核心能力。在本模块,您可以为数据源管理模块中汇总的数据源绑定分类分级任务,批量调度任务的执行周期和执行次数,查看、确认和导出分类分级结果。
该模块包括数据打标以及结果发布两个子模块,其中共性功能包括:
每个模块的列表展示了分类分级任务的各种状态和配置信息,展示字段包括:任务名称、模版、数据源名称、梳理状态、审核进度、审核员、最近审核时间等。用户可以点击列表右上角<列设置>,来控制每列的显示/隐藏状态。其中:
资产统计:该分类分级任务涉及的表数、字段数和梳理率;
梳理轮次:该分类分级任务的已梳理轮次(总轮数取决于数据量,以及任务打标方式中设置的每轮打标数量)、上轮新增梳理字段(“梳理字段”指字段的分类分级结果经过了人工确认);
执行周期:分类分级任务支持按照特定周期自动执行,默认为手动执行、不限制执行次数,用户可以通过点击操作列<任务编辑>或任务列表上方的<批量调度>按钮进行设置;
执行状态:分为待执行、执行中、完成、失败;
审核模式:
审核验收模式开启(仅审核员审核):未提交、审核中、审核打回、待发布、发布中、已发布;
审核验收模式开启(审核员审核+验收员审核):未提交、审核中、审核打回、验收中、验收打回、待发布、发布中、已发布;
审核验收模式关闭:未提交、待发布、发布中、已发布。
注意
该模块默认仅启动数据打标、结果发布功能页面,若要启用任务分配、结果审核以及结果验收功能页面,需登录SysAdmin账号,进入“系统管理 > 安全设置”页面,单击“审核验收模式”开关并在右侧下拉框选择“审核员审核+验收员审核”,启动任务分配、结果审核与结果验收功能;下拉框中选择“仅审核员审核”,仅启动任务分配、结果审核功能。
使用限制
分类分级任务默认仅启动数据打标、结果发布功能;
若要启用任务分配、结果审核以及结果验收功能页面,需登录SysAdmin账号,进入“系统管理 > 安全设置”页面,单击“审核验收模式”开关并在右侧下拉框选择“审核员审核+验收员审核”,启动任务分配、结果审核与结果验收功能;下拉框中选择“仅审核员审核”,仅启动任务分配、结果审核功能。
任务分配
任务分配功能能够将分类分级任务分配给指定的打标员,每个打标员只能看到自己分配的任务。
1.使用安全管理员账号登录数据分类分级实例。
2.在左侧导航栏选择“分类分级任务 > 结构化数据”即可进入“结构化数据”页面,在页面上方选择“任务分配”页签。
3.单击页面左上角的“分配任务”按钮,在弹出的窗口中填写相关参数。
参数 | 参数说明 | 填写样例 |
---|---|---|
任务名称 | 填写任务名称。 | Test |
数据源 | 选择所需数据源;数据源来自数据源管理中添加的数据源,已添加分类分级任务的数据源无法再次添加分类分级任务; 系统默认选择最新添加且尚未被添加分类分级任务的数据源。 | - |
行业模板 | 显示选中数据源对应的行业模板;该模板与新增数据源时设置的行业模板保持一致,如需修改,请至数据源管理页面编辑对应数据源配置。 | - |
打标员 | 显示所有用户名+角色标签;用户手动选择时,没有数据分类分级任务执行权限的用户置灰、无法选中,鼠标悬浮提示“无数据分类分级任务执行权限”。 | - |
4.填写完成后单击“确认” ,即可完成分类分级任务分配。
注意
审核验收模式开启后,数据打标页的“新增”按钮将被隐藏,并启动任务分配页面,有分配权限的用户可以使用分配任务、批量分配、删除任务功能;若审核验收模式关闭,“新增”按钮恢保持可见,并关闭任务分配页面。
数据打标
新增分类分级任务
1.使用安全管理员账号登录数据分类分级实例。
2.在左侧导航栏选择“分类分级任务 > 结构化数据”即可进入“结构化数据”页面。
3.在页面上方选择“数据打标”页签,进入数据打标页。
4.单击页面左上角的“新增”按钮,开始新增分类分级任务。
配置内容 | 说明 |
---|---|
任务名称 | 填写任务名称。 |
数据源 | 选择所需数据源;数据源来自数据源管理中添加的数据源,已添加分类分级任务的数据源无法再次添加分类分级任务; 系统默认选择最新添加且尚未被添加分类分级任务的数据源。 |
行业模板 | 显示选中数据源对应的行业模板;该模板与新增数据源时设置的行业模板保持一致,如需修改,请至数据源管理页面编辑对应数据源配置。 |
抽样策略 | 填写每张表抽取数据数量(默认值100条,可设置100–1000之间的整数),设置一个较小的数值,有利于提升扫描性能; |
执行逻辑 | 选择执行逻辑,用户可以选择使用规则/模型/框架扫描,默认勾选规则扫描和框架扫描;使用模型扫描或框架扫描时,支持设置置信度,使得字段分类分级结果的置信度超过该数值时,字段梳理状态自动从“未梳理”变更为“已梳理” |
打标方式 | 选择打标方式
该模式为表打标模式,具体如下: 表打标模式:按照系统推荐的数据表顺序,对系统自动打标结果进行批量梳理和确认,用户可以设置每轮打标数量(默认值100张,可设置1-1000之间的整数)。 |
执行周期和执行次数 | 执行周期:指数据源同步的周期,可选项包括手动执行(默认状态)、每天、每周、每月。当周期为“每天”时,可以设置具体执行时间(精确到分钟);当周期为“每周”“每月”时,可以设置具体的执行日期和时间(精确到分钟); 执行次数:默认为“手动执行”;支持自定义执行次数。其中,“0”表示已执行次数,“1”表示自定义执行次数。 |
5.填写完成后单击“保存”,即可新建分类分级任务。
执行分类分级任务
选择需要执行的分类分级任务,单击“操作”列“开始执行”,或勾选若干任务后单击任务列表上方的“批量执行”按钮。
说明
- 选择的任务状态不能为执行中;
审核进度只能是未提交或已发布;
上述两个条件中任意一条不满足,全局提示“选择的任务状态不能为执行中或审核发布中”;
建议在数据源管理页面中的数据源同步后,再执行分类分级任务;未同步的数据源因尚未获取相关数据,无法真正开启分类分级流程,系统日志将提示“[XX扫描异常]:请先同步数据源信息”,并自动开始同步数据源,分类分级任务列表中任务执行状态变更为“同步中”。
分类分级预测
开始执行分类分级任务后,任务会进入分类分级预测状态中。
分类分级预测中,系统将根据任务编辑中设置的执行逻辑,执行规则匹配、模型分析或框架解析中的一种或若干种扫描逻辑。
扫描中,系统会自动预测字段的分类分级结果。您可以单击页面底部的“结果查看”,查看当前分类分级结果。若字段A的分类分级预测结果满足特定要求(如置信度高于阈值),则其梳理状态自动变更为“已梳理”,字段A不会进入第二步人工校验打标的推荐打标列表。
分类分级预测完成后,单击页面底部的“下一步”,可进入人工校验打标环节。
人工校验打标
系统将根据任务编辑中设置的打标方式及每轮打标数量,按照算法推荐顺序呈现一定数量的数据表(“推荐表模式”)或字段(“推荐列模式”)。
人工校验打标页面包括任务进度总览、搜索区、数据表目录、字段列表、分类分级打标区五部分;
处理完当前表中的所有字段后,自动切换至下一张表;
用户可以点击数据表目录或点击表上方“<”“>”图标,手动切换其他表格;
快速打标操作:
1.选中字段:单击字段所在行(推荐列模式)或字段左侧勾选框(推荐表模式),选中字段;
2.快速打标:单击推荐打标标签,分类、分级输入框联动填入相应信息并自动确认,完成快速打标;
3.手动修改:支持手动修改分类分级结果,修改完成后需单击“确认”,修改生效。
延迟打标操作:
当选择内置小模型分析进行分类分级任务时,即可触发延迟打标功能,延迟打标的操作步骤如下:
1.定位字段:若字段分类分级结果为空,鼠标移动到字段所在行,行右端显示“延迟打标”;
2.标记延迟打标:单击“延迟打标”,分类分级列自动填充“延迟打标”标签(延迟打标字段属于已处理字段,但仍然不属于已梳理字段);
3.取消延迟打标:选中字段后快速打标或手动打标,自动取消延迟打标标记;若用户在结果查看页修改单个字段的分类分级结果,该字段的延迟打标标记也会自动取消。
说明
您随时可以通过页面右上角的“延迟打标字段数”按钮,查看延迟打标的真实字段数及字段详情。
其中,若表A中所有字段均被赋予分类分级结果或标记为延迟打标,则后续几轮人工校验打标中系统不再推送表A。
打标上下文支持:
界面提供的打标上下文信息主要来自元数据关键信息和系统预测结果两方面。
1.元数据关键信息包括但不限于字段列表中的字段名/注释、表名/注释、数据样本;用户可以使用字段名/注释、表名/注释等搜索项,对系统本轮推荐的全部字段进行查询。
2.系统预测结果可以作为打标参考,有以下两类来源:
第一步分类分级预测中置信度未达到设置阈值的结果,如模型扫描预测、框架扫描预测、规则扫描预测。前三类提供置信度最高的三个参考结果;
该字段所属表内常用的分类分级结果,按使用率降序排列,便利用户根据表内其他字段的打标结果,反推本字段的打标结果。
完成打标操作后,单击“下一步”进入打标纠错环节。
打标结果纠错
在结果纠错操作中,您需要对系统发现的疑似存在潜在错误的字段分类分级结果做最终确认,。
初始结果列是字段的原打标结果,“规则”“框架”“模型”“恒脑”“聚类”等标签对应该结果的识别方式。纠错结果列,系统默认提供一个推荐纠错结果。纠错方式如下:
1.若初始结果正确、默认纠错结果错误:选中初始结果,单击“操作”列的“确认”;
2.若初始结果错误、默认纠错结果正确:选中纠错结果,单击“操作”列的“确认”;
3.若初始结果和当前纠错结果均错误:单击纠错结果旁的修改图标,在侧边弹窗中修改字段的分类、分级结果,并单击“确认”,退出后系统自动选中纠错结果,单击“操作”列的“确认”;
4.批量纠错:为字段A选中初始结果或纠错结果后,系统会自动将字段A加入待确认名单,用户可以单击左上方“批量确认”按钮,批量确认选择结果;初始结果和纠错结果列的表头提供复选框,可用于使未确认结果的字段,快速全选初始结果或纠错结果。
已确认的字段,其确认按钮显示“已确认”并置灰。已确认字段(如确认选择默认纠错结果)支持修改确认结果(如改为选择初始结果或编辑了新的纠错结果)并重新确认;修改后,若不确认,则以上一次确认的结果为准。
完成打标结果后,单击页面下方的“进入下一轮”重复上文中的操作直至出现“结束任务”按钮完成打标任务。
分类分级结果提交
在确认完分类分级结果后,选择需要提交的分类分级任务,单击“操作”列的“更多”,选择提交任务,或勾选分类分级任务并单击“批量提交”,即可将提交的任务结果自动同步到结果审核列表页面。
说明
批量提交选择的任务只能是“已梳理+审核进度未提交”或“已梳理+审核进度已发布,否则全局提示“选择的任务状态不能为未梳理或审核发布中”。在系统管理中未开启结果审核功能时,成功提交后直接进入待发布状态,后续通过结果发布实现进一步操作。
结果审核
基于数据打标提交的分类分级任务结果,管理员可以对分类分级任务结果进行审核。
1.使用安全管理员账号登录数据分类分级实例。
2.在左侧导航栏选择“分类分级任务 > 结构化数据”即可进入“结构化数据”页面。
3.在页面上方选择“结果审核”页签,进入结果审核页。
4.单击“操作”列的“结果审核”按钮,开始数据打标结果审核。
5.在“分类分级结果审核页”,您可以查看搜索区、字段列表、新增错误类型区、编辑区、任务信息概览五部分。
6.确认审核信息后,根据审核结果选择“审核不通过”或“审核通过”。