数据清洗可对原始数据进行异常清洗、文本过滤、去重以及隐私信息去除等操作,解决数据规范性、合规性、一致性及重复等问题,提升数据质量,优化模型训练效果。
数据准备
目前只支持对「指令微调」类型的标注数据集进行清洗,数据清洗前,请先到「我的数据集-标注数据集」模块下,创建「大语言-SFT-指令微调」类型的数据集。详见:我的数据集-标注数据集
新建数据清洗任务
从清洗任务列表点击【新建清洗任务】到新建页面,填写任务名称、选择数据集、配置字段和算子后提交即可。
处理前数据:仅支持指令微调类型的标注数据集,可点击【前往导入数据集】,跳转至「我的数据集」模块创建数据集。
处理后数据:系统自动新建数据集。
处理数据集字段:默认全选,可自行勾选要清洗的数据集字段。
算子选择:可选择删除敏感信息、删除无效字符、长度过滤三种清洗算子,可根据数据集内容和实际需求进行开启或关闭。
集群:选择所属集群。
队列:选择支持的队列。
算力申请:
资源规格默认8C 16G。
master节点:管理节点,用于分配数据清洗任务,默认为1。
worker节点:负责执行具体的数据清洗任务,默认为1,可根据数据集大小调整节点数量,节点数量越多清洗任务速度越快,一般小规模数据集节点为1即可。
数据清洗任务管理
通过该模块功能,可以对数据清洗任务进行管理,包括查看任务详情、查看结果、删除、重新启动等操作。
主要操作项:
查看任务详情:点击任务名称,可跳转至「数据清洗任务详情」页面,点击【清洗日志】,可查看具体任务日志记录。
查看数据来源/数据流向:点击两个字段下的数据集名称,即可跳转至我的数据集页面,于「标注数据集」分类下,会自动筛选出对应的数据集。
查看结果:点击跳转至我的数据集页面,于「标注数据集」分类下,会自动筛选出结果数据集,清洗完成的数据集为导入完成状态。
复制:点击可复制当前数据清洗任务,任务名称自动变更。
日志:点击可直接跳转至任务详情页中「清洗日志」分类下。
删除清洗任务:点击【删除】后,确定删除即可。
重新启动:当任务被手动终止,或者清洗任务失败,可点击重新启动任务。
终止任务:提交任务后,可手动终止对应清洗任务。
后续操作
数据清洗任务完成后,可将清洗后的数据集用于模型精调、训练等任务。