数据处理 数据清洗 数据清洗可对原始数据进行异常清洗、文本过滤、去重以及隐私信息去除等操作,解决数据规范性、合规性、一致性及重复等问题,提升数据质量,优化模型训练效果。 数据准备 目前只支持对指令微调类型的标注数据集进行清洗,数据清洗前,请先到「我的数据集标注数据集」模块下,创建「大语言SFT指令微调」类型的数据集。详见标注数据集 新建数据清洗任务 从清洗任务列表点击【新建清洗任务】到新建页面,填写任务名称、选择数据集、配置字段和算子后提交即可。 处理前数据:仅支持指令微调类型的标注数据集,可点击【前往导入数据集】,跳转至「我的数据集」模块创建数据集。 处理后数据:系统自动新建数据集。 处理数据集字段:默认全选,可自行勾选要清洗的数据集字段。 算子选择:可选择删除敏感信息、删除无效字符、长度过滤三种清洗算子,可根据数据集内容和实际需求进行开启或关闭。 集群:选择所属集群。 队列:选择支持的队列。 算力申请: 资源规格:默认8C 16G master节点:管理节点,用于分配数据清洗任务,默认为1。 worker节点:负责执行具体的数据清洗任务,默认为1,可根据数据集大小调整节点数量,节点数量越多清洗任务速度越快,一般小规模数据集节点为1即可。
来自: