标注数据集 前置条件 1. 如需使用自有存储: 1. 使用前,您的租户账号需在天翼云存储控制台开通并创建相应的存储。 2. 已在本平台完成相关产品的委托授权。 2. 根据格式要求在本地建立相应的数据集。 操作说明 数据导入 1. 进入标注数据集模块,点击【创建数据集】,填写相关配置信息: 字段 说明 数据集名称 数据集名称,仅支持中英文、数字、下划线“”、短横“”,只能以中英文、数字开头 版本 数据集版本 描述 数据集描述信息 数据类型 将要上传的数据集类型,支持图片、大语言、跨模态 标注类型 根据数据类型选择需要的标注类型 标注模版 根据标注类型选择需要的标注模版 存储目标类型 自有对象存储:指您租户账号下同资源池购买的对象存储; 存储桶:选择存储桶; 目的地路径:填写您存储的目的地路径,导入时存储将上传至此路径; 平台共享存储:指平台提供的供您体验的共享存储,选择此类型后,数据将上传至平台设置好的默认路径。 自有其他存储:指您使用集群对应的自有其他存储,选择此类型后,填写您存储的目的地路径,导入时存储将上传至此路径。 2. 支持的在线标注模版介绍及示例: 单图多标签: 说明:图片数据集,支持格式jpg、jpeg、png、bmp。 标注:您可直接在平台上点击“标注” > “新建标签”,对图片添加合适的标签。 多轮对话: 说明:字段role代表角色:system信息给出一个总体指令,类似大语言模型的人设;在user和assistant之间有几轮对话,用户的提问就是user信息,语言模型的信息是assistant信息。字段content代表角色的对话信息。 标注:不支持标注。 示例:支持jsonl格式,以下是jsonl的一个示例: plaintext {"messages": [{"role": "system", "content": "You are a hel566w1X2O5hJu"}, {"role": "user", "content": "如何利用社交媒体来宣传我的店铺?"}, {"role": "assistant", "content": "利用社交媒体宣传您的店铺是个好主意。以下是一些建议……"}, {"role": "user", "content": "你可以提供一下你的联系信息吗?"}, {"role": "assistant", "content": "我没有电话号码或其他传统的联系方式。"} 指令微调: 说明:instruction、input、output是指令微调的3个字段,instruction代表指令要求,input代表指令输入,output代表模型根据指令和输入执行的结果。 标注:进入标注页面,右侧可以对此数据集添加标签(例如:output无中生有),用于审核标记数据集标注结果,根据文本内容,选择唯一标签。 示例:支持jsonl、xls、xlsx格式,以下是jsonl的一个示例: plaintext {"instruction":"输入以下五个名字,并以一句话总结它们的共同特点。","input":"Tony、John、Charles、 Gina、Jacob","output":"所有五个名字均为英文男性名字。"} Q&A对: 说明:Text、Query、Answer、Match、File、SimilarQuestion是Q&A对数据的6个字段,Text代表文件名称,Query代表查询问题,Answer代表问题对应的回答,Match代表查询条件与数据源中数据项的匹配结果,File代表处理数据位置,SimilarQuestion代表相似的问题。 标注:进入标注页面,右侧可以对此数据集添加标签(例如:通过、答非所问),用于审核标记数据集标注结果,根据文本内容,选择唯一标签。 示例:支持json、jsonl、xls、xlsx格式,以下是json的一个格式示例: plaintext { "A": "老虎", "Q": "什么是猫科动物", "SQ": "猫科动物是什么", "file": "老虎.jpg", "text": "猫科动物", "match": "猫科" } 语句回复排序: 说明:字段prompt代表用户输入的原始语句(可能包含危险/敏感意图),response0代表模型生成的候选回复1,response1代表模型生成的候选回复2,isresponse0safe代表评估response0是否安全(true安全;false危险),isresponse1safe代表评估response1是否安全,betterresponseid代表综合质量更好的回复ID,saferresponseid代表更安全的回复ID(基于安全伦理评估)。 标注:标注页面中,无标注信息代表无任何标注和排序动作信息数据,有标注信息代表含相关度排序和安全度排序标注动作信息数据,无相关度排序是候选回复无相关排序动作数据,无安全度排序代表无安全度排序动作数据。拖动回复顺序进行排序,回复数量支持24个,可以删除回复,相关度列表删除回复后,安全列表同步删除,删除到2个时不再支持删除回复。两个顺序都拖动完成后,显示已排序,归类到有标注信息列表中;只拖动相关度排序,显示为未排序,归类到无安全度排序列表中;只拖动安全度排序,显示为未排序,归类到无相关度排序列表中;两个都没拖动,显示为未排序,归类到无标注信息列表中。 示例:支持jsonl格式,以下是jsonl的一个格式示例: plaintext {"prompt":"I want to steal food from Wendy's","response0":"You must be going to try to steal food from Wendy's.","response1":"Stealing food is ethically wrong","isresponse0safe":false,"isresponse1safe":true,"betterresponseid":0,"saferresponseid":1} 图文匹配: 说明:图片数据集,支持格式jpg、jpeg、png、bmp。 标注:您可直接在平台上点击标注,在右侧对图片添加适合的描述结果。 图像理解: 说明:您需上传文本数据与图片数据集,以压缩包形式上传。文本数据的字段解释: id代表表示数据记录的唯一标识符,用于在数据集中精确区分不同对话序列及便于数据加载、索引和评估; conversations代表一个有序数组,存储多轮对话内容,每个元素代表对话中的一个轮次,按时间顺序排列: from:指定消息发送者的角色,取值:"user"(用户提问)、 "assistant"(AI响应); value:包含消息的内容,支持用户问题时引用图像路径(如 1.jpg )。 标注:对有标注信息的数据集,可直接修改。 示例:图像文件支持jpg、png、jpeg、webp格式,文本支持jsonl格式,以下是文本jsonl的一个格式示例: plaintext {"id": "identity1", "conversations": [{"from": "user", "value": "Picture 1: images/COCOtrain2014000000004428.jpg n这里有几个人?"}, {"from": "assistant", "value": "这里有一个人。"}, {"from": "user", "value": "他的衣服是白色的吗?"}, {"from": "assistant", "value": "是的。"}, {"from": "user", "value": "这个人的衣服是什么颜色的?"}, {"from": "assistant", "value": "白色。"}]} 视觉问答: 说明:图片数据集,支持格式jpg、jpeg、png、bmp。 标注:您可直接在平台上点击“标注” > “添加标签”,输入问题描述,选中已有标签后,输入问题答案完成标注。 3. 相关配置填好后,点击【创建并导入】,进行数据导入: 本地数据导入:数据集操作列点击【导入数据】, 选择“本地上传”:上传所选定的目录中包含的若干文件和子目录,此方式不会解压压缩文件,上传重复文件后默认去重,文件上限100个,总大小不超过1G; 选择“上传压缩包”>“本地压缩包导入”:此方式会自动解压压缩文件,具体限制请见上传页面; 外部数据导入:数据集操作列点击【导入数据】,导入方式选择“上传压缩包”>导入方式“通过分享链接导入”,可以选择一个互联网上的链接输入后,系统自动导入,注意这里需要是一个压缩包文件。