模型评估旨在对平台精调生成的大模型输出效果进行评估,当前支持对“模型精调”运行完成的模型进行评估。
前置条件
数据准备:创建支持评估的指令微调标注数据集,并发布成功,详见4.7.2.3 标注数据集。
模型准备:您可从模型广场选择支持评估的模型直接发起评估;也可在支持评估的模型完成模型精调后,再在评估页面创建评估任务。
新建评估任务
您可通过以下方式使用:
入口1:进入“模型广场” ,在支持评估的模型卡片上点击【评估】按钮,进入到创建评估页面;
入口2:进入“模型工具”>“模型评估”菜单,进入评估任务列表,点击【新建评估任务】,进入创建页面;
入口3:进入“智算资产”>“我的模型”菜单,在我的模型菜单页面中,找到支持评估的模型,点击【评估】按钮,进入到创建评估页面。
进入创建评估任务页面后,填写相关配置:
类型
字段
说明
基本信息
任务名称
评估任务名称,仅支持英文、汉字、数字、-、_,且只能以中英文、数字开头,不超过60个字符,不可重名
模型类型
选择评估的模型类型,目前支持大语言模型
描述
该任务的描述,300个字符以内
评估配置
待评估模型
选择待评估的模型,支持从模型广场精调后的带有评估标签的模型,目前支持Qwen2-7B-Instruct、Qwen2-72B-Instruct、Qwen1.5-32B-Chat。
评估数据集
选择用于评估的数据集,目前仅支持标注模板为指令微调且发布成功的标注数据集
评估标准
指对模型评估的效果指标,支持准确率、ROUGE-1、ROUGE-2、ROUGE-L、BLEU-4,指标的具体含义可见页面解释
停用词表
评估时自动忽略的停用词,为避免特殊字符及单词对模型效果评估的影响,可按照示例设置停用词表,评估时将自动过滤
资源部署信息
集群
选择适合的集群
队列
选择可用资源配额
资源规格
选择资源规格类型,不同的算力规格对应不同的价格
实例数量
相应资源规格的数量
点击开始评估,创建评估任务。
查看评估任务
查看详情:点击评估任务名称,在评估详情页,可以查看评估任务的详细内容,包括任务详情、事件、日志。
操作:评估任务卡片上,支持以下操作:
查看报告:任务运行完成后,可查看相应的评估报告,支持查看整体指标和错题分析;
重启:重启任务;
停止:停止评估任务;
复制:复制此评估任务配置,可以进行少量修改快速启动;
删除:删除此评估任务。