文档中心

一站式智算服务平台（文档停止维护）

一站式智算服务平台（文档停止维护）

无相关产品

模型评估

更新时间 2025-07-09 18:14:49

最近更新时间: 2025-07-09 18:14:49

模型评估旨在对平台精调生成的大模型输出效果进行评估，当前支持对“模型精调”运行完成的模型进行评估。

前置条件

数据准备：创建支持评估的指令微调标注数据集，并发布成功，详见标注数据集。
模型准备：您可从模型广场选择支持评估的模型直接发起评估；也可在支持评估的模型完成模型精调后，再在评估页面创建评估任务。

新建评估任务

您可通过以下方式使用：
1. 入口1：进入“模型广场” ，在支持评估的模型卡片上点击【评估】按钮，进入到创建评估页面；
2. 入口2：进入“模型工具”>“模型评估”菜单，进入评估任务列表，点击【新建评估任务】，进入创建页面；
3. 入口3：进入“智算资产”>“我的模型”菜单，在我的模型菜单页面中，找到支持评估的模型，点击【评估】按钮，进入到创建评估页面。

进入创建评估任务页面后，填写相关配置：

类型	字段	说明
基本信息	任务名称	评估任务名称，仅支持英文、汉字、数字、-、_，且只能以中英文、数字开头，不超过60个字符，不可重名
	模型类型	选择评估的模型类型，目前支持大语言模型
	描述	该任务的描述，300个字符以内
评估配置	待评估模型	选择待评估的模型，支持从模型广场精调后的带有评估标签的模型，目前支持Qwen2-7B-Instruct、Qwen2-72B-Instruct、Qwen1.5-32B-Chat。
	评估数据集	选择用于评估的数据集，目前仅支持标注模板为指令微调且发布成功的标注数据集
	评估标准	指对模型评估的效果指标，支持准确率、ROUGE-1、ROUGE-2、ROUGE-L、BLEU-4，指标的具体含义可见页面解释
	停用词表	评估时自动忽略的停用词，为避免特殊字符及单词对模型效果评估的影响，可按照示例设置停用词表，评估时将自动过滤
资源部署信息	集群	选择适合的集群
	队列	选择可用资源配额
	资源规格	选择资源规格类型，不同的算力规格对应不同的价格
	实例数量	相应资源规格的数量

点击开始评估，创建评估任务。

查看评估任务

查看详情：点击评估任务名称，在评估详情页，可以查看评估任务的详细内容，包括任务详情、事件、日志。
操作：评估任务卡片上，支持以下操作：
1. 查看报告：任务运行完成后，可查看相应的评估报告，支持查看整体指标和错题分析；
2. 重启：重启任务；
3. 停止：停止评估任务；
4. 复制：复制此评估任务配置，可以进行少量修改快速启动；
5. 删除：删除此评估任务。

©2026天翼云科技有限公司版权所有

京ICP备 2021034386号

京公网安备11010802043424号

增值电信业务经营许可证A2.B1.B2-20090001