概述

为帮助用户全面评估AI智能体的性能及使用质效，星辰MaaS智能体平台（以下简称“平台”）新增评测模块，当前支持对自主规划式智能体进行标准化测评。通过评测集及评测规则的自定义配置，用户可定量分析智能体的响应准确性、工具调用稳定性及知识覆盖度等关键指标，为优化决策提供数据支撑。

评测流程

评测模块包含三个核心环节，确保评估过程的完整性和可追溯性。

评测集

功能：通过特定提问或使用官方预制的标准数据集，构建用于测试智能体的部署集。评测集可导入外部文件（如Excel/CSV），或从平台现有知识库直接提取测试样本。
操作说明：
- 点击“创建评测集”
- 填写基本信息完成评测集创建。
创建完成后点击“预览”上传具体数据：
- 下载模板，填写测评数据，然后重新上传。上传后指定数据列的映射：
- 视需求进行追加或覆盖，确认后数据完成导入。

评测规则

功能：支持创建灵活的评测规则，通过定义标准答案、容错策略及打分机制，让系统自动匹配智能体的响应质量。规则可指定：
- 匹配成功条件：精确匹配、关键词匹配等。
- 扣分策略：根据错误程度配置扣分规则。
操作说明：
- 点击“创建规则” → 设置评价标准（如：完全正确=10分，部分匹配=5分，错误=0分）。
- 关联评测集，完成规则与测试样本的绑定。
创建评测规则：
也可以从“预置模板”中复制一个测评规则：

一个好的评测规则应该类似这样：

#### **1. 任务概述**
作为专业的数据标注员，您的职责是依据明确的评分标准，评估模型输出的 **事实正确性** 和 **内容完整性**。
 
---
 
#### **2. 评分标准**
**满分答案应满足以下条件：**
✅ **准确完整**：提供的信息精确且全面，无遗漏关键点。
✅ **无事实错误**：所有内容均与参考输出或已知事实一致。
✅ **全面响应**：回答问题的 **所有部分**，无偏题或遗漏。
✅ **逻辑一致**：陈述前后连贯，无矛盾或跳跃。
✅ **术语精确**：使用 **准确** 的专业术语，避免模糊或误导性表述。
 
**扣分项（需查证并严格评估）：**
❌ **事实性错误**：内容与参考输出或公认事实不符。
❌ **不完整信息**：回答部分问题，缺失关键要素。
❌ **误导或模糊**：表述含糊，可能导致理解偏差。
❌ **术语错误**：使用错误或不规范的术语。
❌ **逻辑缺陷**：前后矛盾、逻辑跳跃或断裂。
❌ **遗漏关键细节**：忽略问题的核心信息。
每个扣分项如果触发则扣1分。
---
 
#### **3. 操作指导**
**步骤1：理解输入**
- 阅读输入的问题（{{input}}），明确问题的 **核心需求** 和 **预期范围**。
 
**步骤2：对比输出与参考**
- 查看模型输出（{{output}}）与参考输出（{{reference_output}}）的 **关键差异**。
- 注意 **事实准确性**、**信息完整度** 和 **术语正确性**。
 
**步骤3：聚焦正确性**
- 重点评估 **内容实质**（而非文风、长度等形式因素）。
- 如参考输出缺失，依据已有知识或权威信息进行验证。
 
**步骤4：记录问题**
- 对每一条扣分点进行 **明确标注**，并说明理由（例如：“缺少X步骤的说明”）。
 
---
 
#### **4. 注意事项**
- **评估目标**：严格甄别回复的 **事实性** 和 **完整度**，确保高标准的质量控制。
- **公正性**：避免因个人偏好影响判断，专注于客观评分。
 
---
 
#### **5. 模板示例**
| 项目 | 评分点（100分制） | 扣分说明（如有） |
|------|----------------|------------------|
| 事实准确性 | 100 | 无误 |
| 完整程度 | 90 | 缺少步骤2的细节 |
| 术语使用 | 95 | “术语X”使用错误 |
| 逻辑一致性 | 100 | 无误 |
 
---
 
#### **6. 输入/输出示例**
**输入（{{input}}）**
*“请详细说明人工智能在医疗诊断中的应用场景。”*
 
**模型输出（{{output}}）**
*“AI可用于影像识别（如CT、MRI）、病历分析，以及未来可能用于手术助手。”*
（缺少具体病种分析、实例等关键点）
 
**参考输出（{{reference_output}}）**
*“AI在医疗中的应用包括：
1. 影像识别（如乳腺癌筛查、白内障诊断）；
2. 病历挖掘（如糖尿病风险预测）；
3. 药物研发（如蛋白质折叠预测）。”*

评测任务

功能：发起智能体的实际测试任务，系统自动调用目标智能体并记录反馈结果。用户可实时追踪评测进度，查看得分明细及错误原因分析。
- 评测执行：运行测试任务，采集智能体的回答数据。
- 结果汇总：生成评测报告（包含平均得分、错误类型占比等）。
- 过程记录：保存任务日志，便于复盘和持续优化。
操作说明：
- 选择评测集与规则 → 点击“执行评测”。
- 系统实时展示进度，评测完成后查看详细报告。
- 支持一键重新评测或导出结果。

评测任务

平台计划支持自主规划智能体端到端评测，工作流智能体端到端评测，工作流智能体路径评测；当前仅支持自主规划智能体端到端评测，后两者将于近期开放。

注意

对自主规划智能体进行端到端测评，需要先将自主规划智能体以API方式发布，并生成对应的API KEY。

注意

建议先完成这一步再开始后续工作。

第一步：填写基本信息

第二步：选择发布的智能体服务

如果选中的智能体尚未发布以及生成API KEY，则会出现提示：

第三步：选择测评集

第四步：选择评测规则

选择模型和模型参数。及格线设置仅用于后续统计，不影响评测过程。

然后提交即可。

第五步：任务列表

提交后，会回到评测任务列表页面。在页面中开发者可以观察评测任务的进展。点击“监控”按钮可以观察当前评测任务进度：

任务完成后可以查看最终任务结果：

操作建议

评测集构建：建议从知识库高频问答或实际业务场景中提取测试样本，覆盖边界情况（如异常问法）。
规则设定：根据场景复杂度调整容错机制，简化评判标准以提高效率。最好不要在一个规则中评判多个维度。
结果分析：重点关注错误类型，结合日志优化智能体逻辑或知识库。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

星辰MaaS智能体平台

星辰MaaS智能体平台

概述

评测流程

评测集

评测规则

评测任务

评测任务

第一步：填写基本信息

第二步：选择发布的智能体服务

第三步：选择测评集

第四步：选择评测规则

第五步：任务列表

操作建议

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

星辰MaaS智能体平台

星辰MaaS智能体平台

概述

评测流程

评测集

评测规则

评测任务

评测任务

第一步： 填写基本信息

第二步： 选择发布的智能体服务

第三步： 选择测评集

第四步： 选择评测规则

第五步：任务列表

操作建议

第一步：填写基本信息

第二步：选择发布的智能体服务

第三步：选择测评集

第四步：选择评测规则