活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 企业出海解决方案 NEW 助力您的业务扬帆出海,通达全球!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
星辰TokenHub
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
智算一体机
  • 智算一体机
智能体引擎
  • 智能体引擎
可信数据空间
  • 可信数据空间
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      文档中心

      星辰MaaS智能体平台

      星辰MaaS智能体平台

      • 星辰MaaS智能体平台

      无数据

        • 产品介绍
        • 产品介绍
        • 计费说明
        • 计费说明
        • 计费管理
        • 快速入门
        • 准备工作
        • 用户指南
        • 应用广场
        • 工具广场
        • 智能体开发
        • 自主规划应用
        • 工作流编排应用
        • 版本及服务管理
        • 发布渠道配置
        • 日志管理
        • 数据监测
        • 知识库管理
        • 创建与配置知识库
        • 已有知识库-文件管理
        • 文件切片管理
        • 命中测试
        • 知识库 API
        • 记忆库
        • 数据库
        • 工具管理
        • 工作流工具
        • OPENAPI Schema工具
        • MCP工具
        • 工具版本及发布管理
        • 工具渠道管理
        • 提示词模板管理
        • 模型管理
        • 评测功能
        • 团队管理
        • 常见问题
        • 常见Q&A
        • 最佳实践
        • 快速搭建一个自主规划应用-AI问答智能体
        • 搭建一个工作流编排应用-客服客户画像智能体
        • API 参考
        • API 管理
        • 知识库API
        • 文档下载
        • 相关协议
        • 星辰MaaS智能体服务协议
        • 智能体平台内容发布标准和规范
          无相关产品

          本页目录

          帮助中心 星辰MaaS智能体平台 用户指南 评测功能
          评测功能
          更新时间 2026-06-11 10:18:34
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2026-06-11 10:18:34
          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接

          概述

          为帮助用户全面评估AI智能体的性能及使用质效,星辰MaaS智能体平台(以下简称“平台”)新增评测模块,当前支持对自主规划式智能体进行标准化测评。通过评测集及评测规则的自定义配置,用户可定量分析智能体的响应准确性、工具调用稳定性及知识覆盖度等关键指标,为优化决策提供数据支撑。

          评测流程

          评测模块包含三个核心环节,确保评估过程的完整性和可追溯性。

          评测集

          • 功能:通过特定提问或使用官方预制的标准数据集,构建用于测试智能体的部署集。评测集可导入外部文件(如Excel/CSV),或从平台现有知识库直接提取测试样本。

          • 操作说明:

            • 点击“创建评测集”

              image

            • 填写基本信息完成评测集创建。

            • image

          • 创建完成后点击“预览”上传具体数据:

            image

            • 下载模板,填写测评数据,然后重新上传。上传后指定数据列的映射:

              image

              image

            • 视需求进行追加或覆盖, 确认后数据完成导入。

              image

          评测规则

          • 功能:支持创建灵活的评测规则,通过定义标准答案、容错策略及打分机制,让系统自动匹配智能体的响应质量。规则可指定:

            • 匹配成功条件:精确匹配、关键词匹配等。

            • 扣分策略:根据错误程度配置扣分规则。

          • 操作说明:

            • 点击“创建规则” → 设置评价标准(如:完全正确=10分,部分匹配=5分,错误=0分)。

            • 关联评测集,完成规则与测试样本的绑定。

          • 创建评测规则:

            image

          • 也可以从“预置模板”中复制一个测评规则:

            image

          一个好的评测规则应该类似这样:

          #### **1. 任务概述**
          作为专业的数据标注员,您的职责是依据明确的评分标准,评估模型输出的 **事实正确性** 和 **内容完整性**。
           
          ---
           
          #### **2. 评分标准**
          **满分答案应满足以下条件:**
          ✅ **准确完整**:提供的信息精确且全面,无遗漏关键点。
          ✅ **无事实错误**:所有内容均与参考输出或已知事实一致。
          ✅ **全面响应**:回答问题的 **所有部分**,无偏题或遗漏。
          ✅ **逻辑一致**:陈述前后连贯,无矛盾或跳跃。
          ✅ **术语精确**:使用 **准确** 的专业术语,避免模糊或误导性表述。
           
          **扣分项(需查证并严格评估):**
          ❌ **事实性错误**:内容与参考输出或公认事实不符。
          ❌ **不完整信息**:回答部分问题,缺失关键要素。
          ❌ **误导或模糊**:表述含糊,可能导致理解偏差。
          ❌ **术语错误**:使用错误或不规范的术语。
          ❌ **逻辑缺陷**:前后矛盾、逻辑跳跃或断裂。
          ❌ **遗漏关键细节**:忽略问题的核心信息。
          每个扣分项如果触发则扣1分。
          ---
           
          #### **3. 操作指导**
          **步骤1:理解输入**
          - 阅读输入的问题({{input}}),明确问题的 **核心需求** 和 **预期范围**。
           
          **步骤2:对比输出与参考**
          - 查看模型输出({{output}})与参考输出({{reference_output}})的 **关键差异**。
          - 注意 **事实准确性**、**信息完整度** 和 **术语正确性**。
           
          **步骤3:聚焦正确性**
          - 重点评估 **内容实质**(而非文风、长度等形式因素)。
          - 如参考输出缺失,依据已有知识或权威信息进行验证。
           
          **步骤4:记录问题**
          - 对每一条扣分点进行 **明确标注**,并说明理由(例如:“缺少X步骤的说明”)。
           
          ---
           
          #### **4. 注意事项**
          - **评估目标**:严格甄别回复的 **事实性** 和 **完整度**,确保高标准的质量控制。
          - **公正性**:避免因个人偏好影响判断,专注于客观评分。
           
          ---
           
          #### **5. 模板示例**
          | 项目 | 评分点(100分制) | 扣分说明(如有) |
          |------|----------------|------------------|
          | 事实准确性 | 100 | 无误 |
          | 完整程度 | 90 | 缺少步骤2的细节 |
          | 术语使用 | 95 | “术语X”使用错误 |
          | 逻辑一致性 | 100 | 无误 |
           
          ---
           
          #### **6. 输入/输出示例**
          **输入({{input}})**
          *“请详细说明人工智能在医疗诊断中的应用场景。”*
           
          **模型输出({{output}})**
          *“AI可用于影像识别(如CT、MRI)、病历分析,以及未来可能用于手术助手。”*
          (缺少具体病种分析、实例等关键点)
           
          **参考输出({{reference_output}})**
          *“AI在医疗中的应用包括:
          1. 影像识别(如乳腺癌筛查、白内障诊断);
          2. 病历挖掘(如糖尿病风险预测);
          3. 药物研发(如蛋白质折叠预测)。”*

          评测任务

          • 功能:发起智能体的实际测试任务,系统自动调用目标智能体并记录反馈结果。用户可实时追踪评测进度,查看得分明细及错误原因分析。

            • 评测执行:运行测试任务,采集智能体的回答数据。

            • 结果汇总:生成评测报告(包含平均得分、错误类型占比等)。

            • 过程记录:保存任务日志,便于复盘和持续优化。

          • 操作说明:

            • 选择评测集与规则 → 点击“执行评测”。

            • 系统实时展示进度,评测完成后查看详细报告。

            • 支持一键重新评测或导出结果。

          评测任务

          平台计划支持自主规划智能体端到端评测,工作流智能体端到端评测,工作流智能体路径评测;当前仅支持自主规划智能体端到端评测,后两者将于近期开放。

          注意

          对自主规划智能体进行端到端测评,需要先将自主规划智能体以API方式发布,并生成对应的API KEY。

          image

          注意

          建议先完成这一步再开始后续工作。

          第一步: 填写基本信息

          image

          第二步: 选择发布的智能体服务

          image

          如果选中的智能体尚未发布以及生成API KEY,则会出现提示:

          image

          第三步: 选择测评集

          image

          第四步: 选择评测规则

          image

          选择模型和模型参数。及格线设置仅用于后续统计,不影响评测过程。

          然后提交即可。

          第五步:任务列表

          image

          提交后, 会回到评测任务列表页面。 在页面中开发者可以观察评测任务的进展。 点击“监控”按钮可以观察当前评测任务进度:

          image

          任务完成后可以查看最终任务结果:

          image

          操作建议

          • 评测集构建:建议从知识库高频问答或实际业务场景中提取测试样本,覆盖边界情况(如异常问法)。

          • 规则设定:根据场景复杂度调整容错机制,简化评判标准以提高效率。最好不要在一个规则中评判多个维度。

          • 结果分析:重点关注错误类型,结合日志优化智能体逻辑或知识库。

          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

          上一篇 :  模型管理
          下一篇 :  团队管理
          搜索 关闭
          ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
          公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
          备案 京公网安备11010802043424号 京ICP备 2021034386号
          ©2026天翼云科技有限公司版权所有
          京ICP备 2021034386号
          备案 京公网安备11010802043424号
          增值电信业务经营许可证A2.B1.B2-20090001
          用户协议 隐私政策 法律声明