活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 聚力AI赋能 天翼云大模型专项 大模型特惠专区·Token Plan 轻享包低至9.9元起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云信创专区 NEW “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V4-Flash
  • GLM-5.1
  • Qwen3.5-122B-A10B
  • DeepSeek-V3.2(旗舰版)
  • GLM-5(正式版)
  • Qwen3.5-397B-A17B(正式版)
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2026智能云生态大会
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      函数计算_相关内容
      • 概述
        事件总线类触发器是一类基于天翼云默认事件总线的能力,以总线为事件源,通过规则配置的触发器。该类型触发器不直接与其他云产品通信,只会订阅总线消息,总线基于规则分发消息发送到工作流实例,事件传递机制如下:
        来自:
        帮助文档
        函数计算
        用户指南
        云工作流
        控制台操作
        工作流调度
        事件总线类触发器
        概述
      • 从基础设施到智能中枢:DeepSeek如何重塑公有云服务价值链
        天翼公有云×DeepSeek 产品架构和技术优势 天翼公有云智算底座主推产品 天翼公有云×DeepSeek方案 返回DeepSeek专题导航。
        来自:
        帮助文档
        函数计算
        DeepSeek专题
        图解:DeepSeek与公有云深度融合
        从基础设施到智能中枢:DeepSeek如何重塑公有云服务价值链
      • 翼MapReduce MRS支持的事件列表
        翼MapReduce(翼MR)是一种基于云计算平台的数据处理分析服务,打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量数据的存储和分析能力,可解决用户实时性要求不高的海量数据存储和处理需求,可以独立申请和使用托管Hadoop、Spark、HBase和Hive组件。 支持的事件列表如下: 事件名称 事件ID 事件级别 事件说明 处理建议 事件影响 DBServer主备倒换 dbServerSwitchover 次要 DBServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 Flume Channel溢出 flumeChannelOverflow 次要 Flume Channel溢出 确认flume的channel配置是否合理,业务量是否有突增。 Flume任务无法正常写入数据到后端。 NameNode主备倒换 namenodeSwitchover 次要 NameNode主备倒换 主备倒换需要和运维人员确认是否为正常操作导致。 连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 ResourceManager主备倒换 resourceManagerSwitchover 次要 ResourceManager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 JobHistoryServer主备倒换 jobHistoryServerSwitchover 次要 JobHistoryServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 HMaster主备倒换 hmasterFailover 次要 HMaster主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响HBase服务正常使用 Hue发生主备切换 hueFailover 次要 Hue发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 Impala HaProxy服务发生主备切换 impalaHaProxyFailover 次要 Impala HaProxy服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 Impala StateStoreCatalog服务发生主备切换 impalaStateStoreCatalogFailover 次要 Impala StateStoreCatalog服务发生主备切换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响Impala服务正常使用 LdapServer主备倒换 ldapServerFailover 次要 LdapServer主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 连续触发主备倒换可能影响LdapServer服务正常使用 Loader主备倒换 loaderSwitchover 次要 Loader主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 主备倒换可能影响Loader服务正常使用 Manager主备倒换 managerSwitchover 提示 Manager主备倒换 主备倒换需要和运维人员确认是否为正常操作导致 Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 作业执行失败 jobRunningFailed 提示 作业执行失败 查看作业管理页面,确认失败任务是否有异常 作业执行过程出现失败 作业被终止 jobkilled 提示 作业被终止 确认任务是否人为下发终止命令 作业执行过程被终止 Oozie工作流执行失败 oozieWorkflowExecutionFailure 次要 Oozie工作流执行失败 查看Oozie日志,确认任务失败原因 Oozie工作流执行失败 Oozie定时任务执行失败 oozieScheduledJobExecutionFailure 次要 Oozie定时任务执行失败 查看Oozie日志,确认任务失败原因 Oozie定时任务执行失败 ClickHouse服务不可用 clickHouseServiceUnavailable 紧急 ClickHouse服务不可用 请参考《MapReduce服务用户指南》的“ALM45425 ClickHouse服务不可用”章节。 ClickHouse服务异常,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 DBService服务不可用 dbServiceServiceUnavailable 紧急 DBService服务不可用 请参考《MapReduce服务用户指南》的“ALM27001 DBService服务不可用”章节。 数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 DBService主备节点间心跳中断 dbServiceHeartbeatInterruption BetweentheActiveAndStandbyNodes 重要 DBService主备节点间心跳中断 请参考《MapReduce服务用户指南》的“ALM27003 DBService主备节点间心跳中断”章节。 DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 DBService主备数据不同步 dataInconsistencyBetween ActiveAndStandbyDBServices 紧急 DBService主备数据不同步 请参考《MapReduce服务用户指南》的“ALM27004 DBService主备数据不同步”章节。 主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 数据库进入只读模式 databaseEnterstheReadOnlyMode 紧急 数据库进入只读模式 请参考《MapReduce服务用户指南》的“ALM27007 数据库进入只读模式”章节。 数据库进入只读模式,业务数据丢失。 Flume服务不可用 flumeServiceUnavailable 紧急 Flume服务不可用 请参考《MapReduce服务用户指南》的“ALM24000 Flume服务不可用”章节。 当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 Flume Agent异常 flumeAgentException 重要 Flume Agent异常 请参考《MapReduce服务用户指南》的“ALM24001 Flume Agent异常”章节。 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 Flume Client连接中断 flumeClientDisconnected 重要 Flume Client连接中断 请参考《MapReduce服务用户指南》的“ALM24003 Flume Client连接中断”章节。 产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 Flume读取数据异常 exceptionOccursWhenFlumeReadsData 重要 Flume读取数据异常 请参考《MapReduce服务用户指南》的“ALM24004 Flume读取数据异常”章节。 如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 Flume传输数据异常 exceptionOccursWhenFlumeTransmitsData 重要 Flume传输数据异常 请参考《MapReduce服务用户指南》的“ALM24005 Flume传输数据异常”章节。 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 Flume 证书文件非法或已损坏 flumeCertificateFileIsinvalid 重要 Flume 证书文件非法或已损坏 请参考《MapReduce服务用户指南》的“ALM24010 Flume证书文件非法或已损坏”章节。 Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume 证书文件即将过期 flumeCertificateFileIsAboutToExpire 重要 Flume 证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM24011 Flume证书文件即将过期”章节。 Flume证书文件即将失效,对系统目前运行无影响。 Flume 证书文件已过期 flumeCertificateFileIsExpired 重要 Flume 证书文件已过期 请参考《MapReduce服务用户指南》的“ALM24012 Flume证书文件已过期”章节。 Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件失效 flumeMonitorServerCertificateFileIsInvalid 重要 Flume MonitorServer证书文件失效 请参考《MapReduce服务用户指南》的“ALM24013 Flume MonitorServer证书文件非法或已损坏”章节。 MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 Flume MonitorServer证书文件即将过期 flumeMonitorServerCertificate FileIsAboutToExpire 重要 Flume MonitorServer证书文件即将过期 请参考《MapReduce服务用户指南》的“ALM24014 Flume MonitorServer证书文件即将过期”章节。 MonitorServer证书文件即将失效,对系统目前运行无影响。 Flume MonitorServer证书文件已过期 flumeMonitorServerCertificateFileIsExpired 重要 Flume MonitorServer证书文件已过期 请参考《MapReduce服务用户指南》的“ALM24015 Flume MonitorServer证书文件已过期”章节。 MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 HDFS服务不可用 hdfsServiceUnavailable 紧急 HDFS服务不可用 请参考《MapReduce服务用户指南》的“ALM14000 HDFS服务不可用”章节。 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 NameService服务异常 nameServiceServiceUnavailable 重要 NameService服务异常 请参考《MapReduce服务用户指南》的“ALM14010 NameService服务异常”章节。 无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 DataNode数据目录配置不合理 datanodeDataDirectoryIsNotConfiguredProperly 重要 DataNode数据目录配置不合理 请参考《MapReduce服务用户指南》的“ALM14011 DataNode数据目录配置不合理”章节。 如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。不合理的DataNode数据目录配置,会造成HDFS的性能下降。 Journalnode数据不同步 journalnodeIsOutOfSynchronization 重要 Journalnode数据不同步 请参考《MapReduce服务用户指南》的“ALM14012 Journalnode数据不同步”章节。 当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如 果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 NameNode FsImage文件更新失败 failedToUpdateTheNameNodeFsImageFile 重要 NameNode FsImage文件更新失败 请参考《MapReduce服务用户指南》的“ALM14013 NameNode FsImage文件更新失败”章节。 如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。 如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 DataNode磁盘故障 datanodeDiskFault 重要 DataNode磁盘故障 请参考《MapReduce服务用户指南》的“ALM14027 DataNode磁盘故障”章节。 上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 Yarn服务不可用 yarnServiceUnavailable 紧急 Yarn服务不可用 请参考《MapReduce服务用户指南》的“ALM18000 Yarn服务不可用”章节。 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 NodeManager心跳丢失 nodemanagerHeartbeatLost 重要 NodeManager心跳丢失 请参考《MapReduce服务用户指南》的“ALM18002 NodeManager心跳丢失”章节。 丢失的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 NodeManager不健康 nodemanagerUnhealthy 重要 NodeManager不健康 请参考《MapReduce服务用户指南》的“ALM18003 NodeManager不健康”章节。 故障的NodeManager节点无法提供Yarn服务。容器减少,集群性能下降。 Yarn 任务执行超时 yarnApplicationTimeout 次要 Yarn 任务执行超时 请参考《MapReduce服务用户指南》的“ALM18020 Yarn任务执行超时”章节。 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 Mapreduce服务不可用 mapreduceServiceUnavailable 紧急 Mapreduce服务不可用 请参考《MapReduce服务用户指南》的“ALM18021 Mapreduce服务不可用”章节。 集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 Yarn队列资源不足 insufficientYarnQueueResources 次要 Yarn队列资源不足 请参考《MapReduce服务用户指南》的“ALM18022 Yarn队列资源不足”章节。 应用任务结束时间变长。新应用提交后长时间无法运行。 HBase服务不可用 hbaseServiceUnavailable 紧急 HBase服务不可用 请参考《MapReduce服务用户指南》的“ALM19000 HBase服务不可用”章节。 无法进行数据读写和创建表等操作。 HBase系统表目录或文件丢失 systemTablePathOrFileOfHBaseIsMissing 紧急 HBase系统表目录或文件丢失 请参考《MapReduce服务用户指南》的“ALM19012 HBase系统表目录或文件丢失”章节。 HBase服务重启/启动失败。 Hive服务不可用 hiveServiceUnavailable 紧急 Hive服务不可用 请参考《MapReduce服务用户指南》的“ALM16004 Hive服务不可用”章节。 Hive无法提供数据加载,查询,提取服务。 Hive数据仓库被删除 hiveDataWarehouseIsDeleted 紧急 Hive数据仓库被删除 请参考《MapReduce服务用户指南》的“ALM16045 Hive数据仓库被删除”章节。 Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 Hive数据仓库权限被修改 hiveDataWarehousePermissionIsModified 紧急 Hive数据仓库权限被修改 请参考《MapReduce服务用户指南》的“ALM16046 Hive数据仓库权限被修改”章节。 Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 HiveServer已从Zookeeper注销 hiveServerHasBeenDeregisteredFromZookeeper 重要 HiveServer已从Zookeeper注销 请参考《MapReduce服务用户指南》的“ALM16047 HiveServer已从Zookeeper注销”章节。 当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 tez或者spark库路径不存在 tezlibOrSparklibIsNotExist 重要 tez或者spark库路径不存在 请参考《MapReduce服务用户指南》的“ALM16048 Tez或者Spark库路径不存在”章节。 Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 Hue服务不可用 hueServiceUnavailable 紧急 Hue服务不可用 请参考《MapReduce服务用户指南》的“ALM20002 Hue服务不可用”章节。 系统无法提供数据加载,查询,提取服务。 Impala服务不可用 impalaServiceUnavailable 紧急 Impala服务不可用 请参考《MapReduce服务用户指南》的“ALM29000 Impala服务不可用”章节。 Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 Kafka服务不可用 kafkaServiceUnavailable 紧急 Kafka服务不可用 请参考《MapReduce服务用户指南》的“ALM38000 Kafka服务不可用”章节。 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 Kafka默认用户状态异常 statusOfKafkaDefaultUserIsAbnormal 紧急 Kafka默认用户状态异常 请参考《MapReduce服务用户指南》的“ALM38007 Kafka默认用户状态异常”章节。 Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 Kafka数据目录状态异常 abnormalKafkaDataDirectoryStatus 重要 Kafka数据目录状态异常 请参考《MapReduce服务用户指南》的“ALM38008 Kafka数据目录状态异常”章节。 Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 存在单副本的Topic topicsWithSingleReplica 警告 存在单副本的Topic 请参考《MapReduce服务用户指南》的“ALM38010 存在单副本的Topic”章节。 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 KrbServer服务不可用 krbServerServiceUnavailable 紧急 KrbServer服务不可用 请参考《MapReduce服务用户指南》的“ALM25500 KrbServer服务不可用”章节。 告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 Kudu服务不可用 kuduServiceUnavailable 紧急 Kudu服务不可用 请参考《MapReduce服务用户指南》的“ALM29100 Kudu服务不可用”章节。 用户无法使用Kudu服务。 LdapServer服务不可用 ldapServerServiceUnavailable 紧急 LdapServer服务不可用 请参考《MapReduce服务用户指南》的“ALM25000 LdapServer服务不可用”章节。 告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。 例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 LdapServer数据同步异常 abnormalLdapServerDataSynchronization 紧急 LdapServer数据同步异常 请参考《MapReduce服务用户指南》的“ALM25004 LdapServer数据同步异常”章节。 LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 Nscd服务异常 nscdServiceIsAbnormal 重要 Nscd服务异常 请参考《MapReduce服务用户指南》的“ALM25005 Nscd服务异常”章节。 nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 Sssd服务异常 sssdServiceIsAbnormal 重要 Sssd服务异常 请参考《MapReduce服务用户指南》的“ALM25006 Sssd服务异常”章节。 sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 Loader服务不可用 loaderServiceUnavailable 紧急 Loader服务不可用 请参考《MapReduce服务用户指南》的“ALM23001 Loader服务不可用”章节。 如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 Oozie服务不可用 oozieServiceUnavailable 紧急 Oozie服务不可用 请参考《MapReduce服务用户指南》的“ALM17003 Oozie服务不可用”章节。 无法使用Oozie服务提交作业。 Ranger服务不可用 rangerServiceUnavailable 紧急 Ranger服务不可用 请参考《MapReduce服务用户指南》的“ALM45275 Ranger服务不可用”章节。 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 RangerAdmin状态异常 abnormalRangerAdminStatus 重要 RangerAdmin状态异常 请参考《MapReduce服务用户指南》的“ALM45276 RangerAdmin状态异常”章节。 当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 Spark2x服务不可用 spark2xServiceUnavailable 紧急 Spark2x服务不可用 请参考《MapReduce服务用户指南》的“ALM43001 Spark2x服务不可用”章节。 用户提交的Spark任务执行失败。 Storm服务不可用 stormServiceUnavailable 紧急 Storm服务不可用 请参考《MapReduce服务用户指南》的“ALM26051 Storm服务不可用”章节。 集群无法对外提供Storm服务,用户无法执行新的Storm任务。 ZooKeeper服务不可用 zooKeeperServiceUnavailable 紧急 ZooKeeper服务不可用 请参考《MapReduce服务用户指南》的“ALM13000 ZooKeeper服务不可用”章节。 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 ZooKeeper中组件顶层目录的配额设置失败 failedToSetTheQuotaOfTopDirectoriesOf ZooKeeperComponent 次要 ZooKeeper中组件顶层目录的配额设置失败 请参考《MapReduce服务用户指南》的“ALM13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。
        来自:
        帮助文档
        云监控服务
        用户指南
        事件监控
        事件监控支持的事件说明
        翼MapReduce MRS支持的事件列表
      • 天翼云AOne SDK隐私和信息处理规则
        tdsub) 2.2.5 终端权限信息 为了提供天翼云AOne SDK的其他服务,在收集和使用您的个人信息之前,天翼云AOne SDK会在提供服务前依法向您告知并征得您的同意,并通过弹框方式申请或使用操作系统的相关权限。 其中敏感的权限均不会默认开启,仅在您使用对应的功能且明确授权后启用 。您也可以在天翼云AOne SDK的系统权限管理页面(路径:我的>设置>系统权限管理)或进入设备系统管理权限中自主管理你的权限。根据产品的升级,申请、使用权限的类型与目的可能会有变动,我们将及时根据这些变动对列表进行调整,以确保您及时获悉权限的申请与使用情况。关于在其他服务中我们如何收集、使用您的个人信息,请见该服务相应的个人信息处理规则。 (1)为了您在开启天翼云AOne SDK后能够正常访问网络资源,我们会在您授权同意后获取您手机的 网络访问、网络连接状态、WIFI连接状态 ,此类信息属于该功能的必要信息,如不授权该权限将无法使用上述功能; (2)为了您可以对内部网络资源进行访问,我们会在您授权同意后获取您手机的 VPN连接权限 ,此类信息属于该功能的必要信息,如不授权该权限将无法使用上述功能; 请注意, 在不同设备和系统中,权限显示方式及关闭方式会有所不同,需同时参考其使用的设备及操作系统开发方的说明或指引。当终端用户关闭权限即代表其取消了相应的授权,我们和开发者将不会继续收集和使用相关权限所对应的个人信息, 也无法为终端用户提供需要终端用户开启权限才能提供的对应的功能。 随着天翼云边缘安全加速平台零信任服务功能进一步丰富,后续新增功能如涉及获取用户授权权限时,我们将明确提示并在您授权同意后才会获取该功能所需权限。如未取得您的授权,我们将不会收集和使用相关信息。如果我们提供的具体服务对收集个人信息另有具体规则的我们将根据法律规定向您告知并取得您的同意。本隐私和信息处理规则与该等具体规则相互补充,如该等具体规则与本隐私和信息处理规则有冲突的,以本隐私和信息处理规则为准。本隐私和信息处理规则未列明的事项,以该等具体规则的约定为准。 2.2.6 各项功能及服务涉及的个人信息 功能及服务 个人信息类型 收集方式 适用系统版本 AOne SDK 适配 设备系统类型 SDK本地采集 / 关键功能报错时上报 Android / iOS AOne SDK 适配 设备型号 SDK本地采集 / 关键功能报错时上报 Android / iOS AOne SDK 适配 系统版本信息 SDK本地采集 / 关键功能报错时上报 Android / iOS AOne SDK 适配 设备制造商 SDK本地采集 / 关键功能报错时上报 Android / iOS 创建VPN隧道 IP地址 SDK本地采集 / 关键功能报错时上报 Android / iOS 2.2.7 设备权限调用 为了保证最终用户能正常使用天翼云AOne SDK相应功能及服务,我们会通过开发者应用向系统申请最终用户设备的以下系统设备权限,申请前我们会征询最终用户的同意,最终用户可以选择“允许”或“禁止”权限申请。经过最终用户的授权后我们会开启相关权限,最终用户可以随时在系统中取消授权,最终用户取消授权会导致最终用户无法使用相关的业务功能,但不会导致最终用户无法使用其他业务功能。各项功能及功能对设备权限的调用情况如下: Android系统版本 设备权限 功能及服务 权限授权方式 查看网络状态 用于隧道建立 及 网络传输 用户授权 查看wifi网络状态信息 用于网络状态变化的 vpn隧道处理 用户授权 区分移动网络或wifi网络 用于网络状态变化的 vpn隧道处理 用户授权 绑定VPN服务 VPN 隧道建立 用户授权 iOS系统版本 设备权限 功能及服务 权限授权方式 网络扩展权限 VPN 隧道建立 用户授权 app组权限 VPN 隧道建立 用户授权 网络访问基础权限 VPN 隧道建立 及 数据上报 用户授权 2.2.7 您充分知晓,以下情形中,我们收集、使用个人信息无需征得您的授权同意: (1)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需; (2)为履行法定职责或者法定义务所必需; (3)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需; (4)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息; (5)依照《中华人民共和国个人信息保护法》规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息; (6)法律、行政法规规定的其他情形。 2.2.8 我们向您提供的服务中的某些功能可能由我们委托的其他方(“受托方”)提供。例如委托物流、技术服务等服务提供商协助我们提供相应的支持。我们会按照法律规定对受托方处理个人信息提出要求,并对受托方的个人信息处理活动进行监督。 2.2.9 您理解并同意,如我们未在上述场景中明示您需要收集的个人信息,我们将会通过页面提示、交互设计等方式另行向您明示信息收集的内容、范围和目的并征得您同意。 三、我们如何使用 Cookie和同类技术 3.1为确保天翼云边缘安全加速平台零信任服务正常运转,我们会在您的计算机上或移动设备上存储、设定或取用Cookies,Cookies是存储于您硬盘或设备内存中的小型数据文件,借助于Cookies,我们将简化您的浏览过程、保留您的个性化设置,从而为您提供更加便捷、高效和快速的访问体验。您可以清除本设备上保存的所有Cookie,大部分网络浏览器都设有阻止Cookie的功能。但如果您这么做,则需要在每一次使用天翼云AOne SDK时更改用户设置。 3.2您通过我们客户端接入使用的第三方服务,查看第三方创建的网页或使用第三方开发的应用程序时,向您提示这些第三方可能会放置他们自己的Cookies,这些Cookies不受我们的控制,且它们的使用不受本隐私和信息处理规则的约束,您应当进行关注。我们对第三方服务提供方对您的个人信息采取保护措施会尽到法律规定的义务,但我们无法保证这些主体一定会按照我们的要求标准采取保护措施,如果您发现这些第三方服务存在风险时,建议您终止相关操作以保护您的合法权益。服务提供方应有自己的独立隐私权保护政策,您使用的第三方服务受其隐私政策约束,建议您仔细阅读其政策内容。 四、我们如何共享、转让、公开披露您的个人信息 除本隐私和信息处理规则载明的情形或法律明确规定的情形外,我们不会与其他个人信息处理者共享或转让、公开披露您的个人信息。 4.1 共享 4.1.1 未经您事先同意,我们不会与任何第三方共享您的信息,但以下情形除外: (1)在获取明确同意的情况下共享:经您事先明确同意,我们会与其他方共享您的信息; (2)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需; (3)为履行法定职责或者法定义务所必需; (4)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需; (5)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息; (6)依照《中华人民共和国个人信息保护法》规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息; (7)法律、行政法规规定的其他情形。 4.1.2 我们可能会接入第三方服务商提供的SDK或其他类似的应用程序,在经您授权的前提下,将我们依照本隐私和信息处理规则收集的用户个人信息共享给该等第三方服务商,以便提供更好的客户服务和用户体验。 我们接入的第三方服务商见本隐私和信息处理规则第2.2.2条。 如果上述个人信息接收方变更处理目的、处理方式时,我们会要求接收方依法另行向您告知并征求您的同意或要求接收方重新向您征求授权同意,法律另有规定的除外。 4.2 转让 我们不会将您的信息转让给任何公司、组织和个人,但以下情况除外: (1)获得您的明确同意后,我们会向其他方转让您的个人信息; (2)在涉及合并、分立、解散、被宣告破产等原因需要转让个人信息时,我们会向您告知接收方的名称或者姓名和联系方式,并要求将接收方继续受本隐私和信息处理规则的约束,继续履行本隐私和信息处理规则下我们对您个人信息的保护义务,并要求接收方在变更原先的处理目的、处理方式时,重新按照法律规定向您征求授权同意。 (3)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需; (4)为履行法定职责或者法定义务所必需; (5)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需; (6)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息; (7)依照《中华人民共和国个人信息保护法》规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息; (8)法律、行政法规规定的其他情形。 4.3 公开披露 我们仅会在以下情况下,公开披露您的个人信息: (1)获得您明确同意后; (2)根据您的需求,在您明确同意或授权的披露方式下披露您所指定的个人信息; (3)为履行法定职责或者法定义务所必需; (4)法律、行政法规规定的其他情形。 4.4根据相关法律法规及国家标准,以下情形中,我们对外提供、公开披露用户的个人信息无需事先征得您的授权同意: (1)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需; (2)为履行法定职责或者法定义务所必需; (3)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需; (4)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息; (5)依照《中华人民共和国个人信息保护法》规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息; (6)法律、行政法规规定的其他情形。 五、 我们如何保护您的个人信息或关联组织信息 5.1 我们对个人信息的保护 我们非常重视您的信息安全。我们建立了数据安全管理制度,采用适当的物理、管理和技术保障措施来防止您的信息遭到未经授权访问、披露、使用、修改、损坏或丢失。 我们会使用混合加密技术提高信息的保密性;我们会使用受信赖的保护机制防止您的信息遭到恶意攻击;我们会部署访问控制机制,确保只有授权人员才可访问用户个人信息;我们会对您的数据定期进行备份,以免您的数据发生异常情况,造成不必要的损失;我们会举办安全和培训,加强员工对于保护用户个人信息重要性的认识。 但是,由于技术的限制以及可能存在的各种恶意手段,在互联网环境下,即便竭尽所能加强安全措施,也不可能始终保证信息百分之百的安全。如不幸发生信息泄露等安全事件,我们会立即启动应急预案,阻止事件扩大,及时采取补救措施,并推送通知、公告等多种形式告知您。同时,我们还将按照监管部门要求,上报个人信息安全事件的处置情况。 并且,我们会采取合理可行的措施,尽力避免处理无关的您的个人信息。我们会出于必要目的处理您的个人信息,该等处理将不会对您的权益造成重大影响。 5.2 用户对信息的保管 尽管有前述安全措施,但请您使用复杂密码,协助我们保证您的账户安全;并妥善保管您的账户、密码及其他信息,避免您的个人信息泄露。如果您发现您的账户、密码或其他信息被他人非法使用或有使用异常的情况的,应当及时通知我们,我们将采取相应安全保障措施。 六、 我们如何保存您的个人信息或关联组织信息 6.1 天翼云边缘安全加速平台零信任服务收集的有关您的信息将保存在天翼云边缘安全加速平台零信任服务在中华人民共和国境内(为本隐私和信息处理规则之目的,不含香港、澳门、台湾地区)的服务器上。如在符合适用法律规定的情形下因业务需要向境外传输个人信息的,我们会事先征得您的同意,向您告知用户个人信息出境的目的、接收方情况,并履行相关法律法规规定的程序。 6.2除非法律法规、监管政策另有要求或者我们向您提供的相关服务对应的个人信息处理规则另有约定,对于所收集的信息,我们将在提供产品或服务所必需的期间内保存。但由于遵从法律法规有关信息留存的要求(例如:《电子商务法》规定:商品和服务信息、交易信息保存时间自交易完成之日起不少于三年),我们可能会延长相关存储期限。 在您的信息已经不再需要用于实现本隐私和信息处理规则规定的目的和用途,也无需根据相关法律法规的规定保存时,我们将采取合理步骤以安全的方式销毁个人信息或进行匿名化处理使其不可识别并不可被再次编辑、修改、使用。 如果我们停止运营本服务,我们将及时停止收集和使用该产品或服务所需的您的个人信息。对于该产品或服务运营期间已经收集的您的个人信息,我们将依法保存,并在保存期限届满后进行匿名化处理或删除,但法律法规或监管部门另有规定的除外。 6.3我们会以加密的方式存储这些信息,不会对外提供、共享个人信息,或者将其用于功能以外的其他用途。除非企业用户要求,根据相关协议提供不包含个人信息外的操作行为、访问行为,或为了遵从相关法律法规要求。 七、未成年人保护 我们非常重视对未成年人个人信息的保护。如您为未成年人,我们要求您请您的父母或监护人仔细阅读本隐私政策,并在征得您的父母或监护人同意的前提下使用我们的服务或向我们提供信息。 对于经父母或监护人同意使用我们的服务而收集未成年人个人信息的情况,我们只会在法律法规允许、父母或监护人明确同意或者保护未成年人所必要的情况下处理合法收集到的未成年人的个人信息。如果我们发现在未事先获得父母或者其他监护人同意的情况下收集了未成年人的个人信息我们会设法尽快删除该信息。 如您是未成年人的父母或监护人,请您关注您所监护的未成年人是否是在取得您的授权同意后使用我们的服务。如果您有理由相信未成年人未经您的事先同意而向天翼云边缘安全加速平台零信任服务提交了个人信息,请联系我们删除此类个人信息,并请保证未成年人已取消服务。如您对我们处理您所监护的未成年人的个人信息有其他疑问,请通过本隐私政策内的联系方式与我们联系。 特别地,我们为不满十四周岁的儿童专门制定了《天翼云AOne SDK儿童个人信息保护政策及监护人须知》,如您为不满十四周岁的未成年人及监护人,请您在使用我们的服务前仔细阅读《天翼云AOne SDK儿童个人信息保护政策及监护人须知》,只有在取得监护人对《天翼云AOne SDK儿童个人信息保护政策及监护人须知》的同意后,我们才会处理十四周岁以下的儿童信息。《天翼云AOne SDK儿童个人信息保护政策及监护人须知》内容详见:《天翼云AOne SDK儿童个人信息保护政策及监护人须知》 八、我们如何处理儿童的个人信息 我们的服务主要面向成人。如果没有父母或监护人的同意,儿童不得创建自己的用户账户。 对于经父母同意而收集儿童个人信息的情况,我们只会在受到法律允许、父母或监护人明确同意或者保护儿童所必要的情况下使用或公开披露此信息。 尽管当地法律和习俗对儿童的定义不同,但我们将不满14周岁的任何人均视为儿童。我们不会存储用户的个人信息,如果我们发现自己在未事先获得可证实的父母同意的情况下收集并处理了儿童的个人信息,则会设法尽快删除数据。 九、您的权利及如何管理您的个人信息 9.1 查询 打开天翼云边缘安全加速平台零信任服务客户端成功登录后,您可以侧边栏中找到“设置”,您可以查看您的个人信息,也可以登录天翼云AOne SDK我的中查看您的个人信息,或通过您企业/组织的管理员登录天翼云边缘安全加速平台零信任服务控制台查询您的相关信息。 其他个人信息或关联组织信息:对于您使用我们的产品或服务过程中产生的其他个人信息或关联组织信息,如您需要,您也可以通过工单、邮件等方式联系我们查询您的个人信息。验证身份和权限后,我们将在15个工作日内响应您的个人信息查询请求。 9.2 变更或者修正错误信息 您可以登录天翼云边缘安全加速平台零信任服务客户端,在设置模块修改您的个人资料,或者登录天翼云AOne SDK我的中修改您的个人资料,或者联系您的企业/组织管理员登录天翼云边缘安全加速平台零信任服务的控制台进行修改。 如您发现无法自行更正的,您也可以通过工单、邮件等方式联系我们提出变更或者修正错误信息请求。验证身份和权限后,我们将在15个工作日内响应您的个人信息更改请求。 9.3 删除 若您发现我们未按照法律法规的规定或者本隐私和信息处理规则约定收集和使用您的信息,您可以联系您的企业/组织管理员登录天翼云边缘安全加速平台零信任服务的控制台对您的个人信息进行删除。您也可以通过工单、邮件等方式联系我们对相关信息(包含副本、数据备份)进行删除。 验证身份和权限后,我们将在15个工作日内响应您的个人信息删除请求。 当您或我们协助您删除相关信息后,由于遵从法律法规有关信息留存的要求,我们将安全地存储您的个人信息并限制对其的任何进一步的处理,直到备份可以清除或实现匿名化。 9.4 改变或撤回您的授权信息 (1)对于您已经授权同意我们收集和使用的终端设备权限信息,您可以通过在天翼云AOne SDK的系统权限管理页面(路径:我的>设置>系统权限管理)进行设置、改变或撤回您的授权同意;当您撤回您个人信息的授权后,我们无法继续提供撤回授权所对应的服务,也不再处理相应的个人信息。但撤回授权的决定,不会影响此前基于您的授权而开展的您的个人信息处理。 (2)对于您已经授权同意我们隐私政策内容,您可以通过在天翼云AOne SDK的设置页面(路径:我的>设置>隐私政策撤回)进行隐私政策授权同意撤回;当您撤回隐私政策同意后,将无法使用天翼云AOne SDK 功能,需要您重新授权同意隐私政策后,方可继续使用天翼云AOne SDK各项功能。 9.5 注销账户 您可以联系您的企业/组织管理员登录天翼云边缘安全加速平台零信任服务的控制台,在身份用户与组织用户列表页面进行您的账户删除,再在天翼云AOne SDK我的设置账户注销进行账户注销操作。 注:如果您是企业用户,请先联系管理员删除用户账户,再进行注销用户账户操作。 您也可以通过工单、邮件等方式联系我们对账户进行注销。 验证身份和权限后,我们将在15个工作日内响应您的账号注销请求。 9.6 个人信息副本获取权 如您需要您的个人信息的副本,您可以通过天翼云AOne SDK 中“我的设置个人信息与权限个人信息浏览与导出” 进行个人信息导出分享。您也可以通过本《天翼云AOne隐私和信息处理规则》文末提供的方式联系我们,在核实您的身份后,我们将向您提供您在我们的服务中的个人信息副本(包括基本资料、身份信息),但法律法规另有规定的或本隐私和信息处理规则另有约定的除外。 9.7 转移个人信息 您的个人信息如何在全国范围内转移,我们在中华人民共和国境内收集和产生的个人信息,将存储在中华人民共和国境内。 若符合以下条件 (1) 适用的法律有明确规定; (2) 获得您的明确授权 针对以上条件,您可以通过隐私政策文本底部的联系方式要求对您在天翼云AOne的个人信息进行转移。 十、响应您的请求 10.1 为保障安全,您申请查询、变更、删除您的信息或注销账户时,可能需要提供书面请求,或以其他方式证明您的身份。我们可能会先要求您验证自己的身份,然后再处理您的请求。 10.2 如果我们发生合并、分立、收购、重组等变更,会将变更信息通过天翼云边缘安全加速平台零信任服务进行发布。变更后我们会继续履行信息保护的责任和义务,如果信息使用目的有所变化,我们将明确提示并在您授权同意后才会获取权限,如未取得您的授权,我们将不会收集和使用相关信息。 10.3 尽管有上述约定,但按照法律法规要求,在以下情形下,我们可能无法响应您的请求: (1)与国家安全、国防安全有关的; (2)与公共安全、公共卫生、重大公共利益相关的; (3)与犯罪侦查、起诉和审判等有关的; (4)有充分证据表明您存在主观恶意或滥用权利的; (5)响应您的请求将导致其他个人、组织的合法权益受到严重损害的。 10.4 如您需要将您的个人信息转让至您指定的其他个人信息处理者,您可以随时联系我们。在符合相关法律规定且技术可行的前提下的,我们将根据您的要求向您提供转让的途径。 十一、本隐私和信息处理规则如何更新 11.1 基于为您提供更好的服务的目的,并根据业务的发展或法律法规及监督政策变化的要求,我们可能会适时修订本隐私和信息处理规则,对于本隐私和信息处理规则的重大变更,我们会通过天翼云AOne SDK内弹框方式请您重新授权同意, 如果您不同意新的隐私和信息处理规则,请您确保您立即停止访问或使用我们的相关服务。 您可以通过天翼云AOne SDK我的设置关于隐私政策入口,访问最新版的《天翼云AOne隐私和信息处理规则》。 十二、如何联系我们 12.1 如您对本隐私和信息处理规则或您信息的相关事宜有任何问题、意见、建议或申诉,您可以通过天翼云提交工单、联系智能客服、或拨打我们的客服电话4008109889与我们取得联系,您还可通过发送邮件至service@chinatelecom.cn或ctpip.ctyun@chinatelecom.cn,与天翼云边缘安全加速平台零信任服务的个人信息保护负责人进一步沟通。 12.2 一般情况下,我们将会在3个工作日内回复,特殊情形下,最长将在不超过15个工作日做出答复。 12.3 如果您对我们的回复不满意,特别是我们的信息处理行为损害了您的合法权益,您还可以通过以下外部途径寻求解决方案:向被告所在地有管辖权的人民法院提起诉讼。
        来自:
      • 云主机JVM延迟
        本章节介绍云主机JVM延迟故障演练。 背景介绍 当 Java 应用响应变慢或出现超时时,其根源可能在于 JVM 内部的执行延迟,例如:长时间的垃圾回收(GC)停顿、激烈的线程锁竞争或耗时的类加载等。本演练模拟这类 JVM 层面的方法执行延迟,帮助您主动发现性能瓶颈,检验应用的超时、重试及熔断机制的有效性,并评估对下游服务的影响。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是通过Java Agent在JVM进程内插入sleep代码来模拟方法调用延迟。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择JVM延迟动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 指定类名:目标类的完全限定名,必须是具体的实现类(非接口或抽象类),例如 com.example.service.UserService 指定方法名:相同方法名的方法都会被注入相同故障。例如getUserInfo,结合指定类名参数,表示在UserService 类的 getUserInfo 方法上注入延迟。 方法注入时机:可选在方法执行时注入故障和方法返回前注入故障。 Java进程号:影响的Java进程号,如果同时设置了进程号和进程名,则以进程号优先匹配。 Java进程名:通常是启动命令中的一部分,例如 myApp.jar。 影响的请求条数:限制延迟注入的总生效次数。达到此数目后,后续调用将不再受影响。 影响请求的百分比:用于指定延迟注入生效的概率,取值范围是 1到 100,表示百分比。设置了该参数后,每次调用目标方法时,会根据这个概率来决定是否注入延迟。可以结合影响的请求条数使用,例如设置影响的请求条数为20,影响请求的百分比为30,则表示目标方法的前 20 次调用中,每次调用都有 30% 的概率会注入延迟。 延迟时间(毫秒):方法产生多久的延迟时间。 延迟浮动值(毫秒):在基础延迟时长上的随机浮动范围,用于模拟更真实的网络抖动。最终延迟为 延迟时间 ± 延迟浮动值。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机JVM延迟
      • 云主机磁盘填充
        本章节介绍云主机磁盘填充故障演练。 背景介绍 由失控的日志文件、未经清理的临时数据或异常进程持续写入,都可能导致云主机磁盘空间被耗尽(例如使用率超过95%)。这种情况会直接导致应用无法写入新数据、服务功能异常甚至进程崩溃。本演练模拟磁盘空间被占满的场景,帮助您检验系统的磁盘空间监控告警、日志轮转机制以及应用在无可用存储空间时的处理逻辑。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是通过dd命令将数据写入文件。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择磁盘填充动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 目录:填充文件的写入目标,默认为系统根目录 /。强烈建议指定一个非系统盘的数据目录。 文件大小(MB):填充的文件大小,取值是整数,例如1024。 磁盘使用率:填充至指定的空间占用率(取值 1100),例如50代表50%的使用率。 保留大小(MB):保留的磁盘大小,如果文件大小、磁盘使用率、保留大小参数都存在,优先级是磁盘使用率>保留大小>文件大小。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机磁盘填充
      • 云主机DNS篡改
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到DNS篡改 动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录应用性能监控 控制台,观测已接入应用的HTTP请求错误数、HTTP状态码统计指标。 2、业务应用验证: 使用 ping 或 dig 命令访问被篡改的域名(例如 ping yourtampereddomain.com)。预期 ping 命令会尝试连接“映射IP”,而不是该域名真实的IP地址。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机DNS篡改
      • 云主机端口占用
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到端口占用动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录应用性能监控 控制台,观测已接入应用的应用提供服务请求量、应用提供服务平均响应时间指标。 2、业务应用验证: 尝试启动原本需要使用该端口的业务服务。预期服务启动会失败,并在其日志或控制台输出中看到明确的错误信息,如 Address already in use 或 端口已被占用。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机端口占用
      • 云主机磁盘IO Hang
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到磁盘夯死动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 注意 此演练具有高度破坏性,请务必在充分了解其风险后,在非生产环境中谨慎操作。 通信中断 :磁盘夯死后,探针自身也无法写入心跳或状态日志,将导致其与故障演练平台失联。因此,在控制台上,该演练任务的状态可能显示为执行失败,但这恰恰是故障注入成功的表现。 无法自动恢复:持续时间到达后,自动恢复机制可能失效,因为恢复命令同样需要I/O操作。 恢复方式 :建议恢复方法是通过云主机控制台,对目标实例执行强制重启操作。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机磁盘IO Hang
      • 云主机网络包重复
        本章节介绍云主机网络包重复故障演练。 背景介绍 在网络传输过程中,因设备配置错误(如交换机端口镜像)、中间件异常(如负载均衡重复转发)或协议缺陷,可能导致数据包被复制并多次送达目标主机。虽然 TCP 协议能够识别并丢弃重复的数据包以保证数据完整性,但这个过程会消耗额外的网络带宽和CPU资源。更严重的是,对于应用层协议,如果缺乏幂等性设计,重复的请求可能导致业务逻辑被错误地执行多次(如重复下单、重复扣款)。本演练模拟此场景,帮助您检验系统的处理能力和业务逻辑的幂等性。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是通过增加TC和Netem规则模拟主机内网络包重复。 注意 只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择网络包重复动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 本地端口:仅对源端口为指定端口的流量生效。例如,可设置为您对外提供服务的端口。可以指定多个,使用逗号分隔或者连接符表示范围,例如 80,80008080。 远程端口:仅对目标端口为指定端口的流量生效。例如,可设置为您的应用访问数据库的端口。可以指定多个,使用逗号分隔或者连接符表示范围,例如 80,80008080。 排除端口:排除指定端口的流量。可以指定多个,使用逗号分隔或者连接符表示范围,例如 22,8000 或者 80008010。 这个参数不能与本地端口或者远程端口参数一起使用。 目标IP: 支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP,如 192.168.1.1 或者 192.168.1.1/32,还可以通过逗号分隔多个参数,例如 192.168.1.1,192.168.2.1。 网卡设备:指定在哪个网络接口上实施故障,网卡可通过ifconfig命令查询,例如 eth0。 排除IP:排除受影响的 IP,支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP,如 192.168.1.1 或者 192.168.1.1/32,还可以通过逗号分隔多个参数,例如 192.168.1.1,192.168.2.1。 包重复百分比:数据包被复制的概率(取值 0100)。例如,设置为 10 表示每100个包中约有10个会被复制并重复发送一次。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机网络包重复
      • 云主机内存高负载
        本章节介绍云主机内存高负载故障演练。 背景介绍 当云主机的内存被异常占用(例如,由应用内存泄漏、缓存数据无限制膨胀或资源配额不足引起),其内存使用率会飙升。一旦可用内存耗尽,系统可能会频繁进行内存交换,甚至触发 OOM Killer(OutOfMemory Killer)来强制终止进程,导致服务中断。本演练模拟内存资源被持续占用的高负载场景,帮助您检验系统的内存监控告警、评估应用的内控管理能力,并验证 OOM Killer 触发时的系统行为。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是启动自定义程序不断申请内存,模拟主机内存负载升高。 注意 设置高负载的内存故障注入后,可能会使得机器无法登入与控制,请谨慎使用。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择内存高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 内存占用率:取值范围为0100。注意:设置过高的占用率可能出现无法自动恢复的情况,可在云主机控制台操作重启机器恢复。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机内存高负载
      • 云主机DNS不可用
        本章节介绍云主机DNS不可用故障演练。 背景介绍 DNS 服务器故障、网络配置错误或网络分区等问题,都可能导致云主机无法解析域名,进而引发服务间调用失败、无法访问外部依赖等严重后果。本演练模拟 DNS 不可用的场景,帮助您评估业务对 DNS 服务的依赖程度和系统的容错能力,提前检验和完善应急预案。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是修改本地DNS解析文件或安全组(防火墙)禁用端口实现。 注意 该动作风险较大,请谨慎操作。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择DNS不可用动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 排除的域名:故障白名单,多个域名使用逗号分隔,例如test1.com,test2.com。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机DNS不可用
      • 云主机网络延迟
        本章节介绍云主机网络延迟故障演练。 背景介绍 网络延迟是分布式系统中最常见的微故障之一。跨数据中心的调用、网络拥塞、路由路径过长或中间设备处理耗时,都可能导致服务间的通信延迟增加。这会直接影响应用的响应时间,降低用户体验,甚至在级联调用中引发雪崩效应。本演练模拟可控的网络延迟,帮助您检验系统的超时设置、熔断机制的有效性,并发现潜在的性能瓶颈。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是通过增加TC和Netem规则模拟主机内网络延迟。 注意 只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择网络延迟动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 本地端口:仅对源端口为指定端口的流量生效。例如,可设置为您对外提供服务的端口。可以指定多个,使用逗号分隔或者连接符表示范围,例如 80,80008080。 远程端口:仅对目标端口为指定端口的流量生效。例如,可设置为您的应用访问数据库的端口。可以指定多个,使用逗号分隔或者连接符表示范围,例如 80,80008080。 排除端口:排除指定端口的流量。可以指定多个,使用逗号分隔或者连接符表示范围,例如 22,8000 或者 80008010。 这个参数不能与本地端口或者远程端口参数一起使用。 目标IP: 支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP,如 192.168.1.1 或者 192.168.1.1/32,还可以通过逗号分隔多个参数,例如 192.168.1.1,192.168.2.1。 网卡设备:指定在哪个网络接口上实施故障,网卡可通过ifconfig命令查询,例如 eth0。 排除IP:排除受影响的 IP,支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP,如 192.168.1.1 或者 192.168.1.1/32,还可以通过逗号分隔多个参数,例如 192.168.1.1,192.168.2.1。 延迟时间(毫秒):为每个数据包增加的固定延迟时长。 延迟浮动值(毫秒):在固定延迟时长上的随机浮动范围。最终延迟为延迟时间 ± 延迟浮动值,用于模拟更真实的网络抖动。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机网络延迟
      • 云主机网络丢包
        本章节介绍云主机网络丢包故障演练。 背景介绍 网络拥塞、物理链路故障、设备缓冲区溢出或配置错误,都可能导致数据包在传输过程中被丢弃。对于 TCP 连接,丢包会触发超时重传机制,导致通信延迟增加和有效吞吐量下降;对于 UDP 连接,丢包则意味着数据的永久丢失。本演练模拟网络丢包场景,帮助您评估应用的容错能力、检验超时和重传策略的有效性,并验证监控告警的灵敏度。 基本原理 预先在探针管理处将内部自研Agent安装至云主机上,使用管控通道下发动作执行命令。 原理是通过增加TC和Netem规则模拟主机内网络丢包。 注意 只对出方向流量生效,不会影响入流量;如果系统已配置有TC规则,动作执行会失败。 故障注入 1、纳管实例资源 1. 导航至 故障演练 > 目标应用 > 应用资源页面。 2. 在资源类型页签中选择云主机 ,然后单击添加资源。 3. 在弹出的对话框中,勾选目标云主机 实例,单击确定。 2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云主机。 添加实例 :单击添加实例 ,勾选上一步中添加的云主机实例。 添加故障动作 :单击立即添加 ,在列表中选择网络丢包动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 本地端口:仅对源端口为指定端口的流量生效。例如,可设置为您对外提供服务的端口。可以指定多个,使用逗号分隔或者连接符表示范围,例如 80,80008080。 远程端口:仅对目标端口为指定端口的流量生效。例如,可设置为您的应用访问数据库的端口。可以指定多个,使用逗号分隔或者连接符表示范围,例如 80,80008080。 排除端口:排除指定端口的流量。可以指定多个,使用逗号分隔或者连接符表示范围,例如 22,8000 或者 80008010。 这个参数不能与本地端口或者远程端口参数一起使用。 目标IP: 支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP,如 192.168.1.1 或者 192.168.1.1/32,还可以通过逗号分隔多个参数,例如 192.168.1.1,192.168.2.1。 网卡设备:指定在哪个网络接口上实施故障,网卡可通过ifconfig命令查询,例如 eth0。 排除IP:排除受影响的 IP,支持通过子网掩码来指定一个网段的IP地址, 例如 192.168.1.0/24. 则 192.168.1.0~192.168.1.255 都生效。也可以指定固定的 IP,如 192.168.1.1 或者 192.168.1.1/32,还可以通过逗号分隔多个参数,例如 192.168.1.1,192.168.2.1。 丢包百分比:数据包被丢弃的概率(取值 0100)。例如,设置为 10 表示每100个包中约有10个会被丢弃。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机网络丢包
      • 云主机网络包损坏
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到网络包损坏动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录应用性能监控 控制台,观测已接入应用的HTTP请求错误数、HTTP状态码统计指标。 2、业务应用验证: 观察应用,特别是那些进行大文件传输或对实时性要求高的服务,是否出现性能下降或连接中断。 检查应用日志,确认是否有因重传或超时导致的错误或警告信息。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机网络包损坏
      • 云主机宕机
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到主机宕机 动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录弹性云主机控制台,进入目标实例的监控指标页,观测各项监控指标,预期出现监控断点。 2、业务应用验证: 观察业务应用是否出现无响应、连接中断、服务不可用等现象。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机宕机
      • 云主机磁盘IO高负载
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到磁盘IO高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录弹性云主机 控制台,进入目标实例的监控指标页,观测磁盘读速率、磁盘写速率指标。 2、业务应用验证: 检查应用日志,确认是否存在文件读写超时、数据库连接异常或请求处理缓慢等错误。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        计算
        弹性云主机
        云主机磁盘IO高负载
      • 远程证明服务
        本文介绍天翼云远程证明服务,包括工作原理、使用方式和计费说明。 概述 天翼云远程证明服务是一个统一的解决方案,可用于验证不同平台(如鲲鹏、海光、intel 、AMD等)的可信度和在该平台中运行的代码的完整性。该服务支持对基于虚拟可信平台模块vTPM(virtual Trusted Platform Module)的平台进行证明,以及对可信执行环境TEE(Trusted Execution Environment)的状态进行证明。 工作原理 基于硬件信任根建立从硬件到软件的可信启动链,并利用该信任根对系统状态生成密码学签名的报告。远端验证者通过验证该报告的完整性和真实性,并与预定义的可信策略进行比对,来达成两个核心目标: 确认平台基于真实的硬件可信根。 确认平台运行了符合预期的软件栈。 使用方式 远程证明服务主要用于对机密云主机和可信云主机进行远程证明,目前仅提供通过OpenAPI进行认证(详细可参见远程证明服务OpenAPI),主要有以下两种使用方式: 方式一: 1. 在可信/机密云主机启动过程中,(虚拟)硬件会度量所涉及的软件并保存度量值; 2. 启动完成后,您可从云主机内调用相关接口获得“证据“,由(虚拟)硬件内密钥所签名的内容(包含度量值); 3. 您可以将“证据”提交给远程证明服务进行校验。远程证明服务负责取得(虚拟)硬件内密钥所对应的证书,用于校验“证据”确实由对应(虚拟)硬件生成,便验证了平台是基于真实的硬件可信根; 4. 您可以进一步检查“证据”中各字段的值(包含度量值),便验证了平台运行了符合预期的软件栈。 方式二: 1. 您需要制定证据校验策略,并将策略上传至远程证明服务; 2. 在可信/机密云主机启动过程中,(虚拟)硬件会度量所涉及的软件并保存度量值; 3. 启动完成后,您可从云主机内调用相关接口获得“证据“——由(虚拟)硬件内密钥所签名的内容(包含度量值); 4. 您可以将“证据”提交给远程证明服务进行校验,提交时指定使用哪个策略进行校验。远程证明服务负责取得(虚拟)硬件内密钥所对应的证书,用于校验“证据”确实由对应(虚拟)硬件生成,便验证了平台是基于真实的硬件可信根;策略中包含客户预期的“证据”中各个字段的值(包含度量值),将预期值(基准值)与生成值作对比,便验证了平台是基于真实的硬件可信根。
        来自:
        帮助文档
        弹性云主机 ECS
        安全合规
        机密计算与可信计算
        远程证明服务
      • 查询专属宿主机规格
        参数 是否必填 参数类型 说明 示例 下级对象 regionID 是 String 资源池ID,您可以查看 bb9fdb42056f11eda1610242ac110002 azName 否 String 可用区名称,您可以查看 cnhuadong1jsnj3Apublicctcloud hostID 是 String 专属宿主机ID,获取: 查 417cdb4bde54e5e562dab78533a45b38
        来自:
      • 集群操作
        本文向您介绍裸金属集群操作,包括集群的删除、重试配置,帮助您了解裸金属集群的基本情况。 使用前提 已创建裸金属集群。 操作步骤 重试配置 1. 登录公共算力服务控制台,单击左侧导航栏中的【集群>裸金属集群】,进入集群列表页。 2. 在集群列表中,选择配置失败的集群,点击【重试配置】按钮进行重试。 删除集群 1. 登录公共算力服务控制台,单击左侧导航栏中的【集群>裸金属集群】,进入集群列表页。 2. 在集群列表中,在需要删除的集群操作栏点击【删除】按钮。删除成功后集群在控制台不可见,无法找回。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        裸金属集群
        集群操作
      • 管理子网ACL规则
        本文介绍子网ACL规则使用的相关功能。 操作场景 当您需要添加策略对出入子网的流量进行控制时,您可以点击添加出/入方向规则。 入方向规则:指外部网络访问被ACL关联的子网内服务器。 出方向规则:指被ACL关联的子网内的服务器访问外部网络。 添加规则 1. 登录公共算力服务控制台。 2. 单击左侧导航栏的【网络>子网ACL】,进入子网ACL列表。 3. 在子网ACL列表页点击【配置规则】进入到子网ACL详情页面。 4. 点击入/出方向规则下的【添加入/出方向规则】进行添加。 参数说明: 配置 说明 优先级 规则优先级,可选值为199,数字越小,优先级越高。 类型 仅支持IPv4协议。 策略 选择入方向规则的授权策略。 允许:允许外部地址访问子网中的服务器。 拒绝:拒绝外部地址访问子网中的服务器。 选择出方向规则的授权策略。 允许:允许子网中的服务器访问外部地址。 拒绝:拒绝子网中的服务器访问外部地址。 协议 选择协议类型,支持以下几种协议:全部:所有协议。TCP:传输控制协议。UDP:用户数据报协议。ICMP:网络控制报文协议。 来源/目的地址 支持IPv4的单个地址、地址段和任意地址。 单个IP地址:192.168.10.10/32(IPv4地址) ; IP地址段:192.168.1.0/24(IPv4地址段) ; 所有IP地址:0.0.0.0/0(IPv4任意地址) ; 来源/目的端口 端口范围,取值范围是1~65535的数字。选择TCP或UDP协议时必须填写。 描述 网络ACL规则的描述信息,非必填项。
        来自:
      • 管理子网ACL实例
        本文介绍子网ACL实例的相关功能。 子网ACL概述 子网ACL(Access Control List, ACL)是虚拟私有云网络VPC(Virtual Private Cloud, VPC)中的网络访问控制功能。可以通过自定义设置网络ACL规则,实现对子网中虚拟机实例流量的访问控制。 使用限制: 一个子网ACL实例可以关联多个子网,但一个子网同一时间只能关联一个子网 ACL。 关联子网后,子网ACL默认拒绝所有出入子网的流量。 默认放通同一子网内的流量及预留子网。 创建子网ACL 1. 登录公共算力服务控制台。 2. 单击左侧导航栏的【网络>子网ACL】,点击左上角【创建子网ACL】。 3. 在创建子网ACL页面,配置以下参数,完成创建。 参数说明: 参数 说明 名称 输入子网ACL的名称。 描述 输入子网ACL的描述。 查看子网ACL 1. 登录公共算力服务控制台。 2. 单击左侧导航栏的【网络>子网ACL】,进入子网ACL列表,点击任意实例查看详情信息。 关联子网 1. 登录公共算力服务控制台。 2. 单击左侧导航栏的【网络>子网ACL】,进入子网ACL列表。 3. 在子网ACL列表页点击【关联子网】进入到子网ACL详情页面。 4. 在【关联子网】页签,点击【关联子网】。 5. 勾选要关联的子网,点击【绑定】。 6. 查看子网ACL详情,显示关联的子网已完成绑定。 说明: 已被网络ACL关联的子网将不会展示在其他ACL关联子网的弹窗中,如您需要更换ACL与子网之间的绑定关系,请先解除已绑定的ACL和子网,再重新关联。 一个子网同一时间仅支持一个ACL,一个ACL支持关联多个子网。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        网络
        子网ACL
        管理子网ACL实例
      • 纳管节点
        本文向您介绍纳管节点,帮助您了解息壤智算集群节点的基本情况。 在指定息壤智算集群详情中,纳管已购裸金属节点并自动加入息壤智算集群。 使用前提 已创建息壤智算集群,且集群状态为运行中。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。选择具体集群进入集群详情页。 2. 选择【业务节点】栏,点击【纳管节点】 ,打开已购节点选择页面。 3. 系统判断是否符合纳管条件,输入节点密码,点击【确定】,完成纳管。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        息壤智算集群
        集群详情
        纳管节点
      • 检测历史
        检测信息类型 检测详情内容 检测基本信息 报告ID、检测类型、检测开始时间、检测结束时间、检测状态、检测耗时。 检测结果汇总 检测结果完成情况、检测项通过情况。 检测结果列表 列出各项检测结果。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        环境检测
        检测历史
      • 重试绑定节点
        本文向您介绍重试绑定节点,帮助您了解息壤智算集群节点的基本情况。 使用前提 已创建息壤智算集群,且节点绑定状态为“绑定失败”。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。选择具体集群进入集群详情页。 2. 选择【业务节点】栏,选择绑定状态为【绑定失败】的节点,点击【重试绑定】。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        息壤智算集群
        集群详情
        重试绑定节点
      • 集群操作
        本文向您介绍息壤智算集群操作,包括集群的停用、启用、删除。帮助您了解息壤智算集群的基本情况。 使用前提 已创建息壤智算集群。 操作步骤 1. 重试配置集群 1)登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。 2)在集群列表中,选择配置失败的集群,点击【重试配置】按钮进行重试。 2. 停用集群 1)登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。 2)在集群列表中,选择相应的集群,点击【停用】按钮。退订集群控制面之前,需要实例先关机作为依赖条件,停用集群即对集群控制面实例进行关机操作。 3. 启用集群 1)登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。 2)在集群列表中,选择相应已停用的集群,点击【启用】按钮。启用则对集群控制面节点重新开机。 4. 删除集群 1)登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。 2)在集群列表中,在需要删除的集群操作栏点击【删除】按钮。删除成功后集群在控制台不可见,无法找回。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        息壤智算集群
        集群操作
      • 锁定节点
        本文向您介绍锁定息壤智算集群节点,帮助您了解息壤智算集群的基本情况。 在指定息壤智算集群详情中,锁定集群中的节点,使之不再接收业务调度。 使用前提 节点已绑定集群,状态为“已绑定正常”、“已绑定异常”。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的【息壤智算集群】,进入集群列表页。选择具体集群进入集群详情页。 2. 在具体节点行对应的操作,点击【锁定】 。 3. 确认信息后点击【确定】。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        息壤智算集群
        集群详情
        锁定节点
      • 管理DNAT规则
        本节介绍DNAT规则的创建和管理。 概述 NAT网关DNAT规则为对应子网下的实例面向公网提供服务。 设置DNAT规则 1. 登录公共算力服务控制台。 2. 单击左侧导航栏的【网络>NAT网关】,进入NAT网关列表。 3. 在NAT网关列表单击NAT网关名称或者在操作栏单击【设置DNAT】进入到NAT网关详情页面。 4. 在【DNAT】页签,单击【添加DNAT规则】。 5. 在【添加DNAT规则】页面,配置以下参数: 参数 说明 名称 DNAT规则名称,名称系统自动生成。 端口类型 分为指定端口和所有端口两种类型。 指定端口:通过端口映射方式,NAT网关会将以指定协议和端口访问对应弹性公网IP的请求转发到私网IP绑定的实例上。 所有端口:通过IP映射方式,任何访问对应弹性公网IP的请求都将转发到目标私网IP绑定的实例上。 公网端口 端口类型设置为指定端口时;外部公网用户访问服务的端口,端口范围1~65535。部分资源池端口范围在1到1024之间,具体以控制台为准。 私网端口 端口类型设置为指定端口时;应用在内部提供服务使用的端口,端口范围1~65535。 支持协议 分为TCP和UDP两种协议类型,端口类型为指定端口时,可选TCP或UDP,端口类型为所有端口时,此参数默认设置为全部。 公网IP 弹性公网IP。 私网IP实例类型 可以是虚拟机或裸金属,必选项。 描述 DNAT规则的描述信息,非必填项。 6. 配置完成后,单击【提交】完成DNAT规则创建,创建成功后立即生效,外部访问部署在私网IP实例上的业务,可通过NAT网关实现业务访问。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        网络
        NAT网关
        管理DNAT规则
      • 服务器检测
        服务器检测提供针对集群的GPU、NPU节点的检测能力,主要检测节点的关键软硬件是否安装,关键配置是否开启,参与训练的多节点配置是否一致,配置是否符合用户设定等方面。 此功能目前只在部分资源池提供,具体资源池信息请询问客户经理 使用前提 当前用户是主账号。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的【服务器检测】,进入服务器检测任务新建页。 2. 选择检测类型,【Nvidia系列】或者【昇腾系列】。 3. 选择检测内容。 字段 说明 节点通用检测项 该项为系统内置检测项,用来判断单个节点的关键软件和配置是否符合预期,用户可以根据自己的业务需求进行检测项的选择,检测结果为“通过”或“不通过”。 多节点一致性检测项 系统内置检测项,用来判断参与训练的多节点关键配置是否一致。主要分为两种场景: 1. 第一种场景:用户选择其中一个节点的配置作为基线,其他节点均和基线节点进行对比,如果结果一致,则检测结果为“通过”,不一致,则检测结果为“不通过”。 2. 第二种场景:用户没有设置基线节点,则将对所有节点的安装配置结果进行统计,将每项检测的所有检测结果详细列出,结果“不涉及”是否通过。 节点可配置检测项 系统内置检测项和用户自定义检测参数。针对具体检测项,用户可自行定义检测标准,检测结果为“通过”或“不通过”。 4. 选择检测目标。 字段 说明 集群 根据选择的系列(Nvidia或昇腾)列出相关集群供用户选择(单选)。 节点 左侧选择集群内单个或多个节点作为目标,将其移动到右侧成为已选节点。 开启基线节点设置 选择一个节点作为多节点一致性检测的基线节点,此项为非必选。如果选择“开启节点基线设置”,则需要在右侧已选节点列表中选择一个节点作为基线节点。 输入节点密码 输入创建该节点时设置的密码。注意:选择多个节点需要保证所有节点的密码一致,节点密码只有一个输入框,如不一致会检测失败。 5. 开始检测: 1) 点击【开始检测】,启动检测,也可以点击【检测历史】查看节点的历史检测报告。 2) 启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        环境检测
        服务器检测
      • 管理SNAT规则
        参数 说明 子网 使用SNAT规则出网的子网,必选项。 公网IP NAT网关绑定的EIP,且未用于所有端口的DNAT规则,必选项。同一个EIP仅支持关联一条SNAT规则。 名称 SNAT规则名称,名称系统自动生成。 描述 SNAT规则的描述信息,非必填项。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        网络
        NAT网关
        管理SNAT规则
      • 通讯库性能检测
        通讯库性能检测对两种典型的集合通讯库,即英伟达系列的NCCL和升腾系列的HCCL进行多种通信模型的性能检测,可输出算法带宽,辅助用户判断环境健康。 此功能目前只在部分资源池提供,具体资源池信息请询问客户经理 使用前提 当前用户是主账号。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的【通讯库性能检测】,进入通讯库性能检测新建页。 2. 选择检测内容。 字段 说明 通讯库类别 nccl(英伟达)、hccl(昇腾)。 通讯模型 选择相关通讯模型(单选)。 单节点待测GPU数量 18,默认为8,目前支持的节点规格单节点不会超过8卡。 3. 选择检测目标。 字段 说明 集群名称 根据选择的通讯库(nccl或hccl)列出相关集群供用户选择。如选择nccl,则列出英伟达资源组;选择了hccl,列出昇腾资源组。 选择节点 根据选择的集群列出集群下方的节点,对节点进行勾选,可多选。 节点密码 输入集群下节点的密码,(该密码为root用户密码)。 注意:集群下各节点密码需要保持一致,该输入框只能输入一个节点密码,不一致会检测失败。 4. 开始检测。 1)点击【开始检测】,启动检测,也可以点击【检测历史】查看节点的历史检测报告。 2)启动之后,进行检测确认。确认之后,跳入检测历史页面进行检测结果查看。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        环境检测
        通讯库性能检测
      • 续订集群
        本文向您介绍息壤智算集群续订,帮助您了解息壤智算集群的基本情况。 续订集群即对于未选择自动续订的资源,将集群控制面云主机及ELB资源进行整体续订。 使用前提 当前用户是主账号。 操作步骤 1. 登录公共算力服务控制台,单击左侧导航栏中的“息壤智算集群”,进入集群列表页。 2. 单击列表页中集群名称,进入集群详情页面,选择“集群控制面实例”栏。 3. 查看当前集群管理面的云主机和负载均衡的信息。点击“续订”按钮进入订单续订管理页面,根据集群ID进行续订。续订时请务必保证云主机和弹性负载均衡实例一同续订,以防集群不能正常使用。
        来自:
        帮助文档
        公共算力服务
        用户指南
        通用计算
        息壤智算集群
        续订集群
      • 1
      • ...
      • 124
      • 125
      • 126
      • 127
      • 128
      • ...
      • 129
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      聚力AI赋能 天翼云大模型专项

      大模型特惠专区·Token Plan 轻享包低至9.9元起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云信创专区

      “一云多芯、一云多态”,国产化软件全面适配,国产操作系统及硬件芯片支持丰富

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      弹性云主机 ECS

      物理机 DPS

      多活容灾服务 MDR

      GPU云主机

      轻量型云主机

      弹性高性能计算 E-HPC

      天翼云CTyunOS系统

      训推服务

      AI Store

      推荐文档

      购买类

      购买License

      升级

      邀请参会方

      开票月账单金额与消费记录金额不一致怎么办?

      成员权限

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号