活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
热门活动
  • 安全隔离版OpenClaw NEW OpenClaw云服务器专属“龙虾“套餐低至1.5折起
  • 青云志云端助力计划 NEW 一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云
  • 云上钜惠 爆款云主机全场特惠,2核4G只要1.8折起!
  • 中小企业服务商合作专区 国家云助力中小企业腾飞,高额上云补贴重磅上线
  • 出海产品促销专区 NEW 爆款云主机低至2折,高性价比,不限新老速来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

息壤智算

领先开放的智算服务平台,提供算力、平台、数据、模型、应用“五位一体”智算服务体系,构建全流程的AI基础设施能力
AI Store
  • 算力市场
  • 模型市场
  • 应用市场
  • MCP市场
公共算力服务
  • 裸金属
  • 定制裸金属
训推服务
  • 模型开发
  • 训练任务
  • 服务部署
模型推理服务
  • 模型广场
  • 体验中心
  • 服务接入
应用托管
  • 应用实例
科研助手
  • 科研智能体
  • 科研服务
  • 开发机
  • 并行计算
大模型
  • DeepSeek-V3.1
  • DeepSeek-R1-0528
  • DeepSeek-V3-0324
  • Qwen3-235B-A22B
  • Qwen3-32B
智算一体机
  • 智算一体机
模型适配专家服务
  • 模型适配专家服务
算力服务商
  • 入驻算力服务商

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场进入AI Store创新解决方案公有云生态专区智云上海应用生态专区
建站工具
  • 新域名服务
  • SSL证书
  • 翼建站
企业办公
  • 安全邮箱
  • WPS 365 天翼云版
  • 天翼企业云盘(标准服务版)
灾备迁移
  • 云管家2.0
  • 翼备份(SaaS版)

定价

协助您快速了解云产品计费模式、价格详情,轻松预估上云成本
价格计算器
  • 动态测算产品价格
定价策略
  • 快速了解计费模式

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼信创云专区
  • 信创云专区
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
培训与认证
  • 天翼云学堂
  • 天翼云认证
开源社区
  • 魔乐社区
  • OpenTeleDB

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 服务保障
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家
我要反馈
  • 建议与反馈
  • 用户体验官
信息公告
  • 客户公告

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 息壤智算
  • 产品
  • 解决方案
  • 应用商城
  • 定价
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心
      云监控服务_相关内容
      • 资源报表
        收发TPS说明 收发TPS(每秒事务处理量)指标具有重要的意义,特别是在物联网和实时通信应用中。以下是收发TPS的作用: 性能评估: 收发TPS是衡量MQTT系统性能的关键指标之一。它可以告诉您系统每秒处理多少条消息,帮助您评估MQTT代理服务器、网络和应用程序的性能。通过监控和分析收发TPS,您可以确定系统的性能是否足够满足实际需求,并及时识别性能瓶颈。 负载均衡和容量规划: 收发TPS数据可以用来规划系统的容量和负载均衡策略。如果TPS持续增加,您可能需要考虑增加服务器资源、使用负载均衡来分散流量,或者优化消息处理逻辑,以确保系统能够承受更高的负载。 故障检测和故障排除: 收发TPS的突然下降或波动可能表明系统中存在故障或问题。通过实时监控TPS,您可以更早地发现问题并快速采取措施来排除故障,以减少服务中断时间。 服务级别协议(SLA)的监测: TPS数据可以用于监测和验证SLA。您可以使用TPS数据来确保服务提供商满足合同中规定的性能指标。 优化消息传输: 通过分析TPS数据,您可以识别哪些主题或设备产生了高消息流量,从而可以采取措施来优化消息传输,减少不必要的消息传递或者改进消息过滤机制。 MQTT的收发TPS数据对于监控、优化性能、规划容量、故障排除和满足SLA等方面都具有重要的意义。它们提供了有价值的洞察,帮助您确保MQTT系统在各种条件下都能够稳定运行并满足需求。
        来自:
      • 只读实例简介
        说明:本章节会介绍如何什么是只读实例 产品简介 目前,云数据库MySQL 5.6/5.7版的实例支持只读实例和开通读写分离功能。 在对数据库有少量写请求,但有大量读请求的应用场景下,单个实例可能无法抵抗读取压力,甚至对主业务产生影响。为了实现读取能力的弹性扩展,分担数据库压力,您可以在某个区域中创建一个或多个只读实例,利用只读实例满足大量的数据库读取需求,以此增加应用的吞吐量。您需要在应用程序中分别配置主实例和每个只读实例的连接地址,才能实现将写请求发往主实例而将读请求发往只读实例。 只读实例为单个物理节点的架构(没有备节点),采用MySQL的原生复制功能,将主实例的更改同步到所有只读实例,而且主实例和只读实例之间的数据同步不受网络延时的影响,只读实例跟主实例在同一区域,但可以在不同的可用区。 功能特点 规格可以与主实例不一致,并可以随时更改规格(没有时间限制),便于弹性升降级。 不需要维护帐号与数据库,全部通过主实例同步。 提供系统性能监控。 关系型数据库服务提供近20个系统性能的监控视图,如磁盘容量、IOPS、连接数、CPU利用率、网络流量等,用户可以轻松查看实例的负载。 功能限制 1个主实例最多可以创建5个只读实例。 备份设置:不支持备份设置以及临时备份。 实例恢复:不支持通过备份文件或任意时间点创建临时实例,不支持通过备份集覆盖实例。 数据迁移:不支持将数据迁移至只读实例。 数据库管理:不支持创建和删除数据库。 帐号管理:只读实例不提供创建帐号权限,如需增加只读实例帐号,请在主实例上操作。
        来自:
        帮助文档
        专属云(关系型数据库MySQL)
        用户指南
        只读实例
        只读实例简介
      • 查看Topic
        介绍分布式消息服务Kafka主题列表功能操作内容。 场景描述 Kafka主题列表是Kafka消息队列中的一个重要概念,用于列出所有可用的主题。以下是一些Kafka主题列表的应用场景的描述: 监控和管理:通过查看Kafka主题列表,管理员可以了解当前系统中存在的所有主题。他们可以监控主题的状态、分区数量和副本分布,并进行必要的管理操作,如创建、删除和修改主题。 数据消费者选择:Kafka主题列表可以帮助数据消费者选择他们感兴趣的主题。消费者可以浏览主题列表,找到包含他们需要的数据的主题,并订阅这些主题以接收数据。 数据集成和数据流转:Kafka主题列表可以帮助数据集成和数据流转的过程。数据源可以查看主题列表,确定将数据写入哪些主题。而数据接收方可以查看主题列表,选择他们需要的主题来消费数据。 监控数据流:通过查看Kafka主题列表,监控系统可以了解当前系统中的所有数据流。监控系统可以根据主题列表中的信息,监控每个主题的数据流量、延迟和健康状况,并进行实时的监控和报警。 系统调试和故障排查:Kafka主题列表可以帮助开发人员进行系统调试和故障排查。他们可以查看主题列表,确定消息是否正确地写入和消费,并检查主题的状态和分区情况,以解决潜在的问题。 总之,Kafka主题列表提供了对Kafka消息队列中所有主题的全局视图,帮助管理员、数据消费者和开发人员进行监控、管理和调试。 操作步骤 (1)登录管理控制台。 (2)进入Kafka管理控制台。 (3)在实例列表页在操作列,目标实例行点击“管理”。 (4)点击“Topic管理”后即可查看所有Topic的信息。 (5)右上角输入Topic名称,可查询对应Topic。
        来自:
        帮助文档
        分布式消息服务Kafka
        用户指南
        Topic管理
        查看Topic
      • 数据库实例连接
        5. 网络不通 内网访问: 内网访问需要确认弹性云主机和数据库实例在同一个区域、VPC。 查看安全组规则,不同的安全组要相应的开放出入规则,详细操作,请参考设置安全组规则。 公网访问: 检查弹性IP,弹性IP是一个单独的产品,需要检查弹性IP是否正常,以及是否正常绑定在数据库实例主机上。 查看安全组规则,需要为数据库实例添加相应的规则。详细操作,请参考设置安全组规则。 6. 实例连接数满 数据库实例连接数过多,也可能会导致业务侧无法再建立新的连接。为了避免这种情况发生,建议进行连接数的优化和限制,以确保数据库能够处理并响应所有需要的连接请求。这可以通过调整数据库连接池大小、优化业务逻辑或增加数据库实例数量等方式来实现。 7. 主机资源 当主机资源如磁盘、cpu、内存等达到上限,也会直接影响到数据库实例的连接和正常读写。为了避免这种情况,建议监控主机资源的使用情况,并根据需要进行资源的优化和扩容,以确保数据库实例能够正常运行并处理请求。详细操作,请参考用户指南监控与告警设置自定义告警规则。 外部服务器能否访问关系MySQL实例 我们提供了两种方式来访问我们的数据库实例: 公网访问:对于绑定了弹性IP(EIP)的数据库实例,我们可以直接通过外网进行访问,具体操作,可以参考通过公网连接MySQl实例。 内网访问:也可以通过内网访问数据库实例,只需将关系数据库MySQL版实例与弹性云主机创建在同一个VPC子网下,可通过弹性云主机直接访问到数据库实例,具体操作,请参考通过内网连接MySQL实例。
        来自:
        帮助文档
        关系数据库MySQL版
        常见问题
        操作类
        数据库实例连接
      • 云容器集群Pod内存高负载
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到内存高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测内存使用率指标。 验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化,并触发了相应告警 2、业务应用验证: 观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。 如果为相关 Pod 配置了基于内存的 HPA 策略,观察是否触发了自动扩容。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        云容器
        云容器引擎
        云容器集群Pod内存高负载
      • 应用场景
        云应用引擎 CAE(Cloud App Engine)具有广泛的应用场景,帮助您的企业极速上云、从容应对突发性流量洪流和灵活启停应用环境,降低资源成本。 应用托管 在企业生产环境中,通过合理拆分微服务,将每个微服务应用压缩为 ZIP 包、Docker 镜像存储在天翼云镜像仓库。您只需基于 Spring Cloud 或 Dubbo 等框架开发规范迭代每个微服务应用,由 CAE 提供底层资源调度、部署、灰度发布、微服务治理和监控诊断等能力。同时提供丰富的高级应用配置项,实现业务快速迁移上云。 零改造:CAE 能够平滑迁移应用,零改造地完成 Spring Cloud 或 Dubbo 应用快速上云。 免运维:CAE 能够免运维底层基础设施,例如 IaaS、K8s、微服务组件和 APM 组件等,无需自建注册中心,极大降低开发运维成本。 低门槛:CAE 能够一站式开箱使用全套微服务能力,提供自动构建镜像、灰度发布、流量控制、环境隔离、应用监控等企业级高级特性。 任务托管 聚焦于泛互联网、新零售、电商、文化传媒、制造、 IoT、物流、金融证券、医疗卫健和保险等行业。主要场景如下: 定时任务:定时拉取数据、爬虫。 批处理数据:数据清洗、转换、分析,对实时性要求低。 异步执行解耦:异步状态刷新以及离线查询。 微服务架构:与原有的微服务架构进行调用通信、流程解耦。 相比开源的分布式框架,其优点在于全托管免运维的用户体验,开箱即用的完备功能以及白屏化管控,任务运行完立即释放资源,不会浪费闲置资源成本。
        来自:
        帮助文档
        云应用引擎
        产品介绍
        应用场景
      • 套件概述
        本节介绍智算套件概述。 前提条件 已创建云容器引擎智算版集群。 套件介绍 套件名称 版本 套件说明 驱动管理 1.0.2 为GPU云主机或物理机的算力调度提供硬件驱动。 模型预热 1.8.0 将模型从对象存储预热到本地盘,大幅提升模型部署效率。 智算套件控制面引擎 1.0.5 提供高可用控制面,管理智算套件控制台正常运行。 故障诊断 1.0.3 为集群提供集群巡检、故障诊断等能力。 网络 1.0.3 为集群容器提供使用RDMA网络的能力,包括IB和RoCE。 弹性数据集 1.0.0 支持数据集版本管理,提供弹性加载能力。 弹性训练 1.0.5 为集群提供AI任务接入,兼容主流AI框架和工具,包括TensorFlow、PyTorch、Horovod、Spark等。 GPU安全容器 1.0.0 支持Kata安全容器运行时,满足业务高安全需求。 智能调度 1.0.9 为集群提供智能任务调度策略,可支持Gang、Capacity、Binpack/Spread和Queue等智能调度。 监控 1.0.7 为集群提供硬件监控能力,可采集GPU/NPU,显存等,支持可视化查看GPU的分配、使用和健康状态。
        来自:
        帮助文档
        智算套件
        用户指南
        套件管理
        套件概述
      • 删除Pushgateway监控配置
        本节主要介绍如何使用API删除Pushgateway监控配置。 此操作用来删除Pushgateway监控配置。 注意 如果删除了“指标必须具备的label”,可能会造成相关监控数据无法识别的风险。 请求语法 plaintext DELETE /rest/v1/system/config/monitor?serverIdserverid1,serverid2,serveridN HTTP/1.1 Date: date ContentType: application/json; charsetutf8 ContentLength: length Host: ip:port Authorization: authorization { "pushgateway":address:port, "pushgatewayLabels": [ "key1", "key2", "key3", ... ] "collectMetric": name, "collectMetricItems": [ "item1", "item2", "item3", ... ], } 请求参数 参数 类型 描述 是否必须 serverId String 指定要删除Pushgateway监控配置的HBlock服务器ID。一次可以指定多个HBlock服务器的ID,以英文逗号(,)分开。如果不填写,默认为所有HBlock服务器删除指定的Pushgateway监控配置。 否 pushgateway String 指定Pushgateway的地址和接口。 取值:格式为IPv4 :port 、[IPv6 ]:port 或者domainname :port。 是 pushgatewayLabels Array of pushgatewayLabel 指定Pushgateway对应的标签值。 取值:label项。 否 collectMetric String 指定采集的监控指标。 取值为:server、fileSystem、interface、load、disk、tcp、os。 默认删除的上述所有监控指标。 否 collectMetricItems Array of collectMetricItem 指定监控指标下的配置项。 否 请求示例1 为服务器hblock1、hblock2删除相关的Pushgateway监控配置:标签为agent、idc,监控指标为disk,监控指标配置项为pstore、devpts。 plaintext DELETE /rest/v1/system/config/monitor?serverIdhblock1,hblock2 HTTP/1.1 Date: Fri, Fri, 24 May 2024 07:01:39 GMT ContentType: application/json; charsetutf8 Authorization: HBlock userName:signature ContentLength: 216 Host: 192.168.0.110:1443 { "pushgateway": "192.168.0.1:9091", "pushgatewayLabels": [ "agent", "idc" ], "collectMetric": "disk", "collectMetricItems": [ "pstore", "devpts" ] }
        来自:
        帮助文档
        存储资源盘活系统
        API参考
        HBlock系统设置
        Pushgateway监控配置
        删除Pushgateway监控配置
      • 功能概览
        本节介绍分布式缓存服务Redis版产品功能特性 一级分类 二级分类 功能描述 基础能力 开源兼容 兼容开源5.0,6.0,7.0系列,集群兼容性高; 支持string,hash,list,set,sortedset等常见类型。 基础能力 开箱即用 提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力。 基础能力 高级命令支持 支持事务和订阅。 基础能力 水平扩展、透明访问 支持基于水平分片算法的集群扩展、提供接入层透明的访问能力。 基础能力 CPU兼容 支持跨平台的软硬件,如飞腾、鲲鹏、海光国产CPU。 高可用 服务可靠性 支持主备、集群高可用实例类型。 高可用 节点故障自动切换功能 节点故障自动检测、恢复。 高可用 数据持久化 RDB+AOF组合持久化策略,保障数据丢失最小化。 高可用 在线扩容 支持实例存储空间、内存等资源平滑扩容。 运维 集群管理 集群可视化管理,查看节点状态,修改配置。 运维 运维监控 提供丰富的服务监控指标、系统监控指标。 运维 数据备份恢复 提供数据备份及数据恢复机制。 运维 安装部署 一键安装部署。 运维 权限管理 支持多账号,支持设置读写、只读权限,最小化授权。 运维 日志功能 支持日志记录、慢日志排查超时问题等日志功能。 开发 多语言连接 支持Java、Python、C
        来自:
        帮助文档
        分布式缓存服务Redis版
        产品介绍
        功能概览
      • 巡检历史:查询列表
        参数 参数类型 说明 示例 下级对象 productType String 本参数表示产品类型。取值范围:vm:云主机。根据以上范围取值。 vm inspectionType Integer 本参数表示巡检类型。取值范围:1:资源健康评估。2:资源风险识别。根据以上范围取值。 1 inspectionItem Integer 本参数表示巡检项。取值范围:1:云主机性能评估。2:监控数据健康评估。3:云主机闲置资源检查。4:云主机磁盘使用预警评估根据以上范围取值。 1 level Integer 本参数表示重要等级。取值范围:1:低。2:中。3:高。根据以上范围取值。 2 description String 巡检项描述 云主机磁盘空间耗尽风险 inspectionResult Boolean 本参数表示巡检结果。取值范围:true:正常。false:异常。根据以上范围取值。 true anomalyCount Integer 异常数量 10
        来自:
        帮助文档
        云监控服务
        API参考
        API(新)
        智能巡检
        巡检记录
        巡检历史:查询列表
      • 天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
        网络及高级配置 设置网络,包括"网卡"、"安全组",这里,为安全和成本考虑,我们先不设置弹性IP,后续按需开放IP;设置高级配置,包括"登录方式"、"云主机组"、"用户数据"。 4. 确认并支付 步骤二:配置弹性负载均衡 现在,我们已经有了两台 DeepseekR132B 服务器,接下来,我们利用弹性负载均衡构建一个可任意横向扩容的 Deepseek 集群。 1. 配置 vllm 服务 首先需要为所有服务器上的 vllm 服务配置相同的 apikey。 服务的配置文件目录在 /var/vllmservice.env ,我们将APIKEY 设置为想要的值。 然后重启服务。 plaintext systemctl restart vllm 2. 创建弹性负载均衡 我们参考弹性负载均衡官方文档进行服务创建。 1. 创建弹性负载均衡 在此例中,我们的Deepseek集群仅用于集群自带的 Open WebUI内网使用,不涉及外网通讯,因此 “网络类型” 选择 “内网”,如果你想将此集群暴露到外网,则选择外网。VPC和子网跟 Deepseek 服务器保持一致。 2. 创建监听器 完成网络负载均衡创建,接下来配置监听器,在负载均衡列表页,点击开始配置。 端口类型,选择 “HTTP”,端口填 8000。 进入下一步,创建健康检查。这里我们通过 HTTP 进行健康检查,返回码部分选择 2xx、3xx、4xx。 点击“立即创建”,完成创建。 3. 为监听器开通GPU云主机白名单 此时监听器列表中,我们可以看到访问Deepseek服务器的主机组地址为 “100.89.0.0/16”,我们需要在Deepseek集群的安全组中,为vllm端口配置此地址的白名单。 为Deepseek云主机所在的安全组新增规则,操作文档详见添加安全组规则帮助文档。 4. 为监听器添加后端云主机 选中主机,然后下一步。 设置端口为 “8000”。 点击确认即可完成配置。 5. 验证连通性 监听器页面,显示监控检查正常。 通过一台 Deepseek 服务器,测试负载均衡连通性。
        来自:
        帮助文档
        弹性云主机 ECS
        最佳实践
        AIGC实践
        天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
      • 产品定义
        如何访问云服务备份 通过管理控制台、基于HTTPS请求的API(Application Programming Interface)两种方式访问云服务备份。 管理控制台方式 管理控制台是网页形式的,您可以使用直观的界面进行相应的操作。登录管理控制台,选择“云服务备份”。 API方式 如果用户需要将云平台上的云服务备份集成到第三方系统,用于二次开发,请使用API方式访问云服务备份。 与云主机备份( CSBS) 、云硬盘备份(VBS)的关系 云服务备份(CBR)作为云主机备份(CSBS)与云硬盘备份(VBS)的下一代产品,在功能上包括了现在云主机备份和云硬盘备份的能力,增加了支持企业项目管理,统一身份认证,云监控,云审计等,优化了计费方式。后续备份服务新增特性将在CBR上演进, CSBS与VBS不再提供新特性。云服务备份上线后,天翼云官网服务目录的CSBS与VBS会跳转到CBR,旧版CSBS与VBS入口将会关闭。 针对已经在使用CSBS和VBS的用户,可以选择同时使用CBR和CSBS、VBS,也可以通过CBR提供的迁移功能将原CSBS、VBS的备份策略、备份数据一键迁移到CBR,迁移后的备份数据将按照CBR的计费模式进行计费。 新客户(新注册用户或存量未使用旧版产品的用户)请直接使用云服务备份(CBR)产品。
        来自:
        帮助文档
        云服务备份
        产品介绍
        产品定义
      • 实例内存使用率过高的影响是什么?
        观测现象 我们通过观察天翼云云搜索实例中的实例监控,可以看到节点的内存使用率和JVM内存使用率等内存监控指标,当这些指标较高时,可能会对于实例的性能有明显影响。 问题解决 需要明确的是,在Elasticsearch/OpenSearch实例中,根据设置,我们往往会分配机器内存一半的量来分配给JVM,以供给Elasticsearch/OpenSearch服务使用。 剩下的内存,绝大部分被分配给了Lucene用来支持索引的底层服务。因此系统的总内存使用率往往处于高位,这个是常见的现象。 但是长期的内存高使用率,不仅有可能诱发OOM故障,也对于大批量写入和查询有性能影响,我们建议,当内存使用率长期处于高位的时候,应该密切观察内存相关指标。最好通过水平扩容或者垂直扩容来提升实例的规格,避免业务受损。
        来自:
        帮助文档
        云搜索服务
        常见问题
        实例可观测性及运维
        实例内存使用率过高的影响是什么?
      • ALM-14022 NameNode RPC队列平均时间超过阈值
        查看HDFS负载变化情况,适当降低HDFS负载 20.在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > HDFS”,单击图表区域右上角的下拉菜单,选择“定制”,单击“RPC”,在弹出的对话框中选择“NameNode RPC队列平均时间”,单击“确定”。 21.单击,进入监控详细信息界面。 22.设置监控显示的时间段,从告警产生的时间的前5天开始,到告警产生时刻结束。单击“确定”按钮。 23.在“NameNode RPC队列平均时间”监控中,查看该监控是否有开始急剧增加的时间点。 是,执行步骤24。 否,执行步骤27。 24.确认并排查在该时间点,是否有新增任务大量访问HDFS,确认该任务是否可以调优,减少对HDFS的访问。 25.如果在该时间点有执行Balancer,则可以停止Balancer,或指定节点执行Balancer任务,来降低对HDFS的负载。 26.等待1小时,查看该告警是否自动消除。 是,处理结束。 否,执行步骤27。 收集故障信息 27.在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 28.在“服务”勾选待操作集群的HDFS节点信息。 29.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 30.请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。
        来自:
        帮助文档
        翼MapReduce
        用户指南
        FusionInsight Manager操作指导(适用于3.x)
        告警参考(适用于MRS 3.x版本)
        ALM-14022 NameNode RPC队列平均时间超过阈值
      • 云容器集群节点磁盘IO高负载
        2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云容器引擎节点。 添加实例 :单击添加实例 ,勾选上一步中添加的云容器引擎节点实例。 添加故障动作 :单击立即添加 ,在列表中选择磁盘IO高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 读负载:开启读压力模式,创建一个临时文件并对其进行持续的读取操作。 写负载:开启写压力模式,持续向一个临时文件写入数据。 块大小(MB):控制单次读写操作的数据块大小,单位为MB。增大此值可以提升单次操作的 IO 压力。通常保持默认值即可。 3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到磁盘IO高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测磁盘读写速率(Bps)指标。 2、业务应用验证: 观察运行在目标节点上、且挂载了持久化存储(PVC)的业务 Pod(如数据库、中间件等),确认其读写性能是否下降或出现超时。 检查无状态应用的日志写入是否出现延迟或失败。 验证您的业务监控告警系统是否成功捕获到节点磁盘I/O异常或应用性能劣化,并触发了相应告警。
        来自:
        帮助文档
        应用高可用
        用户指南
        故障演练服务
        故障动作库
        云容器
        云容器引擎
        云容器集群节点磁盘IO高负载
      • 云容器集群节点磁盘IO高负载(1)
        2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云容器引擎节点。 添加实例 :单击添加实例 ,勾选上一步中添加的云容器引擎节点实例。 添加故障动作 :单击立即添加 ,在列表中选择磁盘IO高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 读负载:开启读压力模式,创建一个临时文件并对其进行持续的读取操作。 写负载:开启写压力模式,持续向一个临时文件写入数据。 块大小(MB):控制单次读写操作的数据块大小,单位为MB。增大此值可以提升单次操作的 IO 压力。通常保持默认值即可。 3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到磁盘IO高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测磁盘读写速率(Bps)指标。 2、业务应用验证: 观察运行在目标节点上、且挂载了持久化存储(PVC)的业务 Pod(如数据库、中间件等),确认其读写性能是否下降或出现超时。 检查无状态应用的日志写入是否出现延迟或失败。 验证您的业务监控告警系统是否成功捕获到节点磁盘I/O异常或应用性能劣化,并触发了相应告警。
        来自:
      • 统一身份认证IAM介绍
        弹性云主机接口对应权限表 如下是弹性云主机服务相关权限三元组及生效范围: 控制台接口 权限三元组 配置支持 控制台接口 权限三元组 IAM(资源池/全局) 企业项目(资源组) 创建云主机 ecs:cloudServers:create √ √ 创建相同配置 ecs:cloudServers:create √ √ 克隆云主机 ecs:cloudServers:create √ √ 恢复包周期退订云主机 ecs:cloudServers:create √ √ 云主机列表获取 ecs:cloudServers:list √ √ 搜索 ecs:cloudServers:list √ √ 刷新 ecs:cloudServers:list √ √ 导出全部实例 ecs:cloudServers:list √ √ 导出所选实例 ecs:cloudServers:list √ √ 云主机详情获取 ecs:cloudServers:get √ √ 修改云主机名称 ecs:cloudServers:put √ √ 修改实例名称 ecs:cloudServers:put √ √ 修改云主机描述 ecs:cloudServers:put √ √ 编辑云主机属性 ecs:cloudServers:put √ √ 开机 ecs:cloudServers:start √ √ 关机 ecs:cloudServers:stop √ √ 重启 ecs:cloudServers:reboot √ √ 续订 ecs:cloudServers:create √ √ 退订(包周期) ecs:cloudServers:delete √ √ 删除(按需付费) ecs:cloudServers:delete √ √ 立即释放 ecs:cloudServers:delete √ √ 重置密码 ecs:cloudServers:resetServerPwd √ √ 一键重装 ecs:cloudServers:rebuild √ √ 全部重启 ecs:cloudServers:reboot √ √ VNC远程登录 ecs:cloudServers:rlogin √ √ TeleCloudShell登录 ecs:cloudServers:rlogin √ √ 开启实例删除保护 ecs:delProtect:update √ √ 关闭实例删除保护 ecs:delProtect:update √ √ 创建快照 ecs:snapshot:create √ √ 制作镜像 ims:serverImages:create √ √ 变配 ecs:cloudServers:update √ √ 到期转按需 ecs:switchRequired:create √ √ 转包周期 ecs:switchPeriod:create √ √ 云主机详情页 云主机详情获取 ecs:cloudServers:get √ √ 云主机详情页 设置委托策略 ecs:delegationPolicy:change √ √ 云主机详情页 弹性网卡列表获取 vpc:cloudServerNics:list √ 云主机详情页 弹性网卡详情获取 vpc:cloudServerNics:get √ 云主机详情页 绑定弹性网卡 ecs:cloudServerNics:binding √ 云主机详情页 解绑弹性网卡 ecs:cloudServerNics:unbinding √ 云主机详情页 修改内网IP ecs:publicIps:change √ 云主机详情页 修改内网IP vpc:cloudServerNics:change √ 云主机详情页 修改内网IP vpc:subnets:list √ 云主机详情页 更换VPC(绑定) ecs:vpcs:change √ 云主机详情页 更换VPC(绑定) vpc:cloudServerNics:change √ 云主机详情页 更换VPC(绑定) vpc:subnets:list √ 云主机详情页 更换VPC(绑定) vpc:securityGroups:list √ 云主机详情页 更换VPC(绑定) vpc:vpcs:list √ 云主机详情页 管理辅助私网ip vpc:cloudServerNics:change √ 云主机详情页 云硬盘列表获取 evs:volumes:list √ √ 云主机详情页 云硬盘详情获取 evs:volumes:get √ √ 云主机详情页 卸载磁盘 evs:volumes:detach √ √ 云主机详情页 挂载磁盘 evs:volumes:attach √ √ 云主机详情页 释放设置(云硬盘) evs:volumes:release √ √ 云主机详情页 安全组列表获取 vpc:securityGroups:list √ √ 云主机详情页 安全组详情获取 vpc:securityGroups:get √ √ 云主机详情页 更改安全组 vpc:cloudServerNics:change √ √ 云主机详情页 弹性IP列表获取 vpc:publicIps:list √ √ 云主机详情页 弹性IP详情获取 vpc:publicIps:get √ √ 云主机详情页 绑定弹性IP vpc:publicIps:update √ √ 云主机详情页 解绑弹性IP vpc:publicIps:detach √ √ 云主机详情页 挂载文件系统 ecs:filesSystem:mount √ √ 云主机详情页 卸载文件系统 ecs:filesSystem:unmount √ √ 云主机详情页 一键安装监控Agent ecs:MonitorAgent:install √ √ 云主机详情页 查看云主机监控 cm:monitor:query √ √ 云主机组 创建云主机组 ecs:ServersGroups:create √ 云主机组 修改云主机组名称 ecs:ServersGroups:update √ 云主机组 云主机组列表获取 ecs:ServersGroups:list √ 云主机组 云主机组详情获取 ecs:ServersGroups:get √ 云主机组 添加云主机 ecs:ServersGroups:attach √ 云主机组 移除云主机 ecs:ServersGroups:detach √ 云主机组 云主机列表获取 ecs:cloudServers:list √ 云主机组 删除云主机组 ecs:ServersGroups:delete √ 快照 创建快照 ecs:snapshot:create √ √ 快照 云主机列表获取 ecs:cloudServers:list √ √ 快照 快照列表获取 ecs:snapshot:list √ √ 快照 快照详情获取 ecs:snapshot:get √ √ 快照 删除快照 ecs:snapshot:delete √ √ 快照 恢复数据 ecs:snapshot:rollback √ √ 快照 申请云主机 ecs:cloudServers:create √ √ 快照 删除快照 ecs:snapshot:delete √ √ 快照 创建快照策略 ecs:snapshotpolicy:create √ 快照 快照策略列表 ecs:snapshotpolicy:list √ 快照 快照策略详情 ecs:snapshotpolicy:get √ 快照 修改快照策略 ecs:snapshotpolicy:update √ 快照 停用快照策略 ecs:snapshotpolicy:stop √ 快照 删除快照策略 ecs:snapshotpolicy:delete √ 快照 启用策略/立即执行快照策略 ecs:snapshotpolicy:start √ SSH密钥对 创建密钥对 ecs:serverKeypairs:create √ √ SSH密钥对 导入密钥对 ecs:serverKeypairs:create √ √ SSH密钥对 密钥对列表获取 ecs:serverKeypairs:list √ √ SSH密钥对 绑定/更换密钥对 ecs:serverKeypairs:set √ √ SSH密钥对 解绑密钥对 ecs:serverKeypairs:unset √ √ SSH密钥对 删除密钥对 ecs:serverKeypairs:delete √ √ 天翼云支持对用户组/子用户,进行资源池或全局维度的权限授权;同时也支持在企业项目中,对用户组进行资源组维度的权限授权。部分没有企业项目属性的接口或资源,授权只能以资源池或全局维度进行。以资源池或全局维度进行的授权判断,其优先级高于企业项目中的资源组维度授权。
        来自:
        帮助文档
        弹性云主机 ECS
        用户指南
        安全
        云服务器CTIAM
        统一身份认证IAM介绍
      • 产品优势
        本文主要介绍弹性伸缩服务产品优势。 弹性伸缩服务可根据用户的业务需求,通过策略自动调整其业务的资源。具有自动调整资源、节约成本开支、提高可用性和容错能力的优势。适用以下场景: 访问流量较大的论坛网站,业务负载变化难以预测,需要根据实时监控到的云主机CPU使用率、内存使用率等指标对云主机数量进行动态调整。 电商网站,在进行大型促销活动时,需要定时增加云主机数量,以保证促销活动顺利进行。 视频直播网站,每天14:00~16:00播出热门节目,每天都需要在该时段增加云主机数量,保证业务的平稳运行。 自动调整资源 弹性伸缩能够实现应用系统自动按需调整资源,即在业务增长时能够实现自动增加实例数量,以满足业务需求,业务下降时能够实现应用系统自动缩容,保障业务平稳运行。 按需调整云主机资源 向应用系统中添加弹性伸缩,能够实现按需调整资源,即能够实现在业务增长时增加实例,业务下降时减少实例,这样加强了应用系统的成本管理。调整资源主要包括以下几种方式: 动态调整资源 动态调整资源是通过告警策略的触发来调整资源。详细内容请参阅动态资源扩展。 计划调整资源 计划调整资源是通过定时策略或周期策略的触发来调整资源。详细内容请参阅按计划扩展资源。 手工调整资源 通过修改期望实例数或手动移入、移出实例来调整资源。详细内容请参阅手动扩展资源。 例如,运行在公有云上的基本Web应用程序。此应用程序允许乘客购买火车票。在每年中期时段,人员流动性较低,此应用程序的使用率较低。每年年底和年初,人员流动性较高,因此对此应用程序的需求会显著提高。一般系统会采用添加足够多的云主机,如图1所示,或添加处理应用程序平均需求所需的容量,如图2所示,来满足业务需求。但这两种方案会造成资源浪费或无法满足高峰期的需求。当您给应用程序中添加弹性伸缩后,弹性伸缩会自动根据需求调整云主机的数量,如图3所示,为您节约成本并且满足高峰期的需求。 图1 服务器资源冗余 图2 服务器资源不足 图3 向应用程序中添加弹性伸缩
        来自:
        帮助文档
        弹性伸缩服务 AS
        产品简介
        产品优势
      • 创建智能网关
        2、查看网关状态 智能网关创建完成后,点击右上角刷新按钮,查看状态,如下图所示: 后台资源就绪约10s左右 ,网关状态处于运行中即可对外提供服务。 3、查看网关日志与监控信息 日志 通过切换Pod列表查看不同网关实例的日志信息 监控
        来自:
        帮助文档
        智算套件
        用户指南
        智能网关
        创建智能网关
      • 创建智能网关(1)
        2、查看网关状态 智能网关创建完成后,点击右上角刷新按钮,查看状态,如下图所示: 后台资源就绪约10s左右 ,网关状态处于运行中即可对外提供服务。 3、查看网关日志与监控信息 日志 通过切换Pod列表查看不同网关实例的日志信息 监控
        来自:
      • 删除自定义告警模板
        本文为您介绍删除自定义告警模板的操作场景、前提条件和操作步骤。 操作场景 当您业务发生变更或告警模板不再需要时,您可以在控制台删除自定义的告警模板。 默认告警模板无法删除。 前提条件 注册天翼云账号,并完成实名认证。具体操作,请参见天翼云账号注册流程。 您已完成自定义告警模板的创建。 操作步骤 1. 登录控制中心。 2. 在控制中心页面左上角点击,选择区域,本文我们选择华东1。 3. 依次选择“管理与部署”,单击“云监控”,进入监控概览页面。 4. 单击“告警服务”下拉菜单,单击“告警模板”,进入告警模板详情页面。 5. 单击“自定义告警模板”页签,单击目标告警模板所在行的“删除”选项。 6. 单击“确认”按钮,完成删除操作。
        来自:
        帮助文档
        云监控服务
        用户指南
        告警模板
        删除自定义告警模板
      • 配置日志启用
        云下一代防火墙可以进行日志查询,日志启用需登录云下一代防火墙web界面进行配置。 本页面仅列出常规使用配置,其他配置请参考运维人员操作指南下载查询。 操作方法 1.打开菜单栏,【监控→日志→日志管理】,开启对应功能日志记录功能。 2.可进行对应日志查询。
        来自:
        帮助文档
        云下一代防火墙
        基础运维指南
        配置日志启用
      • 功能特性
        功能集 功能 功能描述 应用生命周期管理 创建/部署/更新/查看/启动/停止/删除应用 创建/部署/更新/查看/启动/停止/删除应用。 高级设置 设置启动命令 CAE 会根据预设的启动参数来启动容器 高级设置 设置环境变量 应用在系统中运行更需要配置特定的环境变量 高级设置 设置 Hosts 绑定 CAE 支持应用级别的实例,通过绑定 Hosts 对主机名进行解析,方便应用实例通过主机名进行访问 高级设置 设置持久化日志 CAE 集成了云日志服务的日志收集功能,支持将业务文件日志(容器内日志文件)、容器标准输出日志(stdio)无限制行数地收集至 ALS,便于您聚合分析。 高级设置 设置 NAS 存储 将 NAS 挂载至 CAE 应用实例,可以有效解决应用数据地持久化存储需求,并实现应用实例之间地数据共享 高级设置 设置 OSS 存储 OSS 适用于读多写少地场景,例如挂载配置文件或者前端静态文件等 高级设置 设置应用生命周期管理 如果您精通 K8s,且需要在应用容器启动前或者关闭前执行相关操作,例如运行前部署资源或者停止前优雅下线应用,可以设置应用生命周期管理 高级设置 设置配置项 配置项能够将环境配置信息和容器镜像解耦,方便您修改应用配置 配置管理 配置项(ConfigMap) 配置项是一种存储应用所需配置信息地资源类型,它可以作为容器运行环境中的环境变量,便于应用部署后灵活变更容器配置,也可以通过挂载配置文件的方式向容器中注入配置信息 配置管理 保密字典(Secret) 保密字典是一种用于存储和管理密钥、证书等敏感信息的资源类型。为避免敏感数据暴露到镜像或应用与任务部署参数中,推荐您使用 CAE 命名空间级别的保密字典 弹性管理 手动扩缩 在应用的实例负载过高时以手动方式添加新应用实例,在应用闲置时减少应用实例,能够高效利用应用资源、降低成本 弹性管理 自动扩缩 在分布式应用管理中,弹性伸缩能够感知应用内各个实例的状态,并根据实例状态自动增加或减少实例数量,即扩容或缩容 版本管理 版本回退 应用修改配置并部署后,会自动生成一个基于时间点的应用版本,您可以查看对应时间点应用版本的配置,也可以操作版本回退到指定时间点的应用版本 应用访问 基于 ELB 实现应用公网及私网访问 在 CAE 中部署应用后,可以通过添加公网 ELB 实现公网访问应用,也可以添加私网 ELB 实现同 VPC 内私网访问应用 注册中心 CAE 内置注册中心 CAE 为用户提供免费的内置 Nacos 注册中心,在无需购买或自建注册中心的情况下即可部署微服务应用到 CAE 平台 注册中心 自建 Nacos 注册中心 CAE 支持使用自建 Nacos 注册中心实现服务的注册与发现功能 微服务治理 无损上线 在应用启动过程中,无损上线为应用提供服务延迟注册、服务就绪检查和服务小流量预热的保护能力 微服务治理 无损下线 在应用执行部署、停止、回滚、缩容和重置时,通过无损下线来保证应用正常关闭 微服务治理 金丝雀灰度 对于部署在 CAE 的 Spring Cloud 或 Dubbo 微服务应用,为了确保升级操作的安全性,您可以通过启用灰度发布(即金丝雀发布)的灰度规则进行小规模验证,验证通过后再全量升级 微服务治理 限流降级 CAE 支持使用微服务引擎 MSE 实现应用的限流降级,全面保障应用的可用性 运维管理 基础监控 CAE 对应用所运行设备的 CPU、负载、内存、网络和磁盘进行数据采集与分析,并以动态图的方式展示,方便实时、直观地了解应用所运行设备地状态 运维管理 应用监控 CAE 为多种语言和框架提供无侵入的应用监控能力 运维管理 一键启停 CAE 为应用提供了一键启停按钮,方便用户进行运维操作,同时还支持批量启停操作
        来自:
        帮助文档
        云应用引擎
        产品介绍
        功能特性
      • 云容器集群节点内存高负载
        2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云容器引擎节点。 添加实例 :单击添加实例 ,勾选上一步中添加的云容器引擎节点实例。 添加故障动作 :单击立即添加 ,在列表中选择内存高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 内存占用率:目标占用率(取值 0100)。 注意 建议您将目标内存占用率设置在 95% 以下,为操作系统内核和 kubelet 等关键系统进程预留足够的内存。若内存被完全耗尽,可能导致节点无响应、探针失联甚至节点进入 NotReady 状态,从而需要强制重启节点才能恢复。 3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到内存高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测内存使用率指标。 2、业务应用验证: 观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。 执行 kubectl get pod o wide 查看 Pod 状态,确认是否有 Pod 因 OOMKilled 而被重启。 如果为相关 Pod 配置了基于内存的 HPA 策略,观察是否触发了自动扩容。 验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化,并触发了相应告警。
        来自:
      • 云容器集群节点内存高负载(1)
        2、编排演练任务 1. 导航至 故障演练 > 目标应用 > 演练管理 页面,单击新建演练。 2. 在基本信息 页面,按提示填写演练名称和描述,然后单击下一步。 3. 在演练对象配置页面: 配置动作组 :为动作组 命名,资源类型选择云容器引擎节点。 添加实例 :单击添加实例 ,勾选上一步中添加的云容器引擎节点实例。 添加故障动作 :单击立即添加 ,在列表中选择内存高负载动作。 4. 在弹出的参数配置框中,配置所需参数,然后单击确定。 持续时间:故障动作持续时间。 内存占用率:目标占用率(取值 0100)。 注意 建议您将目标内存占用率设置在 95% 以下,为操作系统内核和 kubelet 等关键系统进程预留足够的内存。若内存被完全耗尽,可能导致节点无响应、探针失联甚至节点进入 NotReady 状态,从而需要强制重启节点才能恢复。 3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到内存高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测内存使用率指标。 2、业务应用验证: 观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。 执行 kubectl get pod o wide 查看 Pod 状态,确认是否有 Pod 因 OOMKilled 而被重启。 如果为相关 Pod 配置了基于内存的 HPA 策略,观察是否触发了自动扩容。 验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化,并触发了相应告警。
        来自:
      • 产品特性
        节点池管理 支持创建自定义节点池,借助节点池基本功能方便快捷地创建、管理和销毁节点,而不会影响整个集群。节点池中所有节点的参数和类型都彼此相同,您无法在节点池中配置单个节点,任何配置更改都会影响节点池中的所有节点。 工作负载 工作负载是在Kubernetes上运行的应用程序。无论您的工作负载是单个组件还是协同工作的多个组件,您都可以在Kubernetes上的一组Pod中运行它。在Kubernetes中,工作负载是对一组Pod的抽象模型,用于描述业务的运行载体,包括Deployment、Statefulset、Daemonset、Job、CronJob等多种类型。 CCE提供基于Kubernetes原生类型的容器部署和管理能力,支持容器工作负载部署、配置、监控、扩容、升级、卸载、服务发现及负载均衡等生命周期管理。 亲和/反亲和性调度 云容器引擎提供工作负载和可用区、工作负载和节点以及工作负载间的亲和性/反亲和调度。您可根据业务需求设置亲和性,实现工作负载的就近部署,容器间通信就近路由,减少网络消耗;您也可以对同个工作负载的多个实例设置反亲和部署,减少宕机影响,对互相干扰的应用反亲和部署,避免干扰。 网络访问方式 云容器引擎通过将Kubernetes网络和VPC深度集成,提供了稳定高性能的网络访问方式,能够满足多种复杂场景下工作负载间的互相访问。
        来自:
        帮助文档
        云容器引擎
        产品简介
        产品特性
      • 产品定义
        容灾解决的问题 传统的灾备容灾在实际落地中会面临一些问题: 如果选择成本优先策略,灾备中心日常只保留必要的冗余数据,灾难接管时再逐步恢复数据实例和业务系统,操作成本高,恢复时间无法预期,无法保障RTO; 如果选择效率优先策略,灾备中心日常保持完整的业务应用复刻,由于灾备中心平时不提供服务,整个灾备资源处于闲置状态,成本浪费比较严重; 因为灾备中心平时不提供服务,关键时刻不能保证灾备中心能否正确接管业务,灾难真正发生时不一定敢切。 应用容灾多活 是应用高可用服务下的多活容灾解决方案,在架构上比灾备容灾更具优势,能突破单地域资源瓶颈,拥有更高的资源利用率和系统扩展性,具备如下产品优势: 一站接入管控:应用分层管理,接入层、服务层、数据层等统一纳管调度; 快速恢复预期:确定的流程编排,一键容灾切换,分钟级业务恢复能力; 高效运维监控:组件协同管理,全链路监控告警,容灾运维简单高效。
        来自:
        帮助文档
        应用高可用
        产品简介
        应用容灾多活
        产品定义
      • 云容器集群Pod内存高负载(1)
        3、配置全局策略 1. 在全局配置 页面,按需添加保护策略 和监控指标。 2. 配置完成后,单击完成 按钮,创建演练任务。 4、发起故障注入 1. 发起演练 :在演练管理 列表找到对应演练任务,单击操作列的执行演练, 在新页面中点击发起新演练。 2. 进入实验 :系统将自动跳转到本次演练的运行详情 页,或在演练执行记录 列表点击对应执行实例的详情进入。 3. 注入故障 :在动作组 中,找到内存高负载动作卡片,单击执行。 4. 查看日志 :单击动作卡片本身,在右侧弹出的侧边栏中查看执行详情。 效果验证 在故障注入期间,您可以通过以下方式验证演练效果: 1、观测实例指标: 登录云容器引擎控制台,进入目标实例节点的监控指标页,观测内存使用率指标。 验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化,并触发了相应告警 2、业务应用验证: 观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。 如果为相关 Pod 配置了基于内存的 HPA 策略,观察是否触发了自动扩容。
        来自:
      • 使用云原生网关实现蓝绿、金丝雀发布及AB实验
        本章节介绍使用云原生网关实现蓝绿、金丝雀发布及AB实验的最佳实践 概述 蓝绿部署(BlueGreen Deployment)和金丝雀部署(Canary Deployment)是部署中常用的两种策略,用于在生产环境中引入新版本的应用程序或服务。这两种部署策略旨在降低风险并确保新版本的稳定性,同时允许逐步发布或回滚变更。 蓝绿部署中存在两个完全独立的生产环境(通常称为蓝环境和绿环境)被用于部署不同版本的应用程序。最初,蓝环境是当前正在运行的稳定版本,而绿环境是新版本的部署目标。一旦绿环境成功部署并通过测试,可以将流量切换到绿环境,并将蓝环境作为备份或回滚选项保留。这种方式可以确保在生产环境中保持稳定,并在需要时快速回滚到之前的版本。 金丝雀部署是一种逐步发布新版本的策略。在金丝雀部署中,新版本的应用程序或服务仅在一小部分用户或服务器上进行部署,这些用户或服务器被称为金丝雀群体。通过监控金丝雀群体的性能和稳定性,可以评估新版本的表现,并在没有负面影响的情况下逐步扩大金丝雀群体的规模,直到最终将新版本部署到整个生产环境。如果金丝雀部署中发现了问题或负面影响,可以快速回滚到之前的版本,以避免对所有用户造成影响。
        来自:
        帮助文档
        微服务引擎
        最佳实践
        使用云原生网关实现蓝绿、金丝雀发布及AB实验
      • 物理机计费项
        退订规则 退订云物理机后实例会进入冻结状态,冻结周期为15天,冻结期过后如不续费会删除实例。 具体退订规则说明,请参考费用中心退订规则说明。 提醒/通知规则 到期通知:服务到期前7天、3天邮件通知,到期前1天、当天邮件通知和短信提醒。 超期通知:服务超期1天邮件通知,超期3天、7天邮件通知和短信提醒。 到期与欠费 到期 到期是针对“包年/包月”的产品而言的,“按需计费”的产品,没有到期的概念。 “包年/包月”实例到期后无法在物理机管理控制台进行该实例的操作,相关接口也无法调用,自动化监控或告警等运维也会停止。如果在冻结期结束时您没有续费,实例将终止服务,系统中的数据也将被永久删除。 欠费 欠费是针对“按需计费”的产品和账户而言的,“包年/包月”的产品,没有欠费的概念。 “按需计费”实例是按每小时扣费,当余额不足,无法对上一个小时的费用进行扣费,就会导致实例欠费。您续费后解冻实例,可继续正常使用。 各使用周期内的资源状态 使用周期 状态 计费模式 正常使用周期内 运行中 包年/包月 剩余xx天到期 超期未续费,进入冻结期 冻结 包年/包月 已冻结,xx天后删除 超期未续费,已过冻结期 已删除 包年/包月 删除
        来自:
        帮助文档
        物理机 DPS
        计费说明
        物理机计费项
      • AnyWhere集群概述
        本文介绍AnyWhere集群。 天翼云CCE Anywhere集群是面向分布式云场景,提供的一种全新本地 Kubernetes 集群部署选项:构建在Kubernetes子项目Cluster API(CAPI)之上,通过申明式API和控制器模式,让您在自己管理的IDC基础设施或边缘设施中,创建、管理和升级基于天翼云CCE Distro发行版的Kubernetes集群;拥有与云上CCE发行版相同可靠性和安全性的同时,通过连接到云上注册集群,可获得标准化集群运维(含日志、监控、巡检、诊断、备份等)、丰富的插件扩展,以及智算套件、集群联邦等高阶扩展能力,实现轻量敏捷、云边一体的分布式容器云服务。 产品优势 公有云标准化交付,相同可靠性与安全性。 丰富扩展能力,将云上现代化操作实践和工具适配本地集群环境。 支持纯离线环境部署交付。 基于云原生开源标准构建。 应用场景 将本地应用从虚拟机迁移到现代化容器。 基于容器构建内部开发平台,以标准化团队资源使用。 将本地基础设施容器化后,与云上资源打通以实现极致弹性能力。 将本地基础设施容器化后,接入CCE One集群联邦以实现分布式智算能力。 施工指南
        来自:
        帮助文档
        分布式容器云平台 CCE One
        用户指南
        AnyWhere集群
        AnyWhere集群概述
      • 实例规格及规划建议
        本文对云搜索服务的节点选型方案进行描述,帮助您判断云搜索服务购买时不同场景的型号选择方案。 天翼云云搜索服务,支持根据业务需求,灵活选择合适的实例配置。我们根据天翼云搜索团队丰富的实际业务经验,在此提供一些搜索引擎常见使用场景下,配置选择的建议。您可以根据业务的读写请求、数据存算和搜索与分析等需求进行参考。当然,也需要您根据业务的实际使用情况逐步去探索。 实例版本: 我们同时提供Elasticsearch和OpenSearch两种选择。 天翼云基于Elasticsearch7.10.2,默认搭配同版本的Kibana使用,并在开源版本做了大量的能力增强,包括压缩算法、中文分词、SQL兼容、异步搜索、向量检索、跨实例复制、索引管理、拼音分词、简繁体转换、HDFS存储等,并进行了安全漏洞修复、BUG修复、性能优化等。 天翼云OpenSearch基于OpenSearch2.19.1版本打造,默认搭配同版本OpenSearch Dashboards使用。在开源版本的基础上也做了大量的能力增强和优化,包括中文分词优化、流量控制、监控告警、对象存储适配、拼音分词、简繁体转换等。 规划实例可用区 天翼云云搜索服务支持多可用区部署,多可用区部署可以在某个可用区全部不可用的情况下,保证实例的主节点可正常选举,从而为防止数据丢失,并确保在服务中断情况下能降低实例的停机时间,最终能增强实例的健壮性和高可用性。 Elasticsearch/OpenSearch 实例中,主节点(Master Node)负责管理集群元数据(如索引分片分配、节点状态等)。主节点通过选举产生,遵循过半原则(Quorum),即候选节点需要获得超过半数的投票才能成为主节点。 奇数节点原则:若主节点部署在 3 个可用区(AZ),每个可用区部署 1 个主节点,则总数为奇数。当单个可用区故障时,剩余两个可用区的节点仍可形成多数票(2/3 > 50%),确保选举出新的主节点。 ​​避免脑裂:跨可用区部署主节点时,若网络分区导致节点间通信中断,奇数节点设计能确保只有一个子集群满足过半条件,避免多个主节点同时存在的脑裂问题。 天翼云云搜索服务支持单AZ部署和多AZ部署,如果用户需要某个AZ不可用时,实例仍然可以提供服务,那就需要多AZ部署。 在跨三个AZ部署中,为了保证其中任意一个AZ不可用时,剩余的AZ可以继续提供服务,因此索引的副本数至少要为1个。
        来自:
        帮助文档
        云搜索服务
        计费说明
        实例规格及规划建议
      • 1
      • ...
      • 45
      • 46
      • 47
      • 48
      • 49
      • ...
      • 636
      跳转至
      推荐热词
      天翼云运维管理审计系统天翼云云服务平台云服务备份云日志服务应用运维管理云手机云电脑天翼云云hbase数据库电信云大数据saas服务电信云大数据paas服务轻量型云主机天翼云客户服务电话应用编排服务天翼云云安全解决方案云服务总线CSB天翼云服务器配置天翼云联邦学习产品天翼云云安全天翼云企业上云解决方案天翼云产品天翼云视频云存储

      天翼云最新活动

      安全隔离版OpenClaw

      OpenClaw云服务器专属“龙虾“套餐低至1.5折起

      青云志云端助力计划

      一站式科研助手,海外资源安全访问平台,助力青年翼展宏图,平步青云

      云上钜惠

      爆款云主机全场特惠,2核4G只要1.8折起!

      中小企业服务商合作专区

      国家云助力中小企业腾飞,高额上云补贴重磅上线

      出海产品促销专区

      爆款云主机低至2折,高性价比,不限新老速来抢购!

      天翼云奖励推广计划

      加入成为云推官,推荐新用户注册下单得现金奖励

      产品推荐

      GPU云主机

      镜像服务 IMS

      轻量型云主机

      训推服务

      公共算力服务

      模型推理服务

      科研助手

      一站式智算服务平台

      智算一体机

      推荐文档

      操作类

      云服务器 ECS 购买须知

      产品功能

      导入数据

      配置选择

      • 7*24小时售后
      • 无忧退款
      • 免费备案
      • 专家服务
      售前咨询热线
      400-810-9889转1
      关注天翼云
      • 旗舰店
      • 天翼云APP
      • 天翼云微信公众号
      服务与支持
      • 备案中心
      • 售前咨询
      • 智能客服
      • 自助服务
      • 工单管理
      • 客户公告
      • 涉诈举报
      账户管理
      • 管理中心
      • 订单管理
      • 余额管理
      • 发票管理
      • 充值汇款
      • 续费管理
      快速入口
      • 天翼云旗舰店
      • 文档中心
      • 最新活动
      • 免费试用
      • 信任中心
      • 天翼云学堂
      云网生态
      • 甄选商城
      • 渠道合作
      • 云市场合作
      了解天翼云
      • 关于天翼云
      • 天翼云APP
      • 服务案例
      • 新闻资讯
      • 联系我们
      热门产品
      • 云电脑
      • 弹性云主机
      • 云电脑政企版
      • 天翼云手机
      • 云数据库
      • 对象存储
      • 云硬盘
      • Web应用防火墙
      • 服务器安全卫士
      • CDN加速
      热门推荐
      • 云服务备份
      • 边缘安全加速平台
      • 全站加速
      • 安全加速
      • 云服务器
      • 云主机
      • 智能边缘云
      • 应用编排服务
      • 微服务引擎
      • 共享流量包
      更多推荐
      • web应用防火墙
      • 密钥管理
      • 等保咨询
      • 安全专区
      • 应用运维管理
      • 云日志服务
      • 文档数据库服务
      • 云搜索服务
      • 数据湖探索
      • 数据仓库服务
      友情链接
      • 中国电信集团
      • 天翼云国际站
      • 189邮箱
      • 天翼企业云盘
      • 天翼云盘
      ©2026 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
      公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
      • 用户协议
      • 隐私政策
      • 个人信息保护
      • 法律声明
      备案 京公网安备11010802043424号 京ICP备 2021034386号