云监控服务_云监控服务文档介绍内容-天翼云

云容器集群节点内存高负载
2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎节点。添加实例：单击添加实例，勾选上一步中添加的云容器引擎节点实例。添加故障动作：单击立即添加，在列表中选择内存高负载动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。内存占用率：目标占用率（取值 0100）。注意建议您将目标内存占用率设置在 95% 以下，为操作系统内核和 kubelet 等关键系统进程预留足够的内存。若内存被完全耗尽，可能导致节点无响应、探针失联甚至节点进入 NotReady 状态，从而需要强制重启节点才能恢复。 3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到内存高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测内存使用率指标。 2、业务应用验证：观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。执行 kubectl get pod o wide 查看 Pod 状态，确认是否有 Pod 因 OOMKilled 而被重启。如果为相关 Pod 配置了基于内存的 HPA 策略，观察是否触发了自动扩容。验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化，并触发了相应告警。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群节点内存高负载
云容器集群节点磁盘IO高负载(1)
2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎节点。添加实例：单击添加实例，勾选上一步中添加的云容器引擎节点实例。添加故障动作：单击立即添加，在列表中选择磁盘IO高负载动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。读负载：开启读压力模式，创建一个临时文件并对其进行持续的读取操作。写负载：开启写压力模式，持续向一个临时文件写入数据。块大小(MB)：控制单次读写操作的数据块大小，单位为MB。增大此值可以提升单次操作的 IO 压力。通常保持默认值即可。 3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到磁盘IO高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测磁盘读写速率(Bps)指标。 2、业务应用验证：观察运行在目标节点上、且挂载了持久化存储（PVC）的业务 Pod（如数据库、中间件等），确认其读写性能是否下降或出现超时。检查无状态应用的日志写入是否出现延迟或失败。验证您的业务监控告警系统是否成功捕获到节点磁盘I/O异常或应用性能劣化，并触发了相应告警。

来自：
创建智能网关
2、查看网关状态智能网关创建完成后，点击右上角刷新按钮，查看状态，如下图所示：后台资源就绪约10s左右，网关状态处于运行中即可对外提供服务。 3、查看网关日志与监控信息日志通过切换Pod列表查看不同网关实例的日志信息监控

来自：
帮助文档
智算套件
用户指南
智能网关
创建智能网关
创建智能网关(1)
2、查看网关状态智能网关创建完成后，点击右上角刷新按钮，查看状态，如下图所示：后台资源就绪约10s左右，网关状态处于运行中即可对外提供服务。 3、查看网关日志与监控信息日志通过切换Pod列表查看不同网关实例的日志信息监控

来自：
PahoPublisher监控
指标类别指标指标名称指标说明单位数据类型默认聚合方式 PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） uri serviceUri PahoPublisher连接的MQTT服务端uri ENUM LAST PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） msgType 报文类型发送的报文类型 ENUM LAST PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） concurrentMax 最大并发最大并发 INT MAX PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） errorCount 错误次数错误次数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） errorTraceId 错误traceId 采集周期内发生错误的调用链对应的traceid STRING LAST PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） slowTraceId 慢traceId 采集周期内最慢的调用链对应的traceid STRING LAST PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） invokeCount 调用次数调用次数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） lastError 错误信息错误信息 STRING LAST PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） maxTime 最大响应时间最大响应时间 INT MAX PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） totalTime 总响应时间总响应时间 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） range1 010ms 响应时间在010ms范围请求数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） range2 10100ms 响应时间在10100ms范围请求数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） range3 100500ms 响应时间在100500ms范围请求数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） range4 5001000ms 响应时间在5001000ms范围请求数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） range5 110s 响应时间在110s范围请求数 INT SUM PahoPublisher发送Publish报文监控（message，PahoPublisher发送Publish报文监控。） range6 10s以上响应时间在10s以上请求数 INT SUM PahoPublisher发送Publish报文节点维度监控（uriMessage，PahoPublisher发送Publish报文节点维度监控。） uri serviceUri PahoPublisher连接的MQTT服务端uri ENUM LAST PahoPublisher发送Publish报文节点维度监控（uriMessage，PahoPublisher发送Publish报文节点维度监控。） errorCount 错误次数错误次数 INT SUM PahoPublisher发送Publish报文节点维度监控（uriMessage，PahoPublisher发送Publish报文节点维度监控。） invokeCount 调用次数调用次数 INT SUM PahoPublisher发送Publish报文节点维度监控（uriMessage，PahoPublisher发送Publish报文节点维度监控。） totalTime 总响应时间总响应时间 INT SUM 异常（exception，PahoPublisher调用的异常信息统计。） exceptionType 异常类型异常类型 ENUM LAST 异常（exception，PahoPublisher调用的异常信息统计。） causeType 异常类发生异常的类 ENUM LAST 异常（exception，PahoPublisher调用的异常信息统计。） count 次数该异常的发生次数 INT SUM 异常（exception，PahoPublisher调用的异常信息统计。） message 异常消息该异常产生的异常消息 STRING LAST 异常（exception，PahoPublisher调用的异常信息统计。） stackTrace 异常堆栈该异常产生的堆栈信息 CLOB LAST PahoPublisher主题维度监控（clientPublish，PahoPublisher主题维度监控。） clientId clientId clientId ENUM LAST PahoPublisher主题维度监控（clientPublish，PahoPublisher主题维度监控。） topic 主题主题 ENUM LAST PahoPublisher主题维度监控（clientPublish，PahoPublisher主题维度监控。） msgSentCount 消息推送次数消息推送次数 INT SUM PahoPublisher主题维度监控（clientPublish，PahoPublisher主题维度监控。） bytesSent 消息推送字节数消息推送字节数 INT SUM PahoPublisher版本（version，PahoPublisher版本。） version 版本版本 STRING LAST PahoPublisher主题汇总（total，PahoPublisher主题汇总信息统计。） msgSentCount 消息推送次数总的消息推送次数 INT SUM PahoPublisher主题汇总（total，PahoPublisher主题汇总信息统计。） bytesSent 消息推送字节数总消息推送字节数 INT SUM

来自：
帮助文档
应用性能管理
产品介绍
指标总览
物联网
PahoPublisher监控
只读实例简介
本页介绍了关系数据库MySQL版的只读实例。注意 I类型资源池（仅南京3、重庆2、海口2、合肥2、上海7资源池）和II类型资源池均支持该功能，具体支持情况以控制台页面展示为准。更多资源池信息，请参见功能概览。功能简介云数据库的实例支持只读实例。在对数据库有少量写请求，但有大量读请求的应用场景下，单个实例可能无法抵抗读取压力，甚至对主业务产生影响。为了实现读取能力的弹性扩展，分担数据库压力，您可以在某个区域中创建一个或多个只读实例，利用只读实例满足大量的数据库读取需求，以此增加应用的吞吐量。只读实例为单个物理节点的架构（没有备节点），采用MySQL的原生复制功能，将主实例的更改同步到所有只读实例，而且主实例和只读实例之间的数据同步受网络延时的影响。注意您需要在应用程序中分别配置主实例和每个只读实例的连接地址，才能实现将写请求发往主实例而将读请求发往只读实例。功能特点规格可以与主实例不一致，但建议选择大于或等于主实例的规格，后续可以随时更改规格（没有时间限制），便于弹性升级。不需要维护帐号与数据库，全部通过主实例同步。提供系统性能监控。关系数据库MySQL版服务提供近20个系统性能的监控视图，如磁盘容量、IOPS、连接数、CPU利用率、网络流量等，用户可以轻松查看实例的负载。权限会自动同步，主实例中进行的权限调整会自动同步到备实例和只读数据库中。

来自：
帮助文档
关系数据库MySQL版
用户指南
只读实例
只读实例简介
prometheus
插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统，由工作在SoundCloud的Google前员工在2012年创建，作为社区开源项目进行开发，并于2015年正式发布。2016年，Prometheus正式加入Cloud Native Computing Foundation，成为受欢迎度仅次于Kubernetes的项目。在云容器引擎CCE中，支持以插件的方式快捷安装Prometheus。插件官网：开源社区地址：插件特点作为新一代的监控框架，Prometheus具有以下特点：强大的多维度数据模型： a. 时间序列数据通过metric名和键值对来区分。 b. 所有的metrics都可以设置任意的多维标签。 c. 数据模型更随意，不需要刻意设置为以点分隔的字符串。 d. 可以对数据模型进行聚合，切割和切片操作。 e. 支持双精度浮点类型，标签可以设为全unicode。灵活而强大的查询语句（PromQL）：在同一个查询语句，可以对多个metrics进行乘法、加法、连接、取分数位等操作。易于管理：Prometheus server是一个单独的二进制文件，可直接在本地工作，不依赖于分布式存储。高效：平均每个采样点仅占 3.5 bytes，且一个Prometheus server可以处理数百万的metrics。使用pull模式采集时间序列数据，这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的metrics。可以采用push gateway的方式把时间序列数据推送至Prometheus server端。可以通过服务发现或者静态配置去获取监控的targets。有多种可视化图形界面。易于伸缩。需要指出的是，由于数据采集可能会有丢失，所以Prometheus不适用对采集数据要100%准确的情形。但如果用于记录时间序列数据，Prometheus具有很大的查询优势，此外，Prometheus适用于微服务的体系架构。约束与限制 1.11及以上版本的CCE集群支持此插件功能。安装插件步骤 1 在CCE控制台中，单击左侧导航栏的“插件管理”，在“插件市场”页签下，单击Prometheus下的“安装插件”按钮。步骤 2 在安装插件页面，选择安装的集群和插件版本，单击“下一步：规格配置”。步骤 3 在“规格配置”步骤中，配置以下参数：表Prometheus配置参数说明参数参数说明插件规格根据业务需求，选择插件的规格，包含如下选项：演示规格（100容器以内）：适用于体验和功能演示环境，该规模下prometheus占用资源较少，但处理能力有限。建议在集群内容器数目不超过100时使用。小规格（2000容器以内）：建议在集群中的容器数目不超过2000时使用。中规格（5000容器以内）：建议在集群中的容器数目不超过5000时使用。大规格（超过5000容器）：建议集群中容器数目超过5000时使用此规格。实例数选择上方插件规格后，显示插件中的实例数，此处仅作显示。容器选择插件规格后，显示插件容器的CPU和内存配额，此处仅作显示。监控数据保留期自定义监控数据需要保留的天数，默认为15天。存储按照界面提示配置如下参数：类型：支持云硬盘。可用区：请根据业务需要进行选择。可用区是在同一区域下，电力、网络隔离的物理区域，可用区之间内网互通，不同可用区之间物理隔离。子类型：支持普通IO、高IO和超高IO三种类型。容量：请根据业务需要输入存储容量，默认10G。说明：若命名空间monitoring下已存在pvc，将使用此存储作为存储源。步骤 4 单击“安装”。待插件安装完成后，单击“返回”，在“插件实例”页签下，选择对应的集群，可查看到运行中的实例，这表明该插件已在当前集群的各节点中安装。步骤 5 在CCE控制台中，单击左侧导航栏的“插件管理”，在“插件实例”中，单击“Prometheus”进入详情页，可以查看插件实例的详细情况。升级插件步骤 1 登录CCE控制台，在左侧导航栏中选择“插件管理”，在“插件实例”页签下，选择对应的集群，单击“Prometheus”下的“ 升级”。说明：如果升级按钮处于冻结状态，则说明当前插件版本是最新的版本，不需要进行升级操作。升级“Prometheus”插件时，会替换原先节点上的旧版本的“Prometheus”插件，安装最新版本的“Prometheus”插件以实现功能的快速升级。步骤 2 在基本信息页面选择插件版本，单击“下一步”。步骤 3 参考安装插件中参数说明配置参数后，单击“升级”即可升级“Prometheus”插件。卸载插件步骤 1 在CCE控制台中，单击左侧导航栏的“插件管理”，在“插件实例”页签下，选择对应的集群，单击Prometheus下的“卸载”。步骤 2 在弹出的窗口中，单击“是”，可卸载该插件。参考资源 Prometheus概念及详细配置请参阅Prometheus 官方文档 Node exporter安装请参考nodeexporter github 仓库

来自：
帮助文档
云容器引擎
用户指南
旧版UI
插件管理
prometheus
容器组
本文介绍如何设置容器组。容器组是Kubernetes部署应用或服务的最小的基本单位。一个容器组可以封装多个应用容器(也可以只有一个容器）、存储资源、一个独立的网络IP以及管理控制容器运行方式的策略选项。用户创建完应用，查看【容器组列表】。容器组列表页中内容包括：实例名称、状态、实例IP、所在节点、就绪容器（已就绪/全部）、创建时间、操作（编辑YAML、监控、删除）。编辑YAML界面：点击具体容器组，可进入容器组详情页，在此可查看到容器组详情，且可根据需求，对容器、监控、容器终端、日志、事件进行查看和监控。

来自：
帮助文档
云容器引擎（旧版）
用户指南
应用资源
应用创建配置
容器组
套件概述
本节介绍智算套件概述。前提条件已创建云容器引擎智算版集群。套件介绍套件名称版本套件说明驱动管理 1.0.2 为GPU云主机或物理机的算力调度提供硬件驱动。模型预热 1.8.0 将模型从对象存储预热到本地盘，大幅提升模型部署效率。智算套件控制面引擎 1.0.5 提供高可用控制面，管理智算套件控制台正常运行。故障诊断 1.0.3 为集群提供集群巡检、故障诊断等能力。网络 1.0.3 为集群容器提供使用RDMA网络的能力，包括IB和RoCE。弹性数据集 1.0.0 支持数据集版本管理，提供弹性加载能力。弹性训练 1.0.5 为集群提供AI任务接入，兼容主流AI框架和工具，包括TensorFlow、PyTorch、Horovod、Spark等。 GPU安全容器 1.0.0 支持Kata安全容器运行时，满足业务高安全需求。智能调度 1.0.9 为集群提供智能任务调度策略，可支持Gang、Capacity、Binpack/Spread和Queue等智能调度。监控 1.0.7 为集群提供硬件监控能力，可采集GPU/NPU，显存等，支持可视化查看GPU的分配、使用和健康状态。

来自：
帮助文档
智算套件
用户指南
套件管理
套件概述
功能概览
本节介绍分布式缓存服务Redis版产品功能特性一级分类二级分类功能描述基础能力开源兼容兼容开源5.0，6.0，7.0系列，集群兼容性高; 支持string，hash，list，set，sortedset等常见类型。基础能力开箱即用提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力。基础能力高级命令支持支持事务和订阅。基础能力水平扩展、透明访问支持基于水平分片算法的集群扩展、提供接入层透明的访问能力。基础能力 CPU兼容支持跨平台的软硬件，如飞腾、鲲鹏、海光国产CPU。高可用服务可靠性支持主备、集群高可用实例类型。高可用节点故障自动切换功能节点故障自动检测、恢复。高可用数据持久化 RDB+AOF组合持久化策略，保障数据丢失最小化。高可用在线扩容支持实例存储空间、内存等资源平滑扩容。运维集群管理集群可视化管理，查看节点状态，修改配置。运维运维监控提供丰富的服务监控指标、系统监控指标。运维数据备份恢复提供数据备份及数据恢复机制。运维安装部署一键安装部署。运维权限管理支持多账号，支持设置读写、只读权限，最小化授权。运维日志功能支持日志记录、慢日志排查超时问题等日志功能。开发多语言连接支持Java、Python、C

来自：
帮助文档
分布式缓存服务Redis版
产品介绍
功能概览
云容器集群Pod进程停止
3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到进程停止动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录应用性能监控控制台，观测已接入应用的应用提供服务请求量、应用提供服务平均响应时间等指标。 2、业务应用验证：观测业务进程被终止后的表现。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群Pod进程停止
删除自定义告警模板
本文为您介绍删除自定义告警模板的操作场景、前提条件和操作步骤。操作场景当您业务发生变更或告警模板不再需要时，您可以在控制台删除自定义的告警模板。默认告警模板无法删除。前提条件注册天翼云账号，并完成实名认证。具体操作，请参见天翼云账号注册流程。您已完成自定义告警模板的创建。操作步骤 1. 登录控制中心。 2. 在控制中心页面左上角点击，选择区域，本文我们选择华东1。 3. 依次选择“管理与部署”，单击“云监控”，进入监控概览页面。 4. 单击“告警服务”下拉菜单，单击“告警模板”，进入告警模板详情页面。 5. 单击“自定义告警模板”页签，单击目标告警模板所在行的“删除”选项。 6. 单击“确认”按钮，完成删除操作。

来自：
帮助文档
云监控服务
用户指南
告警模板
删除自定义告警模板
基本概念
本节主要描述在使用云容器引擎前,需理解该产品所涉及的概念,以便于您更好地理解容器产品。关键词说明集群集群指容器运行所需要的云资源组合，关联了若干服务器节点、负载均衡、专有网络等云资源。专有版集群：需要创建1个Master（非高可用），或者3/5个Master（高可用）节点，以及若干Worker节点，可对集群基础设施进行更细粒度的控制，需要自行规划、维护、升级服务器集群。托管版集群：只需创建Worker节点，Master节点由CCSE创建并托管，具备操作简单、低成本无需运维等特点。节点一台服务器（可以是虚拟机实例或者物理服务器）已经安装了Docker Engine，可以用于部署和管理容器。容器的Agent程序会被安装到节点上并注册到一个集群上。专有网络VPC 专有网络VPC是您自己独有的云上私有网络。您可以完全掌控自己的专有网络，例如选择IP地址范围、配置路由表和网关等，您可以在自己定义的专有网络中使用天翼云资源如云服务器、云数据库和负载均衡等。安全组安全组是一种虚拟防火墙，具备状态检测和数据包过滤能力，用于在云端划分安全域。安全组是一个逻辑上的分组，由同一地域内具有相同安全保护需求并相互信任的实例组成。应用目录应用目录功能集成了Helm，提供了Helm的相关功能，并进行了相关功能扩展，例如提供图形化界面。编排模板编排模板是一种保存Kubernetes YAML格式编排文件的方式。 Kubernetes Kubernetes是一个开源平台，具有可移植性和可扩展性，用于管理容器化的工作负载和服务，简化了声明式配置和自动化。容器（Container）打包应用及其运行依赖环境的技术，一个节点可运行多个容器。镜像（Image）容器镜像是容器应用打包的标准格式，封装了应用程序及其所有软件依赖的二进制数据。镜像仓库（Image Registry）容器镜像仓库是一种存储库，用于存储Kubernetes和基于容器应用开发的容器镜像。管理节点（Master Node）管理节点是Kubernetes集群的管理者，运行着的服务包括kubeapiserver、kubescheduler、kubecontrollermanager、etcd组件，和容器网络相关的组件。工作节点（Worker Node）工作节点是Kubernetes集群中承担工作负载的节点，可以是虚拟机也可以是物理机。工作节点承担实际的Pod调度以及与管理节点的通信等。一个工作节点上的服务包括Docker运行时环境、kubelet、KubeProxy以及其它一些可选的组件。命名空间（Namespace）命名空间为Kubernetes集群提供虚拟的隔离作用。Kubernetes集群初始有3个命名空间，分别是默认命名空间default、系统命名空间kubesystem和kubepublic，除此以外，管理员可以创建新的命名空间以满足需求。容器组（Pod） Pod是Kubernetes部署应用或服务的最小的基本单位。一个Pod封装多个应用容器（也可以只有一个容器）、存储资源、一个独立的网络IP以及管理控制容器运行方式的策略选项。副本控制器（ReplicationController，RC） RC确保任何时候Kubernetes集群中有指定数量的Pod副本在运行。通过监控运行中的Pod来保证集群中运行指定数目的Pod副本。指定的数目可以是多个也可以是1个；少于指定数目，RC就会启动运行新的Pod副本；多于指定数目，RC就会终止多余的Pod副本。副本集（ReplicaSet，RS） ReplicaSet（RS）是RC的升级版本，唯一区别是对选择器的支持，RS能支持更多种类的匹配模式。副本集对象一般不单独使用，而是作为Deployment的理想状态参数使用。工作负载（Workload）工作负载是在Kubernetes上运行的应用程序。标签（Label） Labels的实质是附着在资源对象上的一系列Key/Value键值对，用于指定对用户有意义的对象的属性，标签对内核系统是没有直接意义的。标签可以在创建一个对象的时候直接赋予，也可以在后期随时修改，每一个对象可以拥有多个标签，但key值必须唯一。服务（Service） Service是Kubernetes的基本操作单元，是真实应用服务的抽象，每一个服务后面都有很多对应的容器来提供支持，通过KubeProxy的ports和服务selector决定服务请求传递给后端的容器，对外表现为一个单一访问接口。路由（Ingress） Ingress是授权入站连接到达集群服务的规则集合。您可以通过Ingress配置提供外部可访问的URL、负载均衡、SSL、基于名称的虚拟主机等。通过POST Ingress资源到API Server的方式来请求Ingress。Ingress Controller负责实现Ingress，通常使用负载均衡器，它还可以配置边界路由和其他前端，这有助于以高可用的方式处理流量。配置项（ConfigMap）配置项可用于存储细粒度信息如单个属性，或粗粒度信息如整个配置文件或JSON对象。您可以使用配置项保存不需要加密的配置信息和配置文件。保密字典（Secret）保密字典用于存储在Kubernetes集群中使用一些敏感的配置，例如密码、证书等信息。卷（Volume）和Docker的存储卷有些类似，Docker的存储卷作用范围为一个容器，而Kubernetes的存储卷的生命周期和作用范围是一个Pod。每个Pod中声明的存储卷由Pod中的所有容器共享。存储卷（Persistent Volume，PV） PV是集群内的存储资源，类似节点是集群资源一样。PV独立于Pod的生命周期，可根据不同的StorageClass类型创建不同类型的PV。存储卷声明（Persistent VolumeClaim，PVC） PVC是资源的使用者。类似Pod消耗节点资源一样，而PVC消耗PV资源。存储类（StorageClass）存储类可以实现动态供应存储卷。通过动态存储卷，Kubernetes将能够按照用户的需要，自动创建其所需的存储。弹性伸缩（Autoscaling）弹性伸缩是根据业务需求和策略，经济地自动调整弹性计算资源的管理服务。典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。可观测性（Observability） Kubernetes可观测性体系包含监控和日志两部分，监控可以帮助开发者查看系统的运行状态，而日志可以协助问题的排查和诊断。 Helm Helm是Kubernetes包管理平台。Helm将一个应用的相关资源组织成为Charts，然后通过Charts管理程序包。节点亲和性（nodeAffinity）节点亲和性指通过Worker节点的Label标签控制Pod部署在特定的节点上。污点（Taints）污点和节点亲和性相反，它使节点能够排斥一类特定的Pod。容忍（Tolerations）应用于Pod上，允许（但并不要求）Pod调度到带有与之匹配的污点的节点上。应用亲和性（podAffinity）应用亲和性决定应用Pod可以和特定Pod部署在同一拓扑域。例如，对于相互通信的服务，可通过应用亲和性调度，将其部署到同一拓扑域（例如同一个主机）中，以减少它们之间的网络延迟。应用反亲和性（podAntiAffinity）应用反亲和性决定应用Pod不与特性Pod部署在同一拓扑域。例如，将一个服务的Pod分散部署到不同的拓扑域（例如不同主机）中，以提高服务本身的稳定性。服务网格（Istio） Istio是一个提供连接、保护、控制以及观测服务的开放平台，兼容社区Istio开源服务网格，用于简化服务的治理，包括服务调用之间的流量路由与拆分管理、服务间通信的认证安全以及网格可观测性能力。

来自：
帮助文档
云容器引擎专有版/托管版
产品介绍
基本概念
云容器集群Pod内存高负载(1)
3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到内存高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测内存使用率指标。验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化，并触发了相应告警 2、业务应用验证：观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。如果为相关 Pod 配置了基于内存的 HPA 策略，观察是否触发了自动扩容。

来自：
使用云原生网关实现蓝绿、金丝雀发布及AB实验
本章节介绍使用云原生网关实现蓝绿、金丝雀发布及AB实验的最佳实践概述蓝绿部署（BlueGreen Deployment）和金丝雀部署（Canary Deployment）是部署中常用的两种策略，用于在生产环境中引入新版本的应用程序或服务。这两种部署策略旨在降低风险并确保新版本的稳定性，同时允许逐步发布或回滚变更。蓝绿部署中存在两个完全独立的生产环境（通常称为蓝环境和绿环境）被用于部署不同版本的应用程序。最初，蓝环境是当前正在运行的稳定版本，而绿环境是新版本的部署目标。一旦绿环境成功部署并通过测试，可以将流量切换到绿环境，并将蓝环境作为备份或回滚选项保留。这种方式可以确保在生产环境中保持稳定，并在需要时快速回滚到之前的版本。金丝雀部署是一种逐步发布新版本的策略。在金丝雀部署中，新版本的应用程序或服务仅在一小部分用户或服务器上进行部署，这些用户或服务器被称为金丝雀群体。通过监控金丝雀群体的性能和稳定性，可以评估新版本的表现，并在没有负面影响的情况下逐步扩大金丝雀群体的规模，直到最终将新版本部署到整个生产环境。如果金丝雀部署中发现了问题或负面影响，可以快速回滚到之前的版本，以避免对所有用户造成影响。

来自：
帮助文档
微服务引擎
最佳实践
使用云原生网关实现蓝绿、金丝雀发布及AB实验
第一步：创建用户组和授权
用户组使用的服务授权范围设置策略名称开发人员组弹性云主机具体资源池，如华东1 ecs admin 开发人员组弹性负载均衡全局 elb admin 开发人员组虚拟私有云具体资源池，如华东1 vpc admin 开发人员组云硬盘具体资源池，如华东1 evs admin 开发人员组密钥管理全局 kms admin 测试人员组云监控全局 cm admin

来自：
帮助文档
统一身份认证（一类节点）
快速入门
第一步：创建用户组和授权
天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
网络及高级配置设置网络，包括"网卡"、"安全组"，这里，为安全和成本考虑，我们先不设置弹性IP，后续按需开放IP；设置高级配置，包括"登录方式"、"云主机组"、"用户数据"。 4. 确认并支付步骤二：配置弹性负载均衡现在，我们已经有了两台 DeepseekR132B 服务器，接下来，我们利用弹性负载均衡构建一个可任意横向扩容的 Deepseek 集群。 1. 配置 vllm 服务首先需要为所有服务器上的 vllm 服务配置相同的 apikey。服务的配置文件目录在 /var/vllmservice.env ，我们将APIKEY 设置为想要的值。然后重启服务。 plaintext systemctl restart vllm 2. 创建弹性负载均衡我们参考弹性负载均衡官方文档进行服务创建。 1. 创建弹性负载均衡在此例中，我们的Deepseek集群仅用于集群自带的 Open WebUI内网使用，不涉及外网通讯，因此 “网络类型” 选择 “内网”，如果你想将此集群暴露到外网，则选择外网。VPC和子网跟 Deepseek 服务器保持一致。 2. 创建监听器完成网络负载均衡创建，接下来配置监听器，在负载均衡列表页，点击开始配置。端口类型，选择 “HTTP”，端口填 8000。进入下一步，创建健康检查。这里我们通过 HTTP 进行健康检查，返回码部分选择 2xx、3xx、4xx。点击“立即创建”，完成创建。 3. 为监听器开通GPU云主机白名单此时监听器列表中，我们可以看到访问Deepseek服务器的主机组地址为 “100.89.0.0/16”，我们需要在Deepseek集群的安全组中，为vllm端口配置此地址的白名单。为Deepseek云主机所在的安全组新增规则，操作文档详见添加安全组规则帮助文档。 4. 为监听器添加后端云主机选中主机，然后下一步。设置端口为 “8000”。点击确认即可完成配置。 5. 验证连通性监听器页面，显示监控检查正常。通过一台 Deepseek 服务器，测试负载均衡连通性。

来自：
帮助文档
弹性云主机 ECS
最佳实践
AIGC实践
天翼云 GPU 云主机构建高性能 Deepseek 集群最佳实践-32B等版本
云容器集群节点内存高负载(1)
2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎节点。添加实例：单击添加实例，勾选上一步中添加的云容器引擎节点实例。添加故障动作：单击立即添加，在列表中选择内存高负载动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。内存占用率：目标占用率（取值 0100）。注意建议您将目标内存占用率设置在 95% 以下，为操作系统内核和 kubelet 等关键系统进程预留足够的内存。若内存被完全耗尽，可能导致节点无响应、探针失联甚至节点进入 NotReady 状态，从而需要强制重启节点才能恢复。 3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到内存高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测内存使用率指标。 2、业务应用验证：观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。执行 kubectl get pod o wide 查看 Pod 状态，确认是否有 Pod 因 OOMKilled 而被重启。如果为相关 Pod 配置了基于内存的 HPA 策略，观察是否触发了自动扩容。验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化，并触发了相应告警。

来自：
PahoSubscriber监控
本文主要介绍PahoSubscriber监控介绍APM采集的PahoSubscriber监控指标的类别、名称、含义等信息。表PahoSubscriber监控指标说明指标类别指标指标名称指标说明单位数据类型默认聚合方式 ::::::: PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） uri serviceUri PahoSubscriber连接的MQTT服务端uri ENUM LAST PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） msgType 报文类型发送的报文类型 ENUM LAST PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） concurrentMax 最大并发最大并发 INT MAX PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） errorCount 错误次数错误次数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） errorTraceId 错误traceId 采集周期内发生错误的调用链对应的traceid STRING LAST PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） slowTraceId 慢traceId 采集周期内最慢的调用链对应的traceid STRING LAST PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） invokeCount 调用次数调用次数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） lastError 错误信息错误信息 STRING LAST PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） maxTime 最大响应时间最大响应时间 INT MAX PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） totalTime 总响应时间总响应时间 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） range1 010ms 响应时间在010ms范围请求数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） range2 10100ms 响应时间在10100ms范围请求数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） range3 100500ms 响应时间在100500ms范围请求数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） range4 5001000ms 响应时间在5001000ms范围请求数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） range5 110s 响应时间在110s范围请求数 INT SUM PahoSubscriber接收Publish报文监控（message，PahoSubscriber接收Publish报文监控。） range6 10s以上响应时间在10s以上请求数 INT SUM PahoSubscriber接收Publish报文节点维度监控（uriMessage，PahoSubscriber接收Publish报文监控。） uri serviceUri PahoSubscriber连接的MQTT服务端uri ENUM LAST PahoSubscriber接收Publish报文节点维度监控（uriMessage，PahoSubscriber接收Publish报文监控。） errorCount 错误次数错误次数 INT SUM PahoSubscriber接收Publish报文节点维度监控（uriMessage，PahoSubscriber接收Publish报文监控。） invokeCount 调用次数调用次数 INT SUM PahoSubscriber接收Publish报文节点维度监控（uriMessage，PahoSubscriber接收Publish报文监控。） totalTime 总响应时间总响应时间 INT SUM 异常（exception，PahoSubscriber调用的异常信息统计。） exceptionType 异常类型异常类型 ENUM LAST 异常（exception，PahoSubscriber调用的异常信息统计。） causeType 异常类发生异常的类 ENUM LAST 异常（exception，PahoSubscriber调用的异常信息统计。） count 次数该异常的发生次数 INT SUM 异常（exception，PahoSubscriber调用的异常信息统计。） message 异常消息该异常产生的异常消息 STRING LAST 异常（exception，PahoSubscriber调用的异常信息统计。） stackTrace 异常堆栈该异常产生的堆栈信息 CLOB LAST PahoSubscriber主题维度监控（clientReceive，PahoSubscriber主题维度监控。） clientId clientId clientId ENUM LAST PahoSubscriber主题维度监控（clientReceive，PahoSubscriber主题维度监控。） topic 主题主题 ENUM LAST PahoSubscriber主题维度监控（clientReceive，PahoSubscriber主题维度监控。） msgReceivedCount 消息接收次数消息接收次数 INT SUM PahoSubscriber主题维度监控（clientReceive，PahoSubscriber主题维度监控。） bytesReceived 消息接收字节数消息接收字节数 INT SUM PahoSubscriber版本（version，PahoSubscriber版本。） version 版本版本 STRING LAST PahoSubscriber主题汇总（total，PahoSubscriber主题汇总信息统计。） msgReceivedCount 消息接收次数总消息接收次数 INT SUM PahoSubscriber主题汇总（total，PahoSubscriber主题汇总信息统计。） bytesReceived 消息接收字节数总消息接收字节数 INT SUM

来自：
帮助文档
应用性能管理
产品介绍
指标总览
物联网
PahoSubscriber监控
物理机计费项
退订规则退订云物理机后实例会进入冻结状态，冻结周期为15天，冻结期过后如不续费会删除实例。具体退订规则说明，请参考费用中心退订规则说明。提醒/通知规则到期通知：服务到期前7天、3天邮件通知，到期前1天、当天邮件通知和短信提醒。超期通知：服务超期1天邮件通知，超期3天、7天邮件通知和短信提醒。到期与欠费到期到期是针对“包年/包月”的产品而言的，“按需计费”的产品，没有到期的概念。 “包年/包月”实例到期后无法在物理机管理控制台进行该实例的操作，相关接口也无法调用，自动化监控或告警等运维也会停止。如果在冻结期结束时您没有续费，实例将终止服务，系统中的数据也将被永久删除。欠费欠费是针对“按需计费”的产品和账户而言的，“包年/包月”的产品，没有欠费的概念。 “按需计费”实例是按每小时扣费，当余额不足，无法对上一个小时的费用进行扣费，就会导致实例欠费。您续费后解冻实例，可继续正常使用。各使用周期内的资源状态使用周期状态计费模式正常使用周期内运行中包年/包月剩余xx天到期超期未续费，进入冻结期冻结包年/包月已冻结，xx天后删除超期未续费，已过冻结期已删除包年/包月删除

来自：
帮助文档
物理机 DPS
计费说明
物理机计费项
只读实例简介
本章节会介绍如何什么是只读实例。产品简介目前，云数据库PostgreSQL的实例支持只读实例。在对数据库有少量写请求，但有大量读请求的应用场景下，单个实例可能无法抵抗读取压力，甚至对主业务产生影响。为了实现读取能力的弹性扩展，分担数据库压力，您可以在某个区域中创建一个或多个只读实例，利用只读实例满足大量的数据库读取需求，以此增加应用的吞吐量。您需要在应用程序中分别配置主实例和每个只读实例的连接地址，才能实现将写请求发往主实例而将读请求发往只读实例。只读实例为单个物理节点的架构（没有备节点），采用PostgreSQL的原生复制功能将主实例的更改同步到所有只读实例，而且主实例和只读实例之间的数据同步不受网络延时的影响，只读实例跟主实例在同一区域，但可以在不同的可用区。功能特点规格可以与主实例不一致，并可以随时更改规格（没有时间限制），便于弹性升降级。不需要维护账号与数据库，全部通过主实例同步。提供系统性能监控。关系型数据库服务提供近20个系统性能的监控视图，如磁盘容量、IOPS、连接数、CPU利用率、网络流量等，用户可以轻松查看实例的负载。功能限制 1个主实例最多可以创建5个只读实例。备份设置：不支持备份设置以及临时备份。实例恢复：不支持通过备份文件或任意时间点创建临时实例，不支持通过备份集覆盖实例。数据迁移：不支持将数据迁移至只读实例。数据库管理：不支持创建和删除数据库。帐号管理：只读实例不提供创建帐号权限，如需增加只读实例帐号，请在主实例上操作。

来自：
帮助文档
关系数据库PostgreSQL版
用户指南
只读实例
只读实例简介
AnyWhere集群概述
本文介绍AnyWhere集群。天翼云CCE Anywhere集群是面向分布式云场景，提供的一种全新本地 Kubernetes 集群部署选项：构建在Kubernetes子项目Cluster API（CAPI）之上，通过申明式API和控制器模式,让您在自己管理的IDC基础设施或边缘设施中，创建、管理和升级基于天翼云CCE Distro发行版的Kubernetes集群；拥有与云上CCE发行版相同可靠性和安全性的同时，通过连接到云上注册集群，可获得标准化集群运维（含日志、监控、巡检、诊断、备份等）、丰富的插件扩展，以及智算套件、集群联邦等高阶扩展能力，实现轻量敏捷、云边一体的分布式容器云服务。产品优势公有云标准化交付，相同可靠性与安全性。丰富扩展能力，将云上现代化操作实践和工具适配本地集群环境。支持纯离线环境部署交付。基于云原生开源标准构建。应用场景将本地应用从虚拟机迁移到现代化容器。基于容器构建内部开发平台，以标准化团队资源使用。将本地基础设施容器化后，与云上资源打通以实现极致弹性能力。将本地基础设施容器化后，接入CCE One集群联邦以实现分布式智算能力。施工指南

来自：
帮助文档
分布式容器云平台 CCE One
用户指南
AnyWhere集群
AnyWhere集群概述
产品特性
节点池管理支持创建自定义节点池，借助节点池基本功能方便快捷地创建、管理和销毁节点，而不会影响整个集群。节点池中所有节点的参数和类型都彼此相同，您无法在节点池中配置单个节点，任何配置更改都会影响节点池中的所有节点。工作负载工作负载是在Kubernetes上运行的应用程序。无论您的工作负载是单个组件还是协同工作的多个组件，您都可以在Kubernetes上的一组Pod中运行它。在Kubernetes中，工作负载是对一组Pod的抽象模型，用于描述业务的运行载体，包括Deployment、Statefulset、Daemonset、Job、CronJob等多种类型。 CCE提供基于Kubernetes原生类型的容器部署和管理能力，支持容器工作负载部署、配置、监控、扩容、升级、卸载、服务发现及负载均衡等生命周期管理。亲和/反亲和性调度云容器引擎提供工作负载和可用区、工作负载和节点以及工作负载间的亲和性/反亲和调度。您可根据业务需求设置亲和性，实现工作负载的就近部署，容器间通信就近路由，减少网络消耗；您也可以对同个工作负载的多个实例设置反亲和部署，减少宕机影响，对互相干扰的应用反亲和部署，避免干扰。网络访问方式云容器引擎通过将Kubernetes网络和VPC深度集成，提供了稳定高性能的网络访问方式，能够满足多种复杂场景下工作负载间的互相访问。

来自：
帮助文档
云容器引擎
产品简介
产品特性
API概览
弹性伸缩服务提供以下相关API接口。类型描述伸缩服务开通验证验证用户是否已开通弹性伸缩服务伸缩资源配额查询查询用户的弹性伸缩组、伸缩配置、伸缩策略配额查询伸缩组查询伸缩组列表创建伸缩组创建一个弹性伸缩组删除伸缩组删除一个弹性伸缩组修改伸缩组修改一个弹性伸缩组停用伸缩组停用一个弹性伸缩组启用伸缩组启用一个弹性伸缩组修改伸缩组最大云主机数修改伸缩组最大云主机数修改伸缩组最小云主机数修改伸缩组最小云主机数查询负载均衡器查询伸缩组的负载均衡列表添加负载均衡器添加一个或多个负载均衡删除负载均衡器删除一个或多个负载均衡实器修改伸缩组云主机回收方式修改弹性伸缩组的云主机回收方式修改伸缩组健康检查方式修改弹性伸缩组的健康检查方式修改伸缩组健康检查间隔修改一个弹性伸缩组的健康检查间隔检查伸缩组云防火墙用于检查该账户下，哪些安全组被伸缩配置所使用检查伸缩组是否可以修改检查弹性伸缩组是否可以修改修改弹性伸缩组的一个伸缩配置修改弹性伸缩组的伸缩配置修改弹性伸缩组的伸缩配置列表修改弹性伸缩组的伸缩配置列表开启伸缩组保护开启伸缩组保护，不可删除该伸缩组关闭伸缩组保护关闭伸缩组保护，可以删除该伸缩组移入云主机将一台或多台云主机移入伸缩组移出云主机将一台或多台云主机移出伸缩组移出云主机并释放将一台或多台云主机移出伸缩组并释放设置云主机保护开始保护或者停止保护伸缩组内的一台或者多台云主机关闭云主机保护关闭云主机保护开启云主机保护开启云主机保护设置云主机移出规则设置云主机移出规则获取伸缩组主机数量监控数据获取弹性伸缩云主机数量监控数据查询伸缩组不健康主机查询伸缩组内不健康云主机信息查询伸缩组云主机信息查询伸缩组内云主机的列表，并列出云主机的信息查询伸缩组云主机可用区分布查询伸缩组内的云主机的可用区分布创建伸缩策略创建一个弹性伸缩策略删除伸缩策略删除一条伸缩策略修改伸缩策略修改一条伸缩策略执行伸缩策略执行一条伸缩策略创建告警策略创建一个告警策略删除告警策略删除一个告警策略修改告警策略修改弹性伸缩告警策略启用告警策略启用一个告警策略停用告警策略停用一个告警策略创建周期策略在伸缩组中创建一个周期策略创建定时策略在伸缩组中创建一个定时策略删除定时策略删除一个定时策略修改定时策略修改一个定时策略启用伸缩组中指定策略启用伸缩组中的指定策略停用伸缩组中指定策略停用伸缩组中的指定策略查询伸缩组策略表查询弹性伸缩组内的策略列表查询定时策略信息表查询定时策略信息列表查询周期策略信息表查询周期策略信息列表查询伸缩组告警策略查询弹性伸缩的告警策略修改一个周期策略修改一个周期策略启用一个周期策略启用一个周期策略删除一个周期策略删除一个周期策略停用一个周期策略停用一个周期策略查询伸缩配置查询弹性伸缩配置创建伸缩配置创建一个弹性伸缩配置删除伸缩配置删除一个弹性伸缩配置修改伸缩配置修改一个弹性伸缩配置查询伸缩活动ID 查询伸缩活动ID列表查询伸缩活动详细信息根据一个伸缩活动的ID查询一个伸缩活动的详细信息查询伸缩活动列表查询伸缩组的伸缩活动，并列出伸缩活动的全部信息

来自：
帮助文档
弹性伸缩服务 AS
API参考
API概览
ALM-18026 Yarn上运行失败的任务数超过阈值
本章节主要介绍ALM18026 Yarn上运行失败的任务数超过阈值的告警。告警解释告警模块按60秒周期检测Yarn root队列上失败的应用的数量，当root队列上该监控周期内新增的运行失败的应用的数量超过50时，且连续发生3次以上，触发该告警。告警属性告警ID 告警级别是否自动清除 18026 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。主机名产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响大量应用任务运行失败。运行失败的任务需要重新提交。可能原因任务出于某种错误运行失败。处理步骤检查告警详情 1.在FusionInsight Manager界面，选择“运维 > 告警 > 告警”，打开告警页面。 2.查看“Yarn上运行失败的任务数超过阈值”告警详情中的“附加信息”，确认监控阈值是否设置过小。是，执行步骤3。否，执行步骤4。 3.选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下失败的任务数”，修改该监控的阈值。执行步骤6。 4.选择“集群 > 待操作集群的名称 > 服务 > Yarn > ResourceManager(主)”，进入ResourceManager的WebUI页面。 5.单击“Applications”下的“FAILED”，单击最上面的任务。查看“Diagnostics”对应的描述信息，根据定位的任务失败原因，处理相关问题。 6.等待3分钟，查看该告警是否消除。是，处理完毕。否，执行步骤7。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-18026 Yarn上运行失败的任务数超过阈值
链路查询
展示当前租户下所有调用链路信息概述展示当前租户下所有调用链路信息。您可以根据多个筛选条件租户查询您想看的调用链，可以点击「TraceID」查看具体的调用链详情。 1. 登录微服务云应用控制台，左侧菜单栏选择“应用监控 >链路分析> 链路查询”，进入列表查看数据。 2. 在左侧导航栏中选择“调用链查询“”查看该应用实例/接口的调用链信息。具体使用说明可参考天翼云官网的应用性能监控>用户指南>Trace详情文档

来自：
帮助文档
微服务云应用平台
用户指南
应用监控
链路分析
链路查询
巡检历史：查询列表
参数参数类型说明示例下级对象 productType String 本参数表示产品类型。取值范围：vm：云主机。根据以上范围取值。 vm inspectionType Integer 本参数表示巡检类型。取值范围：1：资源健康评估。2：资源风险识别。根据以上范围取值。 1 inspectionItem Integer 本参数表示巡检项。取值范围：1：云主机性能评估。2：监控数据健康评估。3：云主机闲置资源检查。4：云主机磁盘使用预警评估根据以上范围取值。 1 level Integer 本参数表示重要等级。取值范围：1：低。2：中。3：高。根据以上范围取值。 2 description String 巡检项描述云主机磁盘空间耗尽风险 inspectionResult Boolean 本参数表示巡检结果。取值范围：true：正常。false：异常。根据以上范围取值。 true anomalyCount Integer 异常数量 10

来自：
帮助文档
云监控服务
API参考
API（新）
智能巡检
巡检记录
巡检历史：查询列表
管理订阅渠道(1)
订阅渠道即为指标、事件数据发送的目标接收端,本文主要介绍订阅渠道的管理。操作场景对于指标/事件数据，您如需要进行二次消费使用，可以先定义数据订阅渠道，再创建数据订阅任务时选择已经配置额订阅渠道即可。前提条件注册天翼云账号，并完成实名认证。具体操作，请参见天翼云账号注册流程。订阅渠道管理 1. 登录控制中心。 2. 在控制中心页面左上角点击，选择区域，本文我们选择华东1。 3. 依次选择“管理与部署”，单击“云监控服务”，进入监控概览页面。 4. 选择“数据订阅”菜单，进入数据订阅任务列表页面。 5.切换至“订阅渠道”页签，即可进入订阅渠道管理页面。

来自：
管理订阅渠道
订阅渠道即为指标、事件数据发送的目标接收端,本文主要介绍订阅渠道的管理。操作场景对于指标/事件数据，您如需要进行二次消费使用，可以先定义数据订阅渠道，再创建数据订阅任务时选择已经配置额订阅渠道即可。前提条件注册天翼云账号，并完成实名认证。具体操作，请参见天翼云账号注册流程。订阅渠道管理 1. 登录控制中心。 2. 在控制中心页面左上角点击，选择区域，本文我们选择华东1。 3. 依次选择“管理与部署”，单击“云监控服务”，进入监控概览页面。 4. 选择“数据订阅”菜单，进入数据订阅任务列表页面。 5.切换至“订阅渠道”页签，即可进入订阅渠道管理页面。

来自：
帮助文档
云监控服务
快速入门
管理订阅渠道
云容器集群Pod进程停止(1)
3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到进程停止动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录应用性能监控控制台，观测已接入应用的应用提供服务请求量、应用提供服务平均响应时间等指标。 2、业务应用验证：观测业务进程被终止后的表现。

来自：
产品定义
容灾解决的问题传统的灾备容灾在实际落地中会面临一些问题：如果选择成本优先策略，灾备中心日常只保留必要的冗余数据，灾难接管时再逐步恢复数据实例和业务系统，操作成本高，恢复时间无法预期，无法保障RTO；如果选择效率优先策略，灾备中心日常保持完整的业务应用复刻，由于灾备中心平时不提供服务，整个灾备资源处于闲置状态，成本浪费比较严重；因为灾备中心平时不提供服务，关键时刻不能保证灾备中心能否正确接管业务，灾难真正发生时不一定敢切。应用容灾多活是应用高可用服务下的多活容灾解决方案，在架构上比灾备容灾更具优势，能突破单地域资源瓶颈，拥有更高的资源利用率和系统扩展性，具备如下产品优势：一站接入管控：应用分层管理，接入层、服务层、数据层等统一纳管调度；快速恢复预期：确定的流程编排，一键容灾切换，分钟级业务恢复能力；高效运维监控：组件协同管理，全链路监控告警，容灾运维简单高效。

来自：
帮助文档
应用高可用
产品简介
应用容灾多活
产品定义
数据安全概览
总览页面分为云服务全景图（资产地图）、数据采集安全、数据传输/存储安全、数据使用安全和数据交换/删除安全共五大板块，实时呈现了用户资产的具体情况。前提要求已完成资产访问的授权，参考云资产委托授权/停止授权进行操作。已完成添加数据库资产，参考数据库资产清单进行操作。操作步骤 1. 登录管理控制台。 2. 单击左上角的，选择区域或项目。 3. 在左侧导航树中，单击，选择“安全> 数据安全中心”，进入数据安全中心总览界面。 4. 查看数据安全中心服务的总览—云服务全景图。提供数据资产地图，帮助客户建立数据资产的全景视图，可视化呈现数据资产分布、数据敏感程度、当前的风险级别。梳理云上数据资产：自动扫描并梳理云上数据资产，地图化展示资产分布，帮助用户解决数据在哪里的问题。敏感数据展示：基于DSC的三层数据识别引擎、预置合规规则、自然语义识别技术、文件相似度检测技术，对数据资产进行分类分级。对数据资产按照“风险VPC数”、“风险安全组数”、“风险主机数”、“风险RDS数”、“风险OBS数”进行分类展示。每类资产按照“高危”、“中危”、“低危”、“未识别风险”对敏感数据进行分级定位。风险监控和预警：基于风险识别引擎，对数据资产进行风险监控，展示每类资产的风险分布，并预警。说明将鼠标移动到数据资产图标处，可查看资产相关信息。单击数据资产图标，在界面的右侧弹框中可详细查看该资产的“基本信息”、“风险信息”或者“风险安全组规则”等信息。 5. 查看数据安全中心服务的总览—数据采集安全。 DSC根据敏感数据规则对敏感数据进行识别和敏感等级分类，您可以在总览页面查看您资产中不同风险等级的数据的分布情况。基于敏感字段在文件中出现的累计次数和敏感字段关联组来判断文件的敏感性，并根据文件的敏感程度将其划分为四个等级：“未识别风险”、“低风险”、“中风险”和“高风险”。风险等级依次递增。具体风险等级情况说明：未识别风险：0级低风险：1~3级中风险：4~7级高风险：8~10级在柱状图中，不同高度代表该风险等级的资产数量。将鼠标箭头放置在柱状图上，可查看该风险等级的资产数量。 6. 查看数据安全中心服务的总览—数据传输/存储安全。数据传输安全：DSC统计了以下可能存在传输安全的项，您可以直接单击具体项的名称，查看详细情况。 VPN连接数：您的资产中存在已创建的虚拟专用网络，具体的请参考《VPN服务用户指南》。云专线连接数：您的资产中存在已创建的云专线物理连接，具体的请参考《云专线用户指南》。 ELB未采用加密通信的监听器：添加监听器时，未使用加密通信HTTPS协议的监听器数量的统计，建议您采用HTTS协议进行加密通信，具体的操作请参见修改监听器。 SSL证书订阅：您的资产中存在已购买或者已上传的证书数量，了解SSL证书请参考《SSL证书管理用户指南》。 WAF未采用加密通信的域名：WAF中添加域名时，未使用加密传输HTTPS协议的域名数量的统计，建议您采用HTTPS协议进行加密通信，具体的操作请参见修改服务器信息。数据存储安全：该模块为您罗列了存在未加密的对象桶，为了防止您的资产存在不必要的存储安全，建议您单击对象桶名称，前往OBS界面，对未加密的对象桶进行加密。 7. 查看数据安全中心服务的总览—数据使用安全。该模块统计了“近30分钟”、“近3小时”、“近24小时”、“近7天”、“近30天”内的数据使用安全信息。未处理异常事件：按“数据访问异常”、“数据操作异常”、“数据管理异常”所占比例进行展示。同时，展示了异常事件总数、违例确认总数和违例排除总数。单击“未处理异常事件”中的其中一个颜色区域，可查看指定数据异常占比。当不需要展示某种类型的异常事件时，单击事件分布图右侧攻击类型对应的颜色方块，取消在事件分布圆环中的展示。 Top5访问源IP：前5的访问源IP的统计。 Top5被访问高风险对象：被访问的对象中，排在前5的高风险对象。 Top5访问帐号：前5的访问帐号的统计。 8. 查看数据安全中心服务的总览—数据交换/删除安全。数据交换安全：展示了已创建的“静态脱敏任务数”以及“水印API调用次数”，如何创建数据脱敏任务请参考创建数据脱敏任务。数据删除安全：DSC为您统计了数据库、ECS、OBS资产的当日删除数和总删除数。

来自：
帮助文档
数据安全中心
用户指南
数据安全概览

天翼云最新活动

云聚517 · 好价翼起拼

爆款云主机低至25.83元/年，参与拼团享更多优惠，拼成得额外优惠券

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

多活容灾服务 MDR

轻量型云主机

弹性高性能计算 E-HPC

AI Store

公共算力服务

Token服务

一站式智算服务平台

智算一体机

知识库问答

推荐文档

价格

导出数据

只读实例简介

创建消费者

解决方案

删除