云监控服务_云监控服务文档介绍内容-天翼云

只读实例简介
说明：本章节会介绍如何什么是只读实例产品简介目前，云数据库MySQL 5.6/5.7版的实例支持只读实例和开通读写分离功能。在对数据库有少量写请求，但有大量读请求的应用场景下，单个实例可能无法抵抗读取压力，甚至对主业务产生影响。为了实现读取能力的弹性扩展，分担数据库压力，您可以在某个区域中创建一个或多个只读实例，利用只读实例满足大量的数据库读取需求，以此增加应用的吞吐量。您需要在应用程序中分别配置主实例和每个只读实例的连接地址，才能实现将写请求发往主实例而将读请求发往只读实例。只读实例为单个物理节点的架构（没有备节点），采用MySQL的原生复制功能，将主实例的更改同步到所有只读实例，而且主实例和只读实例之间的数据同步不受网络延时的影响，只读实例跟主实例在同一区域，但可以在不同的可用区。功能特点规格可以与主实例不一致，并可以随时更改规格（没有时间限制），便于弹性升降级。不需要维护帐号与数据库，全部通过主实例同步。提供系统性能监控。关系型数据库服务提供近20个系统性能的监控视图，如磁盘容量、IOPS、连接数、CPU利用率、网络流量等，用户可以轻松查看实例的负载。功能限制 1个主实例最多可以创建5个只读实例。备份设置：不支持备份设置以及临时备份。实例恢复：不支持通过备份文件或任意时间点创建临时实例，不支持通过备份集覆盖实例。数据迁移：不支持将数据迁移至只读实例。数据库管理：不支持创建和删除数据库。帐号管理：只读实例不提供创建帐号权限，如需增加只读实例帐号，请在主实例上操作。

来自：
帮助文档
专属云（关系型数据库MySQL）
用户指南
只读实例
只读实例简介
实例CPU使用率高问题排查
分析服务能力经过前面数据库正在执行的请求和慢请求的分析和优化，所有的请求都使用了合理的索引，CPU的使用率相对趋于稳定。如果经过前面的分析排查，CPU使用率仍然居高不下，则可能是因为当前实例已达到性能瓶颈，不能满足业务需要，此时您可以通过如下方法解决。 6. 通过查看监控信息分析实例资源的使用情况，请查看监控指标。 7. 对DDS进行规格变更或者添加分片数量。

来自：
帮助文档
文档数据库服务
用户指南
性能调优
实例CPU使用率高问题排查
agent管理
Agent管理列表用于管理您安装的所有探针概述 Agent管理列表用于管理您安装的所有探针，包括“正常上报“和“未上报”的探针，显示各个探针的关键指标信息，提供查看应用详情的快捷入口和升级探针的功能入口。 1. 登录微服务云应用控制台，左侧菜单栏选择“应用监控 > agent管理”，进入列表查看数据。具体使用说明可参考天翼云官网的应用性能监控>用户指南>Agent管理的文档。

来自：
帮助文档
微服务云应用平台
用户指南
应用监控
应用监控
agent管理
应用场景
本章节介绍数据库安全应用场景。安全等保合规数据库安全服务要满足政企、能源、金融、医疗、教育、网络货运等行业的等保二级、三级监管要求，需要对云上数据库进行安全审计，符合国家法律、行业监管的要求。《等级保护2.0》中明确提到需要数据库审计提供集中审计功能。《信息安全等级保护测评》第八章测评单元指出，企业测评单元应该包括以下要求：综合安全审计系统、数据库审计系统等提供集中审计的系统。数据库审计无论是自建数据库还是云数据库，都有可能面临来自内外网络的恶意攻击，以及内部人员各类误操作导致的数据损失。当出现数据被删除、信息被篡改、敏感信息泄漏等重大安全事件时，必须要进行全面的事件还原和严肃的追责处理。天翼云数据库安全服务通过部署数据库安全审计Agent或者云原生RDS免Agent模式，获取访问数据库流量、将流量数据上传到审计系统、接收审计系统配置命令和上报数据库状态监控数据，实现对ECS/BMS自建数据库以及RDS数据库的安全审计，对数据库内部违规和不正当操作的定位追责。数据库安全检测数据库日常运行的风险除了内部违规和不正当操作外，还有来自于SQL注入、拖库、洗库、撞库、日志异常等导致的性能问题。天翼云数据库安全检测提供SQL注入、风险操作、日志异常行为检测等安全检测功能，用于检测数据库使用过程中的数据安全风险。用户可根据自身业务需求，选择启用适当的数据安全检测规则，完成数据库安全检测。

来自：
帮助文档
数据库安全
产品介绍
应用场景
集群管理
配置升级当master、core或task节点实例的规格（vCPU和内存）无法满足您的业务需求时，您可以使用配置升级功能提升实例规格。节点扩容当master、core或task节点组内的资源无法满足您的业务需求时，您可以使用节点扩容功能增加实例数量。节点缩容当task节点组内的资源超出您的业务需求时，您可以使用节点缩容功能减少实例数量。新增节点组当存量core或task节点组的计算或存储资源无法满足您的业务需求时，您可以使用新增节点组功能增加实例组。磁盘扩容当master、core或task节点的数据存储空间无法满足您的业务需求时，您可以使用磁盘扩容功能增加数据盘的空间。集群运维管理翼MR Manager提供资源概览、集群服务、主机、租户与资源、监控与告警、运维与配置等运维管理功能。 1. 资源概览：展示该集群下所有主机的CPU、内存、网络等信息，包括CPU使用率、磁盘使用率、内存使用率、网络发送速率等。 2. 集群服务：展示当前集群下的所有集群服务，并按组件类型、以列表视图列出，在集群服务列表处支持一键启动所有集群服务、一键停止所有集群服务。 3. 主机：默认展示当前集群下的所有主机列表，可查看当前运维平台的所有主机信息。也可以查看主机上的角色实例分配和告警历史信息。 4. 租户与资源：以集群服务为维度对LDAP用户、Kerberos安全凭证和YARN队列进行管理。LDAP用户管理展示当前集群下的LDAP用户和用户组等信息；Kerberos安全凭证支持新建Principal、删除Principal，支持Keytab分发与下载，并支持查看Keytab的分发记录；YARN队列管理支持YARN队列新建、编辑与删除，capacityscheduler.xml的全局属性配置，支持YARN队列的同步生效并支持查看同步生效记录。 5. 监控与告警：支持指标查询和告警历史功能。指标查询支持查询角色实例级、主机级的监控指标，支持指标结果的绘图操作，让用户更直观获取监控项变化；告警历史支持按照集群服务级、角色实例级、主机级查询告警内容。 6. 运维与配置：支持流水线历史、配置管理、配置历史、配置同步历史。流水线历史展示所有流水线的运行历史记录，以及操作人；配置管理支持查看不同集群服务的配置文件，并进行新增、修改、删除配置等操作；配置历史支持查看配置文件不同版本的配置内容、并支持不同版本之前的内容对比；配置同步历史支持查看不同环境的配置同步历史、配置同步操作人，以及配置同步详情。

来自：
帮助文档
翼MapReduce
产品介绍
功能特性
集群管理
巡检任务：查询结果详情
参数参数类型说明示例下级对象 productType String 本参数表示产品类型。取值范围：vm：云主机。根据以上范围取值。 vm inspectionType Integer 本参数表示巡检类型。取值范围：1：资源健康评估。2：资源风险识别。根据以上范围取值。 1 inspectionItem Integer 本参数表示巡检项。取值范围：1：云主机性能评估。2：监控数据健康评估。3：云主机闲置资源检查。4：云主机磁盘使用预警评估根据以上范围取值。 1 level Integer 本参数表示重要等级。取值范围：1：低。2：中。3：高。根据以上范围取值。 2 deviceName String 主机名称 ecm1234

来自：
帮助文档
云监控服务
API参考
API（新）
智能巡检
巡检总览
巡检任务：查询结果详情
ALM-14020 HDFS目录条目数量超过阈值
本章节主要介绍ALM14020 HDFS目录条目数量超过阈值的告警。告警解释系统每一个小时获取指定目录下直接子文件/目录的数量，判断其是否达到HDFS目录最大子文件/目录个数的百分比阈值（默认为“90%”），如果超过该阈值，则触发告警。当发出告警的目录的子目录/文件数所占百分比低于阈值后，该告警将自动恢复。当监控开关关闭，所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时，该目录对应的告警也会自动恢复。说明 HDFS目录的子文件/目录最大个数由参数“dfs.namenode.fslimits.maxdirectoryitems”指定，默认值为“1048576”。如果一个目录的子文件/目录数量超过该值，则无法再在该目录下创建新的子文件/目录。要监控的目录列表由参数“dfs.namenode.directoryitems.monitor”指定，默认值为“/tmp,/SparkJobHistory,/mrhistory”。监控开关由参数“dfs.namenode.directoryitems.monitor.enabled”指定，默认值为“true”，即该检测默认开启。告警属性告警ID 告警级别是否自动清除 14020 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名产生告警的服务名称。角色名产生告警的角色名称。 NameService名产生告警的NameService名称。目录名产生告警的目录名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-14020 HDFS目录条目数量超过阈值
执行健康检查
本章节主要介绍翼MapReduce服务执行健康检查。操作场景该任务指导用户在日常运维中完成集群进行健康检查的工作，以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。说明系统健康检查的范围包含Manager、服务级别和主机级别的健康检查： Manager关注集群统一管理平台是否提供管理功能。服务级别关注组件是否能够提供正常的服务。主机级别关注主机的一系列指标是否正常。系统健康检查可以包含三方面检查项：各检查对象的“健康状态”、相关的告警和自定义的监控指标，检查结果并不能等同于界面上显示的“健康状态”。操作步骤手动执行所有服务的健康检查 1. 单击“服务管理”。 2. 选择“更多 > 启动服务健康检查”，启动服务健康检查。说明集群健康检查包含了Manager、服务与主机状态的检查。在MRS Manager界面，选择“系统设置 > 维护 > 健康检查 > 集群健康检查”，也可以执行集群健康检查。手动执行健康检查的结果可直接在检查列表左上角单击“导出报告”，选择导出结果。手动执行单个服务的健康检查 1. 选择“服务管理”，在服务列表中单击服务指定名称。 2. 选择“更多 > 启动服务健康检查”启动指定服务健康检查。手动执行主机健康检查 1. 单击“主机管理”。 2. 勾选待检查主机前的复选框。 3. 选择“更多 > 启动主机健康检查”启动指定主机健康检查。

来自：
帮助文档
翼MapReduce
用户指南
MRS Manager操作指导（适用于2.x及之前）
健康检查管理
执行健康检查
接入组件管理
通过Prometheus监控服务的接入组件管理功能，您可查询或管理当前用户已经接入的监控目标和数据。基础操作 1. 登录应用性能监控APM控制台，点击左侧菜单栏Prometheus监控。 2. 点击Prometheus监控下的接入管理，在已接入组件页签查看所有已接入的组件。 3. 点击指定组件卡片，查看其接入的环境列表信息，每一个组件类型可能接入到多个环境中。 4. 在环境列表页签下，点击查看详情，即可进入环境详情页面。在环境详情页面中展示了以下关键信息：关联的容器集群ID或VPC信息及状态。环境名称。默认指标存储：指该环境采集的指标数据所存储的Prometheus实例名称，该实例通常跟随环境默认创建。新增接入组件在指定环境页面中，点击新增接入按钮，在接入面板中选择目标组件，并根据提示完成接入。卸载接入组件每一条接入记录可以单独卸载，当您将同一个组件类型下的全部记录都执行卸载后，对应的大盘和告警规则会被删除。在组件区域，点击指定组件后的卸载按钮，根据提示完成卸载。

来自：
帮助文档
应用性能监控 APM
用户指南
Prometheus监控
控制台操作指南
接入管理
接入组件管理
可靠性增强
操作系统健康状态监控周期采集操作系统硬件资源使用率数据，包括CPU、内存、硬盘、网络等资源的使用率状态。进程健康状态监控翼MR提供业务实例的状态以及业务实例进程的健康指标的检查，能够让用户第一时间感知进程健康状态。硬盘故障的自动处理天翼云大数据平台翼MapReduce对开源版本进行了增强，可以监控各节点上的硬盘以及文件系统状态。如果出现异常，立即将相关分区移出存储池；如果硬盘恢复正常（通常是因为用户更换了新硬盘），也会将新硬盘重新加入业务运作。这样极大简化了维护人员的工作，更换故障硬盘可以在线完成；同时用户可以设置热备盘，从而极大缩减了故障硬盘的修复时间，有利于提高系统的可靠性。节点磁盘LVM配置天翼云大数据平台翼MapReduce支持将多个磁盘配置成LVM（Logic Volume Management），多个磁盘规划成一个逻辑卷组。配置成LVM可以避免各磁盘间使用不均的问题，保持各个磁盘间均匀使用在HDFS和Kafka等能够利用多磁盘能力的组件上尤其重要。并且LVM可以支持磁盘扩容时不需要重新挂载，避免了业务中断。数据可靠性天翼云大数据平台翼MapReduce可利用弹性云服务器ECS提供的反亲和节点组以及放置组的能力，结合Hadoop的机架感知能力，将数据冗余到多个物理宿主机上，避免物理硬件的失效造成数据的失效。

来自：
帮助文档
翼MapReduce
产品介绍
功能特性
可靠性增强
查看Topic
介绍分布式消息服务Kafka主题列表功能操作内容。场景描述 Kafka主题列表是Kafka消息队列中的一个重要概念，用于列出所有可用的主题。以下是一些Kafka主题列表的应用场景的描述：监控和管理：通过查看Kafka主题列表，管理员可以了解当前系统中存在的所有主题。他们可以监控主题的状态、分区数量和副本分布，并进行必要的管理操作，如创建、删除和修改主题。数据消费者选择：Kafka主题列表可以帮助数据消费者选择他们感兴趣的主题。消费者可以浏览主题列表，找到包含他们需要的数据的主题，并订阅这些主题以接收数据。数据集成和数据流转：Kafka主题列表可以帮助数据集成和数据流转的过程。数据源可以查看主题列表，确定将数据写入哪些主题。而数据接收方可以查看主题列表，选择他们需要的主题来消费数据。监控数据流：通过查看Kafka主题列表，监控系统可以了解当前系统中的所有数据流。监控系统可以根据主题列表中的信息，监控每个主题的数据流量、延迟和健康状况，并进行实时的监控和报警。系统调试和故障排查：Kafka主题列表可以帮助开发人员进行系统调试和故障排查。他们可以查看主题列表，确定消息是否正确地写入和消费，并检查主题的状态和分区情况，以解决潜在的问题。总之，Kafka主题列表提供了对Kafka消息队列中所有主题的全局视图，帮助管理员、数据消费者和开发人员进行监控、管理和调试。操作步骤（1）登录管理控制台。（2）进入Kafka管理控制台。（3）在实例列表页在操作列，目标实例行点击“管理”。（4）点击“Topic管理”后即可查看所有Topic的信息。（5）右上角输入Topic名称，可查询对应Topic。

来自：
帮助文档
分布式消息服务Kafka
用户指南
Topic管理
查看Topic
应用场景
生产业务类系统政府机关面向公众服务的业务系统，或与医疗、安防、消防、应急指挥、生产调度、交通指挥等相关的城市管理系统。态势感知将通过监控网络资产状态，结合威胁情报、脆弱性检测、威胁检测及时有效地发现网络资产是否存在挖矿勒索、系统后门及告警网络攻击，通过漏洞扫描与基线扫描，直观地了解自身的安全状况，同时动态实时地监控管理业务资产。

来自：
帮助文档
态势感知
产品介绍
应用场景
应用场景(1)
云应用引擎 CAE（Cloud App Engine）具有广泛的应用场景，帮助您的企业极速上云、从容应对突发性流量洪流和灵活启停应用环境，降低资源成本。应用托管在企业生产环境中，通过合理拆分微服务，将每个微服务应用压缩为 ZIP 包、Docker 镜像存储在天翼云镜像仓库。您只需基于 Spring Cloud 或 Dubbo 等框架开发规范迭代每个微服务应用，由 CAE 提供底层资源调度、部署、灰度发布、微服务治理和监控诊断等能力。同时提供丰富的高级应用配置项，实现业务快速迁移上云。零改造：CAE 能够平滑迁移应用，零改造地完成 Spring Cloud 或 Dubbo 应用快速上云。免运维：CAE 能够免运维底层基础设施，例如 IaaS、K8s、微服务组件和 APM 组件等，无需自建注册中心，极大降低开发运维成本。低门槛：CAE 能够一站式开箱使用全套微服务能力，提供自动构建镜像、灰度发布、流量控制、环境隔离、应用监控等企业级高级特性。任务托管聚焦于泛互联网、新零售、电商、文化传媒、制造、 IoT、物流、金融证券、医疗卫健和保险等行业。主要场景如下：定时任务：定时拉取数据、爬虫。批处理数据：数据清洗、转换、分析，对实时性要求低。异步执行解耦：异步状态刷新以及离线查询。微服务架构：与原有的微服务架构进行调用通信、流程解耦。相比开源的分布式框架，其优点在于全托管免运维的用户体验，开箱即用的完备功能以及白屏化管控，任务运行完立即释放资源，不会浪费闲置资源成本。

来自：
查看正在告警
本文带您了解如何查看正在告警记录。操作场景正在告警可以展示当前处于告警状态的记录，帮助您快速定位当前正在告警的资源。前提条件注册天翼云账号，并完成实名认证。具体操作，请参见天翼云账号注册流程。操作步骤 1. 登录控制中心。 2. 在控制中心页面左上角点击，选择区域，本文我们选择华东1。 3. 依次选择“管理与部署”，单击“云监控”，进入监控概览页面。 4. 单击“告警服务”下“告警记录”，默认进入“正在告警”界面。说明界面默认展示当前处于告警中的告警记录，如果告警已经恢复，会归档到”历史告警“页签下。

来自：
帮助文档
云监控服务
快速入门
查看正在告警
数据库实例连接
5. 网络不通内网访问：内网访问需要确认弹性云主机和数据库实例在同一个区域、VPC。查看安全组规则，不同的安全组要相应的开放出入规则，详细操作，请参考设置安全组规则。公网访问：检查弹性IP，弹性IP是一个单独的产品，需要检查弹性IP是否正常，以及是否正常绑定在数据库实例主机上。查看安全组规则，需要为数据库实例添加相应的规则。详细操作，请参考设置安全组规则。 6. 实例连接数满数据库实例连接数过多，也可能会导致业务侧无法再建立新的连接。为了避免这种情况发生，建议进行连接数的优化和限制，以确保数据库能够处理并响应所有需要的连接请求。这可以通过调整数据库连接池大小、优化业务逻辑或增加数据库实例数量等方式来实现。 7. 主机资源当主机资源如磁盘、cpu、内存等达到上限，也会直接影响到数据库实例的连接和正常读写。为了避免这种情况，建议监控主机资源的使用情况，并根据需要进行资源的优化和扩容，以确保数据库实例能够正常运行并处理请求。详细操作，请参考用户指南监控与告警设置自定义告警规则。外部服务器能否访问关系MySQL实例我们提供了两种方式来访问我们的数据库实例：公网访问：对于绑定了弹性IP（EIP）的数据库实例，我们可以直接通过外网进行访问，具体操作，可以参考通过公网连接MySQl实例。内网访问：也可以通过内网访问数据库实例，只需将关系数据库MySQL版实例与弹性云主机创建在同一个VPC子网下，可通过弹性云主机直接访问到数据库实例，具体操作，请参考通过内网连接MySQL实例。

来自：
帮助文档
关系数据库MySQL版
常见问题
操作类
数据库实例连接
资源报表
收发TPS说明收发TPS（每秒事务处理量）指标具有重要的意义，特别是在物联网和实时通信应用中。以下是收发TPS的作用：性能评估：收发TPS是衡量MQTT系统性能的关键指标之一。它可以告诉您系统每秒处理多少条消息，帮助您评估MQTT代理服务器、网络和应用程序的性能。通过监控和分析收发TPS，您可以确定系统的性能是否足够满足实际需求，并及时识别性能瓶颈。负载均衡和容量规划：收发TPS数据可以用来规划系统的容量和负载均衡策略。如果TPS持续增加，您可能需要考虑增加服务器资源、使用负载均衡来分散流量，或者优化消息处理逻辑，以确保系统能够承受更高的负载。故障检测和故障排除：收发TPS的突然下降或波动可能表明系统中存在故障或问题。通过实时监控TPS，您可以更早地发现问题并快速采取措施来排除故障，以减少服务中断时间。服务级别协议（SLA）的监测： TPS数据可以用于监测和验证SLA。您可以使用TPS数据来确保服务提供商满足合同中规定的性能指标。优化消息传输：通过分析TPS数据，您可以识别哪些主题或设备产生了高消息流量，从而可以采取措施来优化消息传输，减少不必要的消息传递或者改进消息过滤机制。 MQTT的收发TPS数据对于监控、优化性能、规划容量、故障排除和满足SLA等方面都具有重要的意义。它们提供了有价值的洞察，帮助您确保MQTT系统在各种条件下都能够稳定运行并满足需求。

来自：
删除Pushgateway监控配置
本节主要介绍如何使用API删除Pushgateway监控配置。此操作用来删除Pushgateway监控配置。注意如果删除了“指标必须具备的label”，可能会造成相关监控数据无法识别的风险。请求语法 plaintext DELETE /rest/v1/system/config/monitor?serverIdserverid1,serverid2,serveridN HTTP/1.1 Date: date ContentType: application/json; charsetutf8 ContentLength: length Host: ip:port Authorization: authorization { "pushgateway":address:port, "pushgatewayLabels": [ "key1", "key2", "key3", ... ] "collectMetric": name, "collectMetricItems": [ "item1", "item2", "item3", ... ], } 请求参数参数类型描述是否必须 serverId String 指定要删除Pushgateway监控配置的HBlock服务器ID。一次可以指定多个HBlock服务器的ID，以英文逗号（,）分开。如果不填写，默认为所有HBlock服务器删除指定的Pushgateway监控配置。否 pushgateway String 指定Pushgateway的地址和接口。取值：格式为IPv4 :port 、[IPv6 ]:port 或者domainname :port。是 pushgatewayLabels Array of pushgatewayLabel 指定Pushgateway对应的标签值。取值：label项。否 collectMetric String 指定采集的监控指标。取值为：server、fileSystem、interface、load、disk、tcp、os。默认删除的上述所有监控指标。否 collectMetricItems Array of collectMetricItem 指定监控指标下的配置项。否请求示例1 为服务器hblock1、hblock2删除相关的Pushgateway监控配置：标签为agent、idc，监控指标为disk，监控指标配置项为pstore、devpts。 plaintext DELETE /rest/v1/system/config/monitor?serverIdhblock1,hblock2 HTTP/1.1 Date: Fri, Fri, 24 May 2024 07:01:39 GMT ContentType: application/json; charsetutf8 Authorization: HBlock userName:signature ContentLength: 216 Host: 192.168.0.110:1443 { "pushgateway": "192.168.0.1:9091", "pushgatewayLabels": [ "agent", "idc" ], "collectMetric": "disk", "collectMetricItems": [ "pstore", "devpts" ] }

来自：
帮助文档
存储资源盘活系统
API参考
HBlock系统设置
Pushgateway监控配置
删除Pushgateway监控配置
监控告警类
本章节主要介绍操作类问题中有关监控告警的问题。在MRS流式集群中，Kafka Topic的监控是否支持发送告警？暂不支持Kafka Topic监控发送邮件和短信告警。用户可以在集群Manager界面查看组件相关告警信息。产生“ALM18022 Yarn队列资源不足”告警时，正在运行的资源队列可以在哪查看？ Yarn资源队列可以登录Manager界面，选择“集群 > 服务 > Yarn ResourceManager(主)”，登录Yarn的原生页面进行查看。具体的告警处理方法可查看该告警的联机帮助文档进行处理。 HBase操作请求次数指标中的多级图表统计如何理解？以“RegionServer级别操作请求次数”监控项为例： 1.登录FusionInsight Manager，选择“集群 > 服务 > HBase > 资源”，在该界面即可查看“RegionServer级别操作请求次数”图表，选中“all”，则显示当前集群所有RegionServer的所有操作请求次数总和排Top10的值，统计时间间隔为5分钟。 2.单击表格中某一统计点，即可进入二级图表，表示该时刻前5分钟内统计的所有RegionServer的操作请求数。 3.再单击某一个操作统计柱状图即可进入三级图表，表示该时间段内各个Region相应操作的分布情况。 4.单击某个Region名称，进入该Region在12小时内每5分钟做的操作数统计分布图，可查看具体的操作在该时间段内执行的次数。

来自：
帮助文档
翼MapReduce
常见问题
操作类
监控告警类
高频问题
本文介绍弹性容器实例ECI的高频问题。 ECI实例如何收费？请参考计费说明。如果您在使用过程中关联天翼云其他云产品资源，您需要为您使用的资源付费。如何查看vCPU的使用额？您可以创建的ECI的实例数依赖于对应地域您的vCPU配额（quota）和已使用量。在控制台查看配额的方法如下：在弹性容器实例控制台左侧导航栏中选择“权益配额”进行查看。其中权益配额包含已使用量和使用上限。如何创建GPU实例？ ECI支持指定ECS的GPU规格来创建GPU实例，具体操作，请参见指定ECS规格创建实例。为什么ECI控制台和监控数据显示的实例规格不一致？问题描述创建了一个1 vCPU、1 GiB内存的ECI实例，但是在监控数据查到的ECI实例的规格为不一致。问题说明上述现象是正常的，监控数据查到的实例规格是ECI实例宿主机的规格，而非ECI实例的规格。如果您购买的是1 vCPU、1 GiB内存的ECI实例，最终也只能使用对应规格的资源。是否支持私有镜像？支持私有镜像，支持使用天翼云镜像仓库搭建私有镜像。镜像缓存是否支持更新？支持更新。对于状态为创建完成（Ready）或者UpdateFailed（更新失败）的镜像缓存，支持调用UpdateImageCache接口来更新镜像缓存，包括更新容器镜像、保留时长、镜像仓库信息等。

来自：
帮助文档
弹性容器实例
常见问题
高频问题
消费者实例查询
本文介绍分布式消息服务RocketMQ的消费者实例查询操作内容。场景描述 RocketMQ显示当前在线的消费者实例有以下作用：监控消费者状态：通过显示当前在线的消费者实例，可以实时监控消费者的状态。可以了解消费者的连接情况、消费进度和消费速率等信息，帮助及时发现消费者异常或故障，以便进行及时处理和调整。故障排查与追踪：通过显示当前在线的消费者实例，可以帮助定位消息消费失败的原因。可以查看每个消费者实例的消费情况，包括消费的消息数量、消费延迟等信息，方便排查故障和进行问题定位。综上所述，显示当前在线的消费者实例可以帮助监控消费者状态、故障排查等，为系统的稳定运行提供重要支持。操作步骤 1、天翼云官网点击控制中心，选择产品分布式消息服务RocketMQ。 2、登录分布式消息服务RocketMQ控制台，点击右上角地域选择对应资源池。 3、进入实例列表，点击【管理】按钮进入管理菜单。 4、进入消费者实例查询菜单，列出了指定集群和Broker下的消费组消费的情况。列表展示了指定集群和指定Broker下的消费组消费的情况。连接实例显示该消费组，当前在线的消费者实例列表。堆积量显示该消费组消费指定Topic时，还有多少未消费。

来自：
帮助文档
分布式消息服务RocketMQ
用户指南
管理消息
消费者实例查询
应用场景
云应用引擎 CAE（Cloud App Engine）具有广泛的应用场景，帮助您的企业极速上云、从容应对突发性流量洪流和灵活启停应用环境，降低资源成本。应用托管在企业生产环境中，通过合理拆分微服务，将每个微服务应用压缩为 ZIP 包、Docker 镜像存储在天翼云镜像仓库。您只需基于 Spring Cloud 或 Dubbo 等框架开发规范迭代每个微服务应用，由 CAE 提供底层资源调度、部署、灰度发布、微服务治理和监控诊断等能力。同时提供丰富的高级应用配置项，实现业务快速迁移上云。零改造：CAE 能够平滑迁移应用，零改造地完成 Spring Cloud 或 Dubbo 应用快速上云。免运维：CAE 能够免运维底层基础设施，例如 IaaS、K8s、微服务组件和 APM 组件等，无需自建注册中心，极大降低开发运维成本。低门槛：CAE 能够一站式开箱使用全套微服务能力，提供自动构建镜像、灰度发布、流量控制、环境隔离、应用监控等企业级高级特性。任务托管聚焦于泛互联网、新零售、电商、文化传媒、制造、 IoT、物流、金融证券、医疗卫健和保险等行业。主要场景如下：定时任务：定时拉取数据、爬虫。批处理数据：数据清洗、转换、分析，对实时性要求低。异步执行解耦：异步状态刷新以及离线查询。微服务架构：与原有的微服务架构进行调用通信、流程解耦。相比开源的分布式框架，其优点在于全托管免运维的用户体验，开箱即用的完备功能以及白屏化管控，任务运行完立即释放资源，不会浪费闲置资源成本。

来自：
帮助文档
云应用引擎
产品介绍
应用场景
ALM-14022 NameNode RPC队列平均时间超过阈值
查看HDFS负载变化情况，适当降低HDFS负载 20.在FusionInsight Manager首页，选择“集群 > 待操作集群的名称 > 服务 > HDFS”，单击图表区域右上角的下拉菜单，选择“定制”，单击“RPC”，在弹出的对话框中选择“NameNode RPC队列平均时间”，单击“确定”。 21.单击，进入监控详细信息界面。 22.设置监控显示的时间段，从告警产生的时间的前5天开始，到告警产生时刻结束。单击“确定”按钮。 23.在“NameNode RPC队列平均时间”监控中，查看该监控是否有开始急剧增加的时间点。是，执行步骤24。否，执行步骤27。 24.确认并排查在该时间点，是否有新增任务大量访问HDFS，确认该任务是否可以调优，减少对HDFS的访问。 25.如果在该时间点有执行Balancer，则可以停止Balancer，或指定节点执行Balancer任务，来降低对HDFS的负载。 26.等待1小时，查看该告警是否自动消除。是，处理结束。否，执行步骤27。收集故障信息 27.在FusionInsight Manager首页，选择“运维 > 日志 > 下载”。 28.在“服务”勾选待操作集群的HDFS节点信息。 29.单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟，单击“下载”。 30.请联系运维人员，并发送已收集的故障日志信息。告警清除此告警修复后，系统会自动清除此告警，无需手工清除。参考信息无。

来自：
帮助文档
翼MapReduce
用户指南
FusionInsight Manager操作指导（适用于3.x）
告警参考（适用于MRS 3.x版本）
ALM-14022 NameNode RPC队列平均时间超过阈值
ZooKeeper的使用场景和MSE ZooKeeper的优势
场景三：微服务领域的注册中心场景在微服务场景里，利用ZooKeeper的注册和监听功能。ZooKeeper可以用作Dubbo和Spring Cloud的注册中心。 MSE提供的ZooKeeper企业级服务 MSE提供的ZooKeeper企业级服务，分为单机版和集群版两种，更多关于单机版和集群版的功能特性，请参见版本特性。优势一：稳定高可用多AZ部署：平均部署可用区，提高集群容灾能力。例如，当一个5节点的ZooKeeper集群，部署在3个可用区的时候，它应该是2/2/1的分布，任意一个可用区出现故障，不影响ZooKeeper的整体可用性。高可用负载均衡：MSE ZooKeeper自动对用户请求做负载均衡，会把请求压力均衡到后端的节点上去，并且能保障请求会到监控正常的节点上面去。数据安全：MSE ZooKeeper提供了快照备份能力，在集群出现意外状况时候，能快速重建恢复集群的数据，保障数据的安全。优势二：可观测性增强提供监控中心：MSE ZooKeeper提供了多达20余项常用的监控指标，包括业务指标和系统资源指标等，供您免费开启使用。支持核心告警规则：支持配置告警规则，一旦发生指标异常，及时进行告警，可以满足日常运维使用。

来自：
帮助文档
微服务引擎
用户指南
注册配置中心
ZooKeeper
ZooKeeper的使用场景和MSE ZooKeeper的优势
实例内存使用率过高的影响是什么？
观测现象我们通过观察天翼云云搜索实例中的实例监控，可以看到节点的内存使用率和JVM内存使用率等内存监控指标，当这些指标较高时，可能会对于实例的性能有明显影响。问题解决需要明确的是，在Elasticsearch/OpenSearch实例中，根据设置，我们往往会分配机器内存一半的量来分配给JVM，以供给Elasticsearch/OpenSearch服务使用。剩下的内存，绝大部分被分配给了Lucene用来支持索引的底层服务。因此系统的总内存使用率往往处于高位，这个是常见的现象。但是长期的内存高使用率，不仅有可能诱发OOM故障，也对于大批量写入和查询有性能影响，我们建议，当内存使用率长期处于高位的时候，应该密切观察内存相关指标。最好通过水平扩容或者垂直扩容来提升实例的规格，避免业务受损。

来自：
帮助文档
云搜索服务
常见问题
实例可观测性及运维
实例内存使用率过高的影响是什么？
产品优势
本文主要介绍弹性伸缩服务产品优势。弹性伸缩服务可根据用户的业务需求，通过策略自动调整其业务的资源。具有自动调整资源、节约成本开支、提高可用性和容错能力的优势。适用以下场景：访问流量较大的论坛网站，业务负载变化难以预测，需要根据实时监控到的云主机CPU使用率、内存使用率等指标对云主机数量进行动态调整。电商网站，在进行大型促销活动时，需要定时增加云主机数量，以保证促销活动顺利进行。视频直播网站，每天14:00~16:00播出热门节目，每天都需要在该时段增加云主机数量，保证业务的平稳运行。自动调整资源弹性伸缩能够实现应用系统自动按需调整资源，即在业务增长时能够实现自动增加实例数量，以满足业务需求，业务下降时能够实现应用系统自动缩容，保障业务平稳运行。按需调整云主机资源向应用系统中添加弹性伸缩，能够实现按需调整资源，即能够实现在业务增长时增加实例，业务下降时减少实例，这样加强了应用系统的成本管理。调整资源主要包括以下几种方式：动态调整资源动态调整资源是通过告警策略的触发来调整资源。详细内容请参阅动态资源扩展。计划调整资源计划调整资源是通过定时策略或周期策略的触发来调整资源。详细内容请参阅按计划扩展资源。手工调整资源通过修改期望实例数或手动移入、移出实例来调整资源。详细内容请参阅手动扩展资源。例如，运行在公有云上的基本Web应用程序。此应用程序允许乘客购买火车票。在每年中期时段，人员流动性较低，此应用程序的使用率较低。每年年底和年初，人员流动性较高，因此对此应用程序的需求会显著提高。一般系统会采用添加足够多的云主机，如图1所示，或添加处理应用程序平均需求所需的容量，如图2所示，来满足业务需求。但这两种方案会造成资源浪费或无法满足高峰期的需求。当您给应用程序中添加弹性伸缩后，弹性伸缩会自动根据需求调整云主机的数量，如图3所示，为您节约成本并且满足高峰期的需求。图1 服务器资源冗余图2 服务器资源不足图3 向应用程序中添加弹性伸缩

来自：
帮助文档
弹性伸缩服务 AS
产品简介
产品优势
云容器集群Pod内存高负载
3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到内存高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测内存使用率指标。验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化，并触发了相应告警 2、业务应用验证：观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。如果为相关 Pod 配置了基于内存的 HPA 策略，观察是否触发了自动扩容。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群Pod内存高负载
创建智能网关
2、查看网关状态智能网关创建完成后，点击右上角刷新按钮，查看状态，如下图所示：后台资源就绪约10s左右，网关状态处于运行中即可对外提供服务。 3、查看网关日志与监控信息日志通过切换Pod列表查看不同网关实例的日志信息监控

来自：
帮助文档
智算套件
用户指南
智能网关
创建智能网关
创建智能网关(1)
2、查看网关状态智能网关创建完成后，点击右上角刷新按钮，查看状态，如下图所示：后台资源就绪约10s左右，网关状态处于运行中即可对外提供服务。 3、查看网关日志与监控信息日志通过切换Pod列表查看不同网关实例的日志信息监控

来自：
只读实例简介
本页介绍了关系数据库MySQL版的只读实例。注意 I类型资源池（仅南京3、重庆2、海口2、合肥2、上海7资源池）和II类型资源池均支持该功能，具体支持情况以控制台页面展示为准。更多资源池信息，请参见功能概览。功能简介云数据库的实例支持只读实例。在对数据库有少量写请求，但有大量读请求的应用场景下，单个实例可能无法抵抗读取压力，甚至对主业务产生影响。为了实现读取能力的弹性扩展，分担数据库压力，您可以在某个区域中创建一个或多个只读实例，利用只读实例满足大量的数据库读取需求，以此增加应用的吞吐量。只读实例为单个物理节点的架构（没有备节点），采用MySQL的原生复制功能，将主实例的更改同步到所有只读实例，而且主实例和只读实例之间的数据同步受网络延时的影响。注意您需要在应用程序中分别配置主实例和每个只读实例的连接地址，才能实现将写请求发往主实例而将读请求发往只读实例。功能特点规格可以与主实例不一致，但建议选择大于或等于主实例的规格，后续可以随时更改规格（没有时间限制），便于弹性升级。不需要维护帐号与数据库，全部通过主实例同步。提供系统性能监控。关系数据库MySQL版服务提供近20个系统性能的监控视图，如磁盘容量、IOPS、连接数、CPU利用率、网络流量等，用户可以轻松查看实例的负载。权限会自动同步，主实例中进行的权限调整会自动同步到备实例和只读数据库中。

来自：
帮助文档
关系数据库MySQL版
用户指南
只读实例
只读实例简介
prometheus
插件简介 Prometheus是一套开源的系统监控报警框架。它启发于Google的borgmon监控系统，由工作在SoundCloud的Google前员工在2012年创建，作为社区开源项目进行开发，并于2015年正式发布。2016年，Prometheus正式加入Cloud Native Computing Foundation，成为受欢迎度仅次于Kubernetes的项目。在云容器引擎CCE中，支持以插件的方式快捷安装Prometheus。插件官网：开源社区地址：插件特点作为新一代的监控框架，Prometheus具有以下特点：强大的多维度数据模型： a. 时间序列数据通过metric名和键值对来区分。 b. 所有的metrics都可以设置任意的多维标签。 c. 数据模型更随意，不需要刻意设置为以点分隔的字符串。 d. 可以对数据模型进行聚合，切割和切片操作。 e. 支持双精度浮点类型，标签可以设为全unicode。灵活而强大的查询语句（PromQL）：在同一个查询语句，可以对多个metrics进行乘法、加法、连接、取分数位等操作。易于管理：Prometheus server是一个单独的二进制文件，可直接在本地工作，不依赖于分布式存储。高效：平均每个采样点仅占 3.5 bytes，且一个Prometheus server可以处理数百万的metrics。使用pull模式采集时间序列数据，这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的metrics。可以采用push gateway的方式把时间序列数据推送至Prometheus server端。可以通过服务发现或者静态配置去获取监控的targets。有多种可视化图形界面。易于伸缩。需要指出的是，由于数据采集可能会有丢失，所以Prometheus不适用对采集数据要100%准确的情形。但如果用于记录时间序列数据，Prometheus具有很大的查询优势，此外，Prometheus适用于微服务的体系架构。约束与限制 1.11及以上版本的CCE集群支持此插件功能。安装插件步骤 1 在CCE控制台中，单击左侧导航栏的“插件管理”，在“插件市场”页签下，单击Prometheus下的“安装插件”按钮。步骤 2 在安装插件页面，选择安装的集群和插件版本，单击“下一步：规格配置”。步骤 3 在“规格配置”步骤中，配置以下参数：表Prometheus配置参数说明参数参数说明插件规格根据业务需求，选择插件的规格，包含如下选项：演示规格（100容器以内）：适用于体验和功能演示环境，该规模下prometheus占用资源较少，但处理能力有限。建议在集群内容器数目不超过100时使用。小规格（2000容器以内）：建议在集群中的容器数目不超过2000时使用。中规格（5000容器以内）：建议在集群中的容器数目不超过5000时使用。大规格（超过5000容器）：建议集群中容器数目超过5000时使用此规格。实例数选择上方插件规格后，显示插件中的实例数，此处仅作显示。容器选择插件规格后，显示插件容器的CPU和内存配额，此处仅作显示。监控数据保留期自定义监控数据需要保留的天数，默认为15天。存储按照界面提示配置如下参数：类型：支持云硬盘。可用区：请根据业务需要进行选择。可用区是在同一区域下，电力、网络隔离的物理区域，可用区之间内网互通，不同可用区之间物理隔离。子类型：支持普通IO、高IO和超高IO三种类型。容量：请根据业务需要输入存储容量，默认10G。说明：若命名空间monitoring下已存在pvc，将使用此存储作为存储源。步骤 4 单击“安装”。待插件安装完成后，单击“返回”，在“插件实例”页签下，选择对应的集群，可查看到运行中的实例，这表明该插件已在当前集群的各节点中安装。步骤 5 在CCE控制台中，单击左侧导航栏的“插件管理”，在“插件实例”中，单击“Prometheus”进入详情页，可以查看插件实例的详细情况。升级插件步骤 1 登录CCE控制台，在左侧导航栏中选择“插件管理”，在“插件实例”页签下，选择对应的集群，单击“Prometheus”下的“ 升级”。说明：如果升级按钮处于冻结状态，则说明当前插件版本是最新的版本，不需要进行升级操作。升级“Prometheus”插件时，会替换原先节点上的旧版本的“Prometheus”插件，安装最新版本的“Prometheus”插件以实现功能的快速升级。步骤 2 在基本信息页面选择插件版本，单击“下一步”。步骤 3 参考安装插件中参数说明配置参数后，单击“升级”即可升级“Prometheus”插件。卸载插件步骤 1 在CCE控制台中，单击左侧导航栏的“插件管理”，在“插件实例”页签下，选择对应的集群，单击Prometheus下的“卸载”。步骤 2 在弹出的窗口中，单击“是”，可卸载该插件。参考资源 Prometheus概念及详细配置请参阅Prometheus 官方文档 Node exporter安装请参考nodeexporter github 仓库

来自：
帮助文档
云容器引擎
用户指南
旧版UI
插件管理
prometheus
云容器集群节点磁盘IO高负载
2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎节点。添加实例：单击添加实例，勾选上一步中添加的云容器引擎节点实例。添加故障动作：单击立即添加，在列表中选择磁盘IO高负载动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。读负载：开启读压力模式，创建一个临时文件并对其进行持续的读取操作。写负载：开启写压力模式，持续向一个临时文件写入数据。块大小(MB)：控制单次读写操作的数据块大小，单位为MB。增大此值可以提升单次操作的 IO 压力。通常保持默认值即可。 3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到磁盘IO高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测磁盘读写速率(Bps)指标。 2、业务应用验证：观察运行在目标节点上、且挂载了持久化存储（PVC）的业务 Pod（如数据库、中间件等），确认其读写性能是否下降或出现超时。检查无状态应用的日志写入是否出现延迟或失败。验证您的业务监控告警系统是否成功捕获到节点磁盘I/O异常或应用性能劣化，并触发了相应告警。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群节点磁盘IO高负载
云容器集群节点内存高负载
2、编排演练任务 1. 导航至故障演练 > 目标应用 > 演练管理页面，单击新建演练。 2. 在基本信息页面，按提示填写演练名称和描述，然后单击下一步。 3. 在演练对象配置页面：配置动作组：为动作组命名，资源类型选择云容器引擎节点。添加实例：单击添加实例，勾选上一步中添加的云容器引擎节点实例。添加故障动作：单击立即添加，在列表中选择内存高负载动作。 4. 在弹出的参数配置框中，配置所需参数，然后单击确定。持续时间：故障动作持续时间。内存占用率：目标占用率（取值 0100）。注意建议您将目标内存占用率设置在 95% 以下，为操作系统内核和 kubelet 等关键系统进程预留足够的内存。若内存被完全耗尽，可能导致节点无响应、探针失联甚至节点进入 NotReady 状态，从而需要强制重启节点才能恢复。 3、配置全局策略 1. 在全局配置页面，按需添加保护策略和监控指标。 2. 配置完成后，单击完成按钮，创建演练任务。 4、发起故障注入 1. 发起演练：在演练管理列表找到对应演练任务，单击操作列的执行演练，在新页面中点击发起新演练。 2. 进入实验：系统将自动跳转到本次演练的运行详情页，或在演练执行记录列表点击对应执行实例的详情进入。 3. 注入故障：在动作组中，找到内存高负载动作卡片，单击执行。 4. 查看日志：单击动作卡片本身，在右侧弹出的侧边栏中查看执行详情。效果验证在故障注入期间，您可以通过以下方式验证演练效果： 1、观测实例指标：登录云容器引擎控制台，进入目标实例节点的监控指标页，观测内存使用率指标。 2、业务应用验证：观察运行在目标节点上的业务 Pod 是否出现响应变慢、处理失败率升高等现象。执行 kubectl get pod o wide 查看 Pod 状态，确认是否有 Pod 因 OOMKilled 而被重启。如果为相关 Pod 配置了基于内存的 HPA 策略，观察是否触发了自动扩容。验证您的业务监控告警系统是否成功捕获到节点资源异常或应用性能劣化，并触发了相应告警。

来自：
帮助文档
应用高可用
用户指南
故障演练服务
故障动作库
云容器
云容器引擎
云容器集群节点内存高负载

天翼云最新活动

安全隔离版OpenClaw

OpenClaw云服务器专属“龙虾“套餐低至1.5折起

聚力AI赋能天翼云大模型专项

大模型特惠专区·Token Plan 轻享包低至9.9元起

青云志云端助力计划

一站式科研助手，海外资源安全访问平台，助力青年翼展宏图，平步青云

企业出海解决方案

助力您的业务扬帆出海，通达全球！

天翼云信创专区

“一云多芯、一云多态”,国产化软件全面适配，国产操作系统及硬件芯片支持丰富

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

天翼云最新活动

产品推荐

弹性云主机 ECS

物理机 DPS

弹性伸缩服务 AS

天翼云CTyunOS系统

AI Store

公共算力服务

Token服务

科研助手

一站式智算服务平台

推荐文档

概览

如何填写备案信息

应用场景

只读实例简介