使用类

2022-09-05 08:28:12

新创建应用、服务等资源后,AOM界面为何不实时显示监控数据?

当您新创建了主机、应用、组件、进程等资源后,ICAgent会以10分钟为周期进行周期性监控数据上报,AOM界面需要等待一个上报周期后方可展示相关监控数据。


删除主机、工作负载等资源后,AOM界面为何仍然显示资源状态为正常?

在CCE集群中删除了主机或工作负载等资源后,在AOM“主机监控”或“容器监控”界面显示资源状态仍为正常。此为正常现象,这是由于AOM“主机监控”或“容器监控”界面不会立即将资源状态置为已删除,而是会等待30分钟后将已删除的资源状态置为已删除。


升级操作失败,该怎么办?

如果界面上点击升级操作失败,您可以登录到主机节点上,直接执行安装命令再次安装即可。

ICAgent的安装是覆盖式安装,无需先卸载,直接安装即可。


时间范围和统计周期的关系?

AOM约束单个指标单次查询最大返回1440个数据点,因此统计周期与时间范围的关系如下所示:

最大可查询时间范围=统计周期×1440

当您选中的查询时间范围小于等于最大可查询时间范围时,所有满足以上条件的统计周期可以被选择。例如,查询1小时的指标时,可选的统计周期为1分钟和5分钟。

时间范围与统计周期的关系如下表所示。

时间范围和统计周期关系表

时间范围统计周期
近1小时1分钟、5分钟
近6小时1分钟、5分钟、15分钟、1小时
近1天
近1周15分钟、1小时、1天
说明
1天只针对日志统计规则生成的指标。
近15天1小时、1天
说明
1天只针对日志统计规则生成的指标。
近30天
近3月
近6月
近9月
近12月

资源运行异常怎么办?

资源状态包括正常、亚健康、异常、通道静默和已删除。亚健康、异常或通道静默都可能导致资源运行异常,您可参考如下指导进行分析和修复。

亚健康

当有级别为次要或提示的告警时资源状态为亚健康。

修复建议:请在告警界面参考告警详细信息处理告警。

异常

当有级别为紧急或重要的告警时资源状态为异常。

修复建议:请在告警界面参考告警详细信息处理告警。

通道静默

当ICAgent无法采集资源的指标时资源状态为通道静默,通道静默可能由于但不限于以下4个原因导致。

  • 可能原因一:ICAgent问题

修复建议:在左侧导航栏中选择“配置管理 > Agent管理”,在列表的“ICAgent状态”列查看ICAgent状态,若状态不为“运行”,则说明ICAgent未安装或运行异常,可参考表1-1进行处理。

表1-1 ICAgent修复建议

状态修复建议
未安装主机未安装ICAgent。安装ICAgent,详细操作请参见8.1.1 安装ICAgent。
安装中正在为主机安装ICAgent。安装ICAgent预计需要1分钟左右,请耐心等待。
安装失败主机ICAgent安装失败,请登录服务器卸载后重新安装。
升级中正在升级主机ICAgent。升级ICAgent预计需要1分钟左右,请耐心等待。
升级失败主机ICAgent升级失败。请登录服务器卸载后重新安装。
离线输入的AK/SK错误或ECS委托设置错误导致主机ICAgent功能异常。请获取正确的AK/SK或正确设置ECS委托。
异常主机ICAgent功能异常。请联系技术工程师处理。


  • 可能原因二:AOM不支持监控当前资源类型

修复建议:请检查您的资源是否为AOM监控的类型,AOM当前支持监控的资源类型有:主机、K8s容器、用户进程(AOM不监控主机的系统进程)。

  • 可能原因三:主机本地时间与NTP服务器时间不同步

说明:

NTP同步状态(ntpStatus):该指标用于统计主机本地时间与NTP服务器时间是否同步。可取值为0或1,0表示同步,1表示未同步。

修复建议:在“监控 > 指标浏览”界面查看主机的NTP同步状态指标,如果NTP同步状态指标对应的值为1,则说明主机NTP时间与NTP服务器时间不同步,请您对主机NTP时间与NTP服务器时间进行同步。

  • 可能原因四:资源被删除或被停止

修复建议:

          在ECS界面检查主机是否已被重启、关机或删除。

          在CCE界面检查组件是否已被停止或删除。

          通过发现功能发现上来的组件,当发现规则被停止或删除时组件也会同时被停止或删除,请在AOM的发现界面查看发现规则。

没有消息通知服务的访问权限?

以IAM用户登录AOM,当创建或修改阈值规则、静态阈值模板时,“选择主题”参数下提示:“抱歉,您没有消息通知服务的访问权限”,如下图所示。

问题分析

  • 原因:该问题是由于您是以IAM用户登录AOM,但IAM用户没有消息通知服务的访问权限导致的。

  • 影响:无法使用邮件、短信等通知功能。

解决办法

  • 请联系IAM用户所属的账号管理员增加消息通知服务的访问权限,增加消息通知服务的访问权限操作如下:

  • 使用IAM用户所属的账号登录统一身份认证服务后,为IAM用户增加消息通知服务的访问权限。


AOM展示的日志是否为实时日志?

AOM展示的日志为近实时日志,日志存在秒级时延。

日志从采集上报到处理需要一定的时间,日志量较小时日志会存在10秒左右的时延,日志量特别大时时延会久些。


如何查询服务不可用时间?

您可以进入AOM的容器监控页面,在工作负载的监控视图里查看服务在各个时间的状态值,0代表正常,非0代表异常。


AOM阈值规则状态为什么显示“数据不足”?

AOM阈值规则中,资源项有时会出现数据不足的情况,如下图所示。

可能的原因如下:

1.        数据上报延迟过大(曲线图最新数据上报时间和当前时间的时间差大于一个周期,阈值上报周期设定中可选1分钟和5分钟),上报周期内获取不到数据会报数据不足 。

2.        指标删除或指标所在的宿主已不存在,而阈值规则仍在,此时会报数据不足。


正常状态的工作负载,AOM界面显示异常是什么原因?

1.        在AOM页面看到工作负载的状态显示异常,但是实际上在CCE页面看工作负载是正常的。

可能的原因如下:

a.         ICAgent的版本过低。

ICAgent当前需要用户主动升级的,但是过老的ICAgent版本可能存在状态上报延迟导致显示异常的问题。

遇到工作负载状态显示不对的情况,首先在Agent管理页面查看ICAgent的版本是不是最新的。

b.        节点的时间与实际不同步。

如果节点时间与实际时间相差过大,会导致ICAgent指标上报延迟,从而导致状态判断出现问题。

遇到工作负载状态显示不对的问题,需要排查节点的时间与当前时间相比是否过快或过慢,也可以通过在AOM页面查看NTP指标的偏移进行确认。