功能介绍
功能简介
应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,功能视图如下。
- 设置,用来维护系统的全局配置,如开关、授权、认证等
- 接入中心,引导用户将服务资源的指标和日志接入AOM
- 采集管理,插件生命周期管理
- 应用资源管理,负责维护应用与资源的关联关系
- 自动化运维,是一块相对独立的功能
- 监控,多层次、多维度监控服务资源的各项指标
- 日志,提供日志的搜索与分析功能
- 告警,基于监控的指标数据与日志数据,提供告警功能
- 概览 & 仪表盘,是告警、指标、日志数据的整体呈现
对比其他监控系统
相比其他监控工具,AOM从应用视角,提供了多层次、多维度的监控。
使用说明
简要介绍下AOM的使用流程。
系统说明
与其他服务关系
AOM与其他服务关系如下图。
数据流向
下图说明了AOM与相关系统间的数据流向。
- 黑色线条代表数据流,红色线条代表AOM页面集成了其他系统
- ICAgent负责采集基础指标以及日志数据
- 日志数据存储在LTS上
- 基础指标包括主机指标、容器指标、进程指标等
- ECS默认是没有安装ICAgent的,需要先安装;CCE是购买就已经安装了ICAgent
- 有些云服务目前不支持采集日志,支持的则需要到各自的控制台进行配置
- APM探针用来采集性能数据
- ECS默认是没有安装APM探针的,需要先安装;CCE是在CCE的控制台增加工作负载时配置APM探针的
- APM采集的性能数据,既会上报到APM,比如JVM监控信息、调用链、错误率、接口耗时
- APM采集的性能数据,也会上报到AOM,比如进程、工作负载的JVM监控信息(内存、CPU)等
- 关于CES,CES只监控了两类资源:主机类(包括ECS、BMS)、云服务类
- 主机类,需要安装采集插件telescope
- 云服务类,购买后自动上报
- AOM的云服务指标是通过接口从CES获取的,并转换为Prometheus格式存储
- 对于用户在ECS自己搭建的中间件,比如MySQL、Redis,需要安装相应的Exporter,才能被AOM监控
- AOM的页面集成了APM和LTS的功能
- 以应用视角查询应用的调用链和性能数据,这些数据直接来自APM,AOM不存储
- AOM只存储了应用与LTS日志流的映射,日志、日志采集规则、日志告警规则均存储在LTS
- AOM内部实现应该是基于Prometheus的,依据包括
- 存储的指标数据为Prometheus格式,在指标浏览、告警规则均支持PromQL表达式
- 告警支持的分组、抑制、静默等与AlertManager一致
- AOM的Prometheus监控功能
- 关于Prometheus实例
- ICAgent和APM探针采集的数据是存储在Prometheus AOM default实例的,该实例为开通AOM后自动创建
- 云服务指标是存储在Prometheus for 云服务实例的,在接入云服务时,如果没有该类型实例会自动创建
- 在ECS搭建中间件,并通过Exporter采集的数据存储在Prometheus For ECS类型的实例,在创建采集任务前需要创建好该类型的实例