操作场景
ZOS支持数据指标监控和事件监控功能。
您可以通过云监控的数据指标监控获得用户维度和桶维度的各种数据指标信息,包括支持查看各个存储类型(标准、低频、归档)和冗余类型(单AZ、多AZ)下的细颗粒度统计数据。
您可以通过云监控的事件监控获得包含各类重要事件或对云资源的操作事件。
约束与限制
- 云监控服务不需要开通,会在用户创建资源ZOS后自动启动。
- 云监控支持的资源池请参见产品能力地图。
数据指标监控
存储桶维度的监控
操作步骤
- 点击天翼云门户首页的“控制中心”,输入登录的用户名和密码,进入控制中心页面。
- 在控制台上方点击
,选择地域,以下操作选择杭州7。 - 在控制台首页,选择“存储>对象存储”。
- 在对象存储桶列表选择需要查看监控的bucket,并点击该bucket右侧的"监控"。
注意对于公共资源池中的地域,如华东-华东1,您可以在天翼云官网首页点击产品-迁移及管理-管理工具-云监控-管理控制台,直接在云监控产品中,选择对象存储监控,通过切换地域的方式,来查看地域内各项监控指标。
在监控数据界面中,可查看该存储桶的各项监控指标,分别为总存储容量、总对象数量、本月公网流出流量、本月请求次数、公网流出流量、公网流入流量、内网流出流量、内网流入流量、平均使用带宽、公网请求次数、内网请求次数、有效请求率、数据取回流量、操作分类平均延时、操作分类最大延时、成功请求操作分类。
桶维度监控指标说明
监控指标 说明 测量维度 取值范围 监控周期 总存储容量 存储桶中的总存储量。包含:
总存储容量、总存储容量限制已用百分比以及区分存储类型的存储量。
说明总存储容量限制已用百分比指标:用于表示设置了桶配额(包括容量配额和数量配额)限制之后,当前总存储容量占容量配额的百分比。使用量达到配额限制时,会上传失败,为避免影响业务,可根据业务实际情况设置合适的告警阈值。
桶 ≥0 bytes 1小时 总对象数量 存储桶中存储的总对象数量。包含:
总对象数量、总对象数量限制已用百分比以及分区存储类型的对象数量。
说明总对象数量限制已用百分比指标:用于表示设置了桶配额(包括容量配额和数量配额)限制之后,当前总对象数量占数量配额的百分比。使用量达到配额限制时,会上传失败,为避免影响业务,可根据业务实际情况设置合适的告警阈值。
桶 ≥0 个 1小时 状态码个数 存储桶产生请求状态码的数量。可区分 2xx、3xx、4xx、5xx 状态码。 桶 ≥0 个 1分钟 延时 存储桶产生请求时延。
可区分 GET 类(读请求) 请求时延、PUT 类(写请求)请求时延、总请求时延和Get类请求首字节平均时延。
说明Get类首字节平均时延指标:用于表示对文件的Get操作(包括Head Object、Get Object操作),在一个监控周期内从ZOS服务端收到完整请求到开始返回响应的耗时平均值。
桶 ≥0 ms 1分钟 本月公网流出流量 本月存储桶向公网传输数据的流量之和。 桶 ≥0 bytes 1小时 本月请求次数 本月对存储桶的操作请求次数之和。可区分读请求、写请求。 桶 ≥0 次 1小时 公网流出流量 存储桶向公网传输数据的流量。 桶 ≥0 bytes 1小时 公网流入流量 存储桶从公网接收数据的流量。 桶 ≥0 bytes 1小时 内网流出流量 存储桶向内网传输数据的流量。 桶 ≥0 bytes 1小时 内网流入流量 存储桶从内网接收数据的流量。 桶 ≥0 bytes 1小时 平均使用带宽
存储桶所使用的平均带宽量。
其下包含的指标的每个数据点是一小时内的流量之和除以3600秒计算得出的。
可区分公网流入带宽、内网流入带宽、公网流出带宽以及内网流出带宽。
桶 ≥0 bytes 1小时 公网请求数 存储桶产生的公网请求的总次数。 桶 ≥0 次 1小时 内网请求数 存储桶产生的内网请求的总次数。 桶 ≥0 次 1小时 有效请求率 有效请求数占总请求数的百分比。有效有效请求数指返回状态码为2xx和3xx的请求总数。可区分读请求、写请求。 桶 ≥0 % 1小时 数据取回流量 存储桶发生数据取回操作取回数据的流量。可区分低频存储数据取回流量和归档存储数据取回流量。 桶 ≥0 bytes 1小时 操作分类平均延时 监控服务提供了分钟级别的平均延时,且只对返回状态码为2xx的成功请求进行监控,反映系统平均响应能力。包括:
GetObject请求平均E2E延时
HeadObject请求平均E2E延时
PutObject请求平均E2E延时
PutObject请求平均服务器延时
PostObject请求平均E2E延时
PostObject请求平均服务器延时
AppendObject请求平均E2E延时
AppendObject请求平均服务器延时
UploadPart请求平均E2E延时
UploadPart请求平均服务器延时
UploadPartCopy请求平均E2E延时
UploadPartCopy请求平均服务器延时
桶
≥0 ms 1分钟 操作分类最大延时 监控服务提供了分钟级别的最大延时,且只对返回状态码为2xx的成功请求进行监控,反映系统抖动情况。包括:
GetObject请求最大E2E延时
HeadObject请求最大E2E延时
PutObject请求最大E2E延时
PutObject请求最大服务器延时
PostObject请求最大E2E延时
PostObject请求最大服务器延时
AppendObject请求最大E2E延时
AppendObject请求最大服务器延时
UploadPart请求最大E2E延时
UploadPart请求最大服务器延时
UploadPartCopy请求最大E2E延时
UploadPartCopy请求最大服务器延时
桶 ≥0 ms 1分钟 成功请求操作分类 成功请求的监控一定程度上反映了系统处理访问请求的能力。具体指标项包括:
GetObject成功请求数
HeadObject成功请求数
PutObject成功请求数
PostObject成功请求数
AppendObject成功请求数
UploadPart成功请求数
UploadPartCopy成功请求数
DeleteObject成功请求数
DeleteObjects成功请求数
桶 ≥0 次 1分钟
说明延时监控指标分别从E2E和服务器两条不同的链路进行收集,便于分析性能热点以及环境问题,其中:
E2E延时是指向对象存储系统发出的成功请求的端到端滞后时间,包括在对象存储系统中读取请求、发送响应以及接收响应确认所需的处理时间。
服务器延时是指对象存储系统成功处理请求所使用的滞后时间,不包括E2E延时中的网络滞后时间。
用户维度的监控
操作步骤
您可以在云监控控制台切换监控查看的维度,从桶维度切换到用户维度。
在用户维度上,您可以查看的监控指标为:用户级存储容量、用户级对象总数、本月公网流出流量、本月请求次数、用户级公网流出流量、用户级公网流入流量、用户级内网流出流量、用户级内网流入流量、用户级平均使用带宽、用户级公网请求次数、用户级内网请求次数、用户级有效请求率、数据取回流量、服务监控总览、请求状态详情。
用户维度监控指标说明
监控指标 说明 测量维度 取值范围 监控周期 用户级存储容量 用户的所有存储桶的总存储量之和。包含: 总存储容量、总存储容量限制已用百分比以及区分存储类型的存储量。
说明总存储容量限制已用百分比指标:用于表示设置了用用户配额(包括容量配额和数量配额)限制之后,当前总存储容量占容量配额的百分比。使用量达到配额限制时,会上传失败,为避免影响业务,可根据业务实际情况设置合适的告警阈值。
用户 ≥0 bytes 1小时 用户级对象总数 用户的所有存储桶中存储的总对象数量之和。包含:
总对象数量、总对象数量限制已用百分比以及分区存储类型的对象数量。
说明总对象数量限制已用百分比指标:用于表示设置了用用户配额(包括容量配额和数量配额)限制之后,当前总对象数量占数量配额的百分比。使用量达到配额限制时,会上传失败,为避免影响业务,可根据业务实际情况设置合适的告警阈值。
用户 ≥0 个 1小时 状态码个数 用户的所有存储桶产生请求状态码的数量。可区分 2xx、3xx、4xx、5xx 状态码。 用户 ≥0 个 1分钟 本月公网流出流量 用户的所有存储桶在本月向公网传输数据的流量之和。 用户 ≥0 bytes 1小时 本月请求次数 用户的所有存储桶在本月的操作请求次数之和。 用户 ≥0 次 1小时 用户级公网流出流量 用户的所有存储桶向公网传输数据的流量之和。 用户 ≥0 bytes 1小时 用户级公网流入流量 用户的所有存储桶从公网接收数据的流量之和。 用户 ≥0 bytes 1小时 用户级内网流出流量 用户的所有存储桶向内网传输数据的流量之和。 用户 ≥0 bytes 1小时 用户级内网流入流量 用户的所有存储桶从内网接收数据的流量之和。 用户 ≥0 bytes 1小时 用户级平均使用带宽 用户的所有存储桶所使用的平均带宽量。 其下包含的指标的每个数据点是一小时内的流量之和除以3600秒计算得出的。
用户 ≥0 bytes 1小时 用户级公网请求数 用户的所有存储桶产生的公网请求的总次数之和。 用户 ≥0 次 1小时 用户级内网请求数 用户的所有存储桶产生的内网请求的总次数之和。 用户 ≥0 次 1小时 用户级有效请求率用 户的所有有效请求数占总请求数的百分比。有效有效请求数指返回状态码为2xx和3xx的请求总数。 用户 ≥0 % 1小时 数据取回流量 用户的所有存储桶发生数据取回操作取回数据的流量。可区分低频存储数据取回流量和归档存储数据取回流量。 用户 ≥0 bytes 1小时 服务监控总览 对象存储服务使用总体请求情况。包括1分钟内的总请求数、总有效请求数(返回状态码为2xx和3xx的请求总数)。 用户 ≥0 次 1分钟 对象存储服务使用总体请求情况。包括1分钟内的总有效请求率(有效请求占总请求数的百分比)和可用性(存储服务的系统可用性衡量指标)。可用性计算方式:(1-5XX请求总数/总请求数)*100%
用户 ≥0 % 1分钟 请求状态详情 根据请求返回状态码或者对象存储错误码进行分类的请求的监控信息。体现具体请求数的监控指标包括:
服务端请求错误请求总数(返回状态码为5xx的系统级错误请求总数)
客户端授权错误请求总数(返回状态码403的请求总数)
客户端资源不存在错误请求总数(返回状态码为404的请求总数)
客户端超时错误请求总数(返回状态码为408的请求总数)
网络错误请求总数(返回状态码为499的请求总数)
客户端其他错误请求总数(除了以上提到的客户端错误请求之外的其他返回状态码为4xx的请求总数)
成功请求总数(返回状态码为2xx的请求总数)
重定向请求总数(返回状态码为3xx的请求总数)
用户 ≥0 次 1分钟 根据请求返回状态码或者对象存储错误码进行分类的请求的监控信息。体现请求数占比的监控指标包括:
服务端请求错误请求占比(服务端错误请求总数占总请求数的百分比)
客户端授权错误请求占比(客户端授权错误请求总数占总请求数的百分比)
客户端资源不存在错误请求占比(客户端资源不存在错误请求总数占总请求数百分比)
客户端超时错误请求占比(客户端超时错误请求总数占总请求数的百分比)
网络错误请求占比(网络错误请求总数占总请求数的百分比)
客户端其他错误请求占比(客户端其他错误请求总数占总请求数的百分比)
成功请求占比(成功请求总数占总请求数的百分比)
重定向请求占比(重定向请求总数占总请求数的百分比)
用户 ≥0 % 1分钟
数据指标监控创建告警规则
除了查看监控指标外,您还可以在云监控控制台创建告警规则对指标进行监控。当资源的监控指标达到告警条件,云监控将向您发送告警消息,报告异常监控数据,帮助您及时掌握异常状态并处理,保证业务顺畅进行。
云监控提供了自定义创建告警模板的功能,您可以选择在默认模板推荐的监控指标上进行修改,或自定义添加告警指标完成自定义告警模板的添加。
操作步骤
- 在云监控控制台左侧导航栏,点击“告警规则”,再点击右上角“创建告警规则”。
- 选择监控对象和监控指标,填写规则信息,点击“确定”即可创建告警规则。
配置参数详情见云监控创建告警规则。
事件监控
存储桶维度事件监控
操作步骤
您可以在云监控控制台,侧边栏选择事件监控,系统事件查看系统事件列表。产品类型,选择对象存储,维度选择桶维度。
桶维度对象存储支持的系统事件监控包括:创建桶事件、删除桶事件、设置桶策略事件、删除桶策略事件、设置桶ACL事件。
事件监控说明
事件名称 事件说明 处理建议 事件影响 创建桶 用户创建桶后,系统会上报该事件。 如果您不需要桶,可以清空桶内资源后,删除桶。 每个账号在每个区域可创建桶数量有限,默认限制100。请结合业务需要创建桶。 删除桶 用户删除桶后,系统会上报该事件。 已删除的桶无法恢复,如果您还需要使用桶,请重新创建桶。 删除桶,可能会影响您的业务。请确保您的业务对桶没有依赖后再删除桶。 设置桶策略 用户设置桶策略后,系统会上报该事件。 如果您不需要使用桶策略对桶和桶中对象进行精细化地权限管理,可以删除已配置的桶策略。 设置桶策略后,对应账号会在某些条件下对某个桶或对象具有某些操作权限。详情见桶策略。 删除桶策略 用户删除桶策略后,系统会上报该事件。 如果您不再需要桶策略,可以删除桶策略。 如果您误删了桶策略,可以重新创建桶策略。
删除桶策略后,某些用户可能无法访问桶及桶中的对象。 设置桶ACL 用户设置桶ACL后,系统会上报该事件。 如果您不需要某个账号具有访问桶和桶中对象的权限,可以删除已配置的桶ACL。 设置桶ACL后,对应账号会具有访问桶和桶中对象的权限。详情见桶ACL。
创建事件订阅
除了查看事件监控外,您还可以在云监控控制台创建事件订阅对指标进行订阅。当资源的事件监控发生时,云监控将向您发送通知消息,帮助您及时掌握资源状态并处理,保证业务顺畅进行。
配置事件订阅详情见云监控创建事件订阅。