告警列表 告警规则名称 告警级别 告警条件 自动解除条件 告警失效条件 是否允许手动解除 告警邮件发送频率 数据目录读写错误 PathIOError 重要 数据目录状态为坏盘 数据目录状态为正常 数据目录被移除 数据目录从存储池中移除 数据目录所在服务器被移除 是 每天一次 数据目录所在磁盘写入速度慢 DiskWriteSlow 警告 数据目录所在磁盘写入速度慢 数据目录所在盘恢复正常 数据目录被移除 数据目录从存储池中移除 数据目录所在服务器被移除 是 每天一次 许可证即将到期 LicenseWillExpire 警告 当前时间(告警模块所在服务器的系统时间)距离最后导入的许可证的到期时间<15天且>0天 当前时间(告警模块所在服务器的系统时间)距离告警许可证的到期时间>15天 许可证过期, 导入新的许可证(不同id的许可证) 是 每天一次 许可证过期 LicenseExpired 严重 当前时间(告警模块所在服务器的系统时间)距离最后导入的许可证的到期时间< 0天 当前时间(告警模块所在服务器的系统时间)距离告警许可证的到期时间>0天 导入新的许可证(不同id的许可证) 是 每天一次 许可证维保即将到期 LicenseMaintenanceWillExpire 警告 当前时间(告警模块所在服务器的系统时间)距离最后导入的许可证的维保到期时间<15天且>0天 当前时间(告警模块所在服务器的系统时间)距离告警许可证的维保到期时间>15天 许可证过期 导入新的许可证(不同id的许可证) 是 每天一次 许可证过保 LicenseMaintenanceExpired 警告 当前时间(告警模块所在服务器的系统时间)距离最后导入的许可证的维保到期时间< 0天 当前时间(告警模块所在服务器的系统时间)距离告警许可证的维保到期时间>0天 导入新的许可证 是 每天一次 试用期即将到期 TrialVersionWillExpire 警告 当前未导入生效的许可证,并且当前时间(告警模块所在服务器的系统时间)距离试用期过期时间<15天且>0天 无解除条件,只能手动解除 导入新的许可证 是 每天一次 资源用量接近使用上限 ResourceUsageApproachingLimit 重要 本地卷总容量>许可证容量的80% 本地卷总容量<许可证容量的75% 导入新的许可证 是 每天一次 告警中的告警条数接近上限 AlarmNumberApproachingLimit 严重 告警中的告警条数>8000 告警条数<7500 无 是 每天一次 告警邮件发送失败 FailToSendAlarmEmail 严重 告警邮件发送失败 告警邮件发送成功 邮件配置被删除 邮件发送设置为disable 是 每天一次 配额使用率超阈值 CapacityQuotaUsageExceedsThreshold 警告 存储池中数据目录关联磁盘的PathCapQuotaRate>80%, 数据目录层级的数据目录关联磁盘的PathCapQuotaRate>80% 说明 数据目录未设置容量配额,则按容量配额磁盘总容量计算。 存储池中数据目录关联磁盘的PathCapQuotaRate<75%,或数据目录层级的数据目录关联磁盘的PathCapQuotaRate<75% 说明 数据目录未设置容量配额,则按容量配额磁盘总容量计算。 存储池名称变更 存储池中的数据目录被全部移除 是 每天一次 配额用尽 CapacityQuotaUsageApproachLimit 严重 基础存储池中数据目录对应磁盘总配额使用率>95% 基础存储池中数据目录对应磁盘总配额使用率<90% 基础存储池名称变更 是 每天一次 配额用尽 CapacityQuotaUsageApproachLimit 警告 非基础存储池中数据目录对应磁盘总配额使用率>95%,或数据目录对应磁盘配额使用率>95% 非基础存储池中数据目录对应磁盘总配额<90%,或数据目录对应磁盘配额使用率<90% 存储池名称变更 存储池中的数据目录被全部移除 是 每天一次 磁盘使用率超阈值 DiskUsageExceedsThreshold 警告 存储池中数据目录对应磁盘的PathRate>80%,或数据目录对应磁盘的PathRate>80% 存储池中数据目录对应磁盘的PathRate<75%,或数据目录对应磁盘的PathRate<75% 存储池名称变更 存储池中的数据目录被全部移除 是 每天一次 可用故障域数量不满足卷写入要求 InsufficientFDForLUNToWrite 警告 卷所在缓存存储池或存储池的可用故障域数量及健康数据目录数量不满足卷的最小副本数要求 告警存储池的可用故障域数量及健康数据目录数量满足卷的最小副本数要求 卷被删除 卷删除失败 卷还原失败 卷挂起中 卷已挂起 卷挂起失败 存储池名称变更 卷禁用(仅3.9之前版本支持) 是 每天一次 数据目录健康状态变为警告 DiskPathHealthStatusWarning 警告 数据目录健康状态变为警告 数据目录健康状态恢复正常 数据目录被移除 数据目录从存储池中移除 数据目录健康状态变为“Error” 是 每天一次 数据目录健康状态变为错误 DiskPathHealthStatusError 警告 数据目录健康状态变为错误 数据目录健康状态恢复正常 数据目录被移除。 数据目录从存储池中移除 是 每天一次 数据服务健康状态变为警告 DataServiceHealthStatusWarning 警告 数据服务健康状态变为警告 数据服务健康状态恢复正常 服务器被移除 数据目录被移除 数据目录从存储池中移除 数据目录健康状态变为“Error” 存储池名称变更 是 每天一次 数据服务健康状态变为错误 DataServiceHealthStatusError 重要 数据服务健康状态变为错误 数据服务健康状态恢复正常 服务器被移除 数据目录被移除 数据目录从存储池中移除 存储池名称变更 是 每天一次 协议解析服务异常 ProtocolServiceAbnormal 重要 协议解析服务异常 协议解析服务恢复正常 服务器被移除 target被删除 target被迁移 是 每天一次 故障域状态变为警告 FaultDomainWarning 警告 故障域状态变为警告 故障域状态恢复正常 服务器被移除 数据目录被移除 数据目录从存储池中移除 故障域健康状态变为“Error” 存储池名称变更或故障域全路径名称中任一节点名称变更 故障域中的数据目录被全部移除 是 每天一次 故障域状态变为错误 FaultDomainError 重要 故障域状态变为Error 故障域状态变为非Error 服务器被移除 数据目录被移除 数据目录从存储池中移除 存储池名称变更或故障域全路径名称中任一节点名称变更 故障域中的数据目录被全部移除 是 每天一次 无法连接到云 CannotConnectToCloud 严重 与云端连接断开超过10分钟 卷通过此服务器向云端读取或写入成功一次 卷被删除 卷删除失败 卷还原失败 卷挂起失败 卷已挂起 服务器被移除 target发生迁移 卷禁用(仅3.9之前版本支持) 是 每天一次 云账户异常 CloudAccountAbnormal 严重 云端读取或写入失败:欠费冻结、欠费冻结或违规冻结 云端读取或写入成功一次 卷被删除 卷删除失败 卷还原失败 卷挂起失败 卷已挂起 卷禁用(仅3.9之前版本支持) 是 每天一次 卷云端数据冲突 LUNCloudDataConflict 严重 卷对应的云端数据出现比本地更新的版本 卷对应的云端数据版本全部比本地旧 卷被删除 卷删除失败 卷还原失败 卷挂起失败 卷已挂起 卷禁用(仅3.9之前版本支持) 是 每天一次 卷云端心跳冲突 LUNCloudHeartbeatConflict 严重 卷的云端出现来自非本集群的心跳 卷的云端心跳仅来自本集群 卷被删除或 卷删除失败 卷还原失败 卷挂起失败 卷已挂起 卷禁用(仅3.9之前版本支持) 是 每天一次 卷数据残留 LUNDataResidue 警告 强制删除卷,卷数据残留: 本地数据残留:由于本地磁盘故障,导致卷数据无法同步删除 云端数据残留:删除云上数据时,由于云端数据存储位置无法访问(包括网络连接失败、账号异常等),导致数据无法同步删除 无法自动解除,只能手动解除告警 本地数据残留:数据目录从机器中移除 云端数据残留:不会自动解除,清理完云端残留数据后,可手动解除告警 是 每天一次 客户端连接断开 InitiatorConnectionFailed 警告 因为客户端的原因,HBlock无法收到客户端心跳,导致HBlock认为和客户端连接断开,立即告警。但是客户端主动断开连接的情况除外 该客户端与target连接成功。 告警的IQN所在target被删除 target被迁移 是 每天一次 安装目录剩余空间不足 InsufficientSpaceonInstallationPath 严重 安装目录所在磁盘的文件系统剩余空间<4GiB 安装目录所在磁盘的文件系统剩余空间>5GiB 服务器被移除 是 每天一次 基础服务异常 BaseServiceAbnormal 严重 发生以下任一情况时,分别发出相应告警实例的告警: 元数据管理服务(mdm)异常:集群中stor:mdm服务有2个,仅允许一个故障,故障时发出告警 故障转移控制服务(fc)异常:集群中stor:fc服务有2个,仅允许一个故障,故障时发出告警 日志服务(ls)异常:集群中stor:ls服务有3个,仅允许一个故障,故障时发出告警 协调服务(cs)异常:集群中stor:cs服务有3个,仅允许一个故障,故障时发出告警 匹配的告警实例恢复到以下程度: 元数据管理服务(mdm)在告警机器上恢复正常:告警机器上的stor:mdm服务恢复正常 故障转移控制服务(fc)在告警机器上恢复正常:告警机器上的stor:fc服务恢复正常 日志服务(ls)在告警机器上恢复正常:告警机器上的stor:ls服务恢复正常 协调服务(cs)在告警机器上恢复正常:告警机器上的stor:cs服务恢复正常 告警机器上的基础服务迁移完成 是 每天一次 基础服务数据目录剩余空间不足 InsufficientSpaceonMetaDir 严重 基础服务数据目录所在磁盘的文件系统剩余空间<4GiB 基础服务数据目录所在磁盘的文件系统剩余空间>5GiB 服务开始迁移 是 每天1次 卷数据健康度降级 LUNDataLowRedundancy 警告 卷数据降级的百分比(含缓存池和最终池数据)>10%,持续超过10分钟(10分钟内降级百分比一直低于或等于10%) 卷数据降级的百分比(含缓存池和最终池数据)0% 卷被删除 卷删除失败 是 每天1次 卷数据损坏 LUNDataCorrupted 重要 卷数据Error的百分比(含缓存池和最终池数据)>0% 卷数据Error的百分比(含缓存池和最终池数据)0% 卷被删除 卷删除失败 是 每天1次 存储池数据健康度降级 PoolDataLowRedundancy 重要 基础存储池数据降级的百分比 > 10%,持续超过10分钟(10分钟内降级百分比一直低于或等于10%) 基础存储池数据降级的百分比 0% 存储池名称修改 是 每天1次 存储池数据健康度降级 PoolDataLowRedundancy 警告 普通存储池数据降级的百分比 > 10%,持续超过10分钟(10分钟内降级百分比一直低于或等于10%) 普通存储池数据降级的百分比 0% 存储池名称修改 存储池被删除 是 每天1次 存储池数据损坏 PoolDataCorrupted 严重 基础存储池数据Error的百分比> 0% 基础存储池数据Error的百分比 0% 存储池名称修改 是 每天1次 存储池数据损坏 PoolDataCorrupted 重要 普通存储池数据Error的百分比> 0% 普通存储池数据Error的百分比 0% 存储池名称修改 存储池被删除 是 每天1次