监控告警
可获得性
本特性自openGauss 7.0.0RC2版本开始引入。
特性简介
本特性通过采集数据库内核后台线程和服务器系统的运行状态,经过分析和计算评估数据库是否出现异常,并将异常信息写入到告警日志中。这一特性有助于我们在使用 openGauss 数据库时,及时发现潜在问题,快速定位根源,并高效解决问题,极大地提升了数据库运维的效率和稳定性。
客户价值
当前openGauss的运维手段主要依靠人工进行排查和定位,缺少自动检测、自动预警的能力。人工运维存在耗时久、定位困难、实时性差等缺点。本特性提供内核进程和系统级别的监控能力,帮助客户在数据库运行出现异常时第一时间发现问题,降低数据库运维人力投入成本。
特性描述
- 支持DN实例级告警监控能力:如DN实例进程异常、DN主备切换、数据库只读、数据库异常重启等。
- 支持CM实例级告警监控能力:如cm_server进程异常、cm_agent进程异常、cm_server实例发生主备切换等。
- 支持数据库用户交互中产生的异常告警:如DN实例Build失败、DN实例Build超时、Switchover超时,数据库登录/连接失败、数据库账号锁定等
- 支持系统级别指标监控能力:如磁盘故障、磁盘空间不足、慢盘、磁盘hang、内存不足、CPU负载过高、IO负载过高等
支持的告警列表如下:
| 序号 | 告警名称 | 告警类型 | 是否需要CM |
|---|---|---|---|
| 1 | 数据库目录丢失 | Fault | 否 |
| 2 | 数据实例连接数超限 | Fault | 否 |
| 3 | Wal日志段缺失 | Fault | 否 |
| 4 | 数据实例归档异常 | Fault | 否 |
| 5 | 数据实例连接认证方式异常 | Fault | 否 |
| 6 | 数据库连接数超限 | Fault | 否 |
| 7 | 数据库用户连接数超限 | Fault | 否 |
| 8 | 数据实例双机监听Socket异常 | Fault | 否 |
| 9 | 数据实例文件句柄不足 | Fault | 否 |
| 10 | 数据库登录/连接失败 | Event | 否 |
| 11 | 用户账号被锁定 | Fault | 否 |
| 12 | 用户账号登陆失败超限 | Fault | 否 |
| 13 | 死锁 | Event | 否 |
| 14 | xlog堆积 | Fault | 否 |
| 15 | DN实例异常 | Fault | 是 |
| 16 | DN进程异常 | Fault | 是 |
| 17 | DN主备切换 | Event | 是 |
| 18 | 数据库异常重启 | Event | 是 |
| 19 | 数据库只读 | Fault | 是 |
| 20 | CM_AGENT进程异常 | Fault | 是 |
| 21 | CM_SERVER进程异常 | Fault | 是 |
| 22 | CM_AGENT连接数据库服务失败 | Fault | 是 |
| 23 | DN实例出现假死异常 | Fault | 是 |
| 24 | DN实例Build失败 | Event | 是 |
| 25 | DN实例进行Build | Event | 是 |
| 26 | DN强制停止Redo | Event | 是 |
| 27 | CM_SERVER实例发生主备切换 | Event | 是 |
| 28 | switchover命令超时告警 | Event | 是 |
| 29 | build命令超时告警 | Event | 是 |
| 30 | 数据库文件丢失(undo/clog/csnlog) | Fault | 是 |
| 31 | 数据库文件堆积(undo/clog/csnlog) | Fault | 是 |
| 32 | 读写物理文件总时过长 | Fault | 是 |
| 33 | DN实例磁盘异常 | Fault | 是 |
| 34 | DN失效切换 | Event | 是 |
| 35 | 灾备集群DN断连 | Fault | 是 |
| 36 | 磁盘空间不足告警 | Event | 是 |
| 37 | 慢盘告警 | Fault | 是 |
| 38 | 磁盘故障 | Fault | 是 |
| 39 | 磁盘hang | Fault | 是 |
| 40 | 内存不足 | Event | 是 |
| 41 | IO负载过高 | Event | 是 |
| 42 | CPU负载过高 | Event | 是 |
| 43 | DN网络隔离 | Fault | 是 |
| 44 | 未做analyze表 | Fault | 是 |
| 45 | 未做vacuum表 | Fault | 是 |
| 46 | 数据实例锁文件已存在 | Fault | 否 |
| 47 | 集群平衡状态异常 | Event | 是 |
| 48 | 侦听IP地址失败 | Event | 否 |
特性增强
无。
特性约束
- 告警上报功能需要使用OM安装数据库,否则无法将告警信息正常写入到告警日志文件中。
- 告警检测功能是否开启由postgresql.conf中参数enable_alarm控制,默认值为on。
- 告警上报间隔由alarm_report_interval控制,默认值为10,即每10s上报一次。
- 告警类型分为故障发生(Fault)、故障恢复(Resume)和事件(Event)。故障发生后可以由系统自动检测并确认是否恢复,若恢复则会上报故障恢复告警。事件类告警由特定事件触发,不存在恢复状态。
- 部分告警功能需要安装CM组件后才能使用。
依赖关系
无。