监控告警
可获得性
本特性自openGauss 7.0.0RC2版本开始引入。
特性简介
本特性通过采集数据库内核后台线程和服务器系统的运行状态,经过分析和计算评估数据库是否出现异常,并将异常信息写入到告警日志中。这一特性有助于我们在使用 openGauss 数据库时,及时发现潜在问题,快速定位根源,并高效解决问题,极大地提升了数据库运维的效率和稳定性。
客户价值
当前openGauss的运维手段主要依靠人工进行排查和定位,缺少自动检测、自动预警的能力。人工运维存在耗时久、定位困难、实时性差等缺点。本特性提供内核进程和系统级别的监控能力,帮助客户在数据库运行出现异常时第一时间发现问题,降低数据库运维人力投入成本。
特性描述
- 支持DN实例级告警监控能力:如DN实例进程异常、DN主备切换、数据库只读、数据库异常重启等。
- 支持CM实例级告警监控能力:如cm_server进程异常、cm_agent进程异常、cm_server实例发生主备切换等。
- 支持数据库用户交互中产生的异常告警:如DN实例Build失败、DN实例Build超时、Switchover超时,数据库登录/连接失败、数据库账号锁定等
- 支持系统级别指标监控能力:如磁盘故障、磁盘空间不足、慢盘、磁盘hang、内存不足、CPU负载过高、IO负载过高等
支持的告警列表如下:
序号 | 告警名称 | 告警类型 | 是否需要CM |
---|---|---|---|
1 | 数据库目录丢失 | Fault | 否 |
2 | 数据实例连接数超限 | Fault | 否 |
3 | Wal日志段缺失 | Fault | 否 |
4 | 数据实例归档异常 | Fault | 否 |
5 | 数据实例连接认证方式异常 | Fault | 否 |
6 | 数据库连接数超限 | Fault | 否 |
7 | 数据库用户连接数超限 | Fault | 否 |
8 | 数据实例双机监听Socket异常 | Fault | 否 |
9 | 数据实例文件句柄不足 | Fault | 否 |
10 | 数据库登录/连接失败 | Event | 否 |
11 | 用户账号被锁定 | Fault | 否 |
12 | 用户账号登陆失败超限 | Fault | 否 |
13 | 死锁 | Event | 否 |
14 | xlog堆积 | Fault | 否 |
15 | DN实例异常 | Fault | 是 |
16 | DN进程异常 | Fault | 是 |
17 | DN主备切换 | Event | 是 |
18 | 数据库异常重启 | Event | 是 |
19 | 数据库只读 | Fault | 是 |
20 | CM_AGENT进程异常 | Fault | 是 |
21 | CM_SERVER进程异常 | Fault | 是 |
22 | CM_AGENT连接数据库服务失败 | Fault | 是 |
23 | DN实例出现假死异常 | Fault | 是 |
24 | DN实例Build失败 | Event | 是 |
25 | DN实例进行Build | Event | 是 |
26 | DN强制停止Redo | Event | 是 |
27 | CM_SERVER实例发生主备切换 | Event | 是 |
28 | switchover命令超时告警 | Event | 是 |
29 | build命令超时告警 | Event | 是 |
30 | 数据库文件丢失(undo/clog/csnlog) | Fault | 是 |
31 | 数据库文件堆积(undo/clog/csnlog) | Fault | 是 |
32 | 读写物理文件总时过长 | Fault | 是 |
33 | DN实例磁盘异常 | Fault | 是 |
34 | DN失效切换 | Event | 是 |
35 | 灾备集群DN断连 | Fault | 是 |
36 | 磁盘空间不足告警 | Event | 是 |
37 | 慢盘告警 | Fault | 是 |
38 | 磁盘故障 | Fault | 是 |
39 | 磁盘hang | Fault | 是 |
40 | 内存不足 | Event | 是 |
41 | IO负载过高 | Event | 是 |
42 | CPU负载过高 | Event | 是 |
43 | DN网络隔离 | Fault | 是 |
44 | 未做analyze表 | Fault | 是 |
45 | 未做vacuum表 | Fault | 是 |
46 | 数据实例锁文件已存在 | Fault | 否 |
47 | 集群平衡状态异常 | Event | 是 |
48 | 侦听IP地址失败 | Event | 否 |
特性增强
无。
特性约束
- 告警上报功能需要使用OM安装数据库,否则无法将告警信息正常写入到告警日志文件中。
- 告警检测功能是否开启由postgresql.conf中参数enable_alarm控制,默认值为on。
- 告警上报间隔由alarm_report_interval控制,默认值为10,即每10s上报一次。
- 告警类型分为故障发生(Fault)、故障恢复(Resume)和事件(Event)。故障发生后可以由系统自动检测并确认是否恢复,若恢复则会上报故障恢复告警。事件类告警由特定事件触发,不存在恢复状态。
- 部分告警功能需要安装CM组件后才能使用。
依赖关系
无。
意见反馈