监控告警

可获得性

本特性自openGauss 7.0.0RC2版本开始引入。

特性简介

本特性通过采集数据库内核后台线程和服务器系统的运行状态,经过分析和计算评估数据库是否出现异常,并将异常信息写入到告警日志中。这一特性有助于我们在使用 openGauss 数据库时,及时发现潜在问题,快速定位根源,并高效解决问题,极大地提升了数据库运维的效率和稳定性。

客户价值

当前openGauss的运维手段主要依靠人工进行排查和定位,缺少自动检测、自动预警的能力。人工运维存在耗时久、定位困难、实时性差等缺点。本特性提供内核进程和系统级别的监控能力,帮助客户在数据库运行出现异常时第一时间发现问题,降低数据库运维人力投入成本。

特性描述

  • 支持DN实例级告警监控能力:如DN实例进程异常、DN主备切换、数据库只读、数据库异常重启等。
  • 支持CM实例级告警监控能力:如cm_server进程异常、cm_agent进程异常、cm_server实例发生主备切换等。
  • 支持数据库用户交互中产生的异常告警:如DN实例Build失败、DN实例Build超时、Switchover超时,数据库登录/连接失败、数据库账号锁定等
  • 支持系统级别指标监控能力:如磁盘故障、磁盘空间不足、慢盘、磁盘hang、内存不足、CPU负载过高、IO负载过高等

支持的告警列表如下:

序号告警名称告警类型是否需要CM
1数据库目录丢失Fault
2数据实例连接数超限Fault
3Wal日志段缺失Fault
4数据实例归档异常Fault
5数据实例连接认证方式异常Fault
6数据库连接数超限Fault
7数据库用户连接数超限Fault
8数据实例双机监听Socket异常Fault
9数据实例文件句柄不足Fault
10数据库登录/连接失败Event
11用户账号被锁定Fault
12用户账号登陆失败超限Fault
13死锁Event
14xlog堆积Fault
15DN实例异常Fault
16DN进程异常Fault
17DN主备切换Event
18数据库异常重启Event
19数据库只读Fault
20CM_AGENT进程异常Fault
21CM_SERVER进程异常Fault
22CM_AGENT连接数据库服务失败Fault
23DN实例出现假死异常Fault
24DN实例Build失败Event
25DN实例进行BuildEvent
26DN强制停止RedoEvent
27CM_SERVER实例发生主备切换Event
28switchover命令超时告警Event
29build命令超时告警Event
30数据库文件丢失(undo/clog/csnlog)Fault
31数据库文件堆积(undo/clog/csnlog)Fault
32读写物理文件总时过长Fault
33DN实例磁盘异常Fault
34DN失效切换Event
35灾备集群DN断连Fault
36磁盘空间不足告警Event
37慢盘告警Fault
38磁盘故障Fault
39磁盘hangFault
40内存不足Event
41IO负载过高Event
42CPU负载过高Event
43DN网络隔离Fault
44未做analyze表Fault
45未做vacuum表Fault
46数据实例锁文件已存在Fault
47集群平衡状态异常Event
48侦听IP地址失败Event

特性增强

无。

特性约束

  • 告警上报功能需要使用OM安装数据库,否则无法将告警信息正常写入到告警日志文件中。
  • 告警检测功能是否开启由postgresql.conf中参数enable_alarm控制,默认值为on。
  • 告警上报间隔由alarm_report_interval控制,默认值为10,即每10s上报一次。
  • 告警类型分为故障发生(Fault)、故障恢复(Resume)和事件(Event)。故障发生后可以由系统自动检测并确认是否恢复,若恢复则会上报故障恢复告警。事件类告警由特定事件触发,不存在恢复状态。
  • 部分告警功能需要安装CM组件后才能使用。

依赖关系

无。

意见反馈
编组 3备份
    openGauss 2025-07-01 22:42:51
    取消