概述

在现网业务中需要对发生的故障原因进行快速定位定界,本功能可以通过收集数据库实例中各个组件(如CMS、DN)等的信息和即时状态(如网络连通性),来判断实例环境是否存在故障,以及故障根因。可用于实现实例级别的故障根因诊断。

DBMind对cmd-exporter进行加强,本版本支持DN、CMS、CMA、ffic、OM_Monitor等日志采集,同时也支持基于节点间网络连通(如ping)状态采集。同时DBMind对现网故障场景进行了梳理,并对数据集进行枚举扩充,最终实现DN故障快速定位。

说明: 由于该功能是根据日志来进行诊断的,所以诊断结果中的时间可能因为日志的延迟或者日志的延迟处理,导致诊断结果中的时间晚于故障发生的时间。

表 1 现支持诊断的DN故障根因列表

DN故障根因

未知原因/Unknown。

实例被停止/DN manual stop。

磁盘故障/DN disk damage。

网卡故障/DN NIC down。

端口冲突/DN port conflict。

CM Server仲裁重启DN/DN restarted by cms。

进程僵死重启/DN phony dead。

CORE/Core。

只读/DN read only。

主机断网或宕机/DN down/disconnection。

主备DN间网络异常/DN Primary disconnected with Standby。

DN IP丢失/DN ip lost。

说明: 当cm_ctl query的集群状态输出结果异常时,一般是发生了调用栈输出,这种情况下难以获取集群状态,无法获取集群的诊断结果,相关状态标记为"abnormal_output_from_cm_ctl_query", 诊断结果为Unknown。 当DN节点处于Offline状态时,不对其进行数据库实例故障诊断,返回状态为Normal,状态码-1。

意见反馈
编组 3备份
    openGauss 2025-06-07 22:42:34
    取消