概述
在现网业务中需要对发生的故障原因进行快速定位定界,本功能可以通过收集数据库实例中各个组件(如CMS、DN)等的信息和即时状态(如网络连通性),来判断实例环境是否存在故障,以及故障根因。可用于实现实例级别的故障根因诊断。
DBMind对cmd-exporter进行加强,本版本支持DN、CMS、CMA、ffic、OM_Monitor等日志采集,同时也支持基于节点间网络连通(如ping)状态采集。同时DBMind对现网故障场景进行了梳理,并对数据集进行枚举扩充,最终实现DN故障快速定位。
说明: 由于该功能是根据日志来进行诊断的,所以诊断结果中的时间可能因为日志的延迟或者日志的延迟处理,导致诊断结果中的时间晚于故障发生的时间。
表 1 现支持诊断的DN故障根因列表
说明: 当cm_ctl query的集群状态输出结果异常时,一般是发生了调用栈输出,这种情况下难以获取集群状态,无法获取集群的诊断结果,相关状态标记为"abnormal_output_from_cm_ctl_query", 诊断结果为Unknown。 当DN节点处于Offline状态时,不对其进行数据库实例故障诊断,返回状态为Normal,状态码-1。
意见反馈