实例监控插件
功能介绍
概述
实例监控插件主要目的是为 openGauss 用户提供实例监控能力。它作为一体化平台的可插拔插件开发,本特性依赖于openGauss一体化平台的插件特性。
主要功能
实例监控插件提供的功能如下:
功能模块 | 功能说明 |
---|---|
首页 | 展示系统资源统计图 展示活跃会话数量图 展示实时TOPSQL、阻塞会话、长事务、等待事件等表格 |
资源监控 | CPU:展示CPU使用率图、CPU平均负载图、TOP操作系统进程表、TOP数据库线程表 内存:展示内存使用率图、内存使用表、交互区使用情况图、交互区使用表、TOP操作系统进程表、TOP数据库线程表 IO:展示磁盘分区IO统计表、IOPS图、每秒读/写字节数图、I/O队列长度图、I/O使用率图、平均IO响应时间图 网络:展示网络流量(流入)图、网络流量(流出)、网卡丢包数量、网络socket连接信息、TCP socket数量统计、UDP socket数量统计、网卡传输统计表 |
实例指标 | 展示实例的TPS图、QPS图、连接数图、慢SQL数图 |
TOPSQL | 可查看按不同维度(DB_TIME、CPU_TIME、、EXEC_TIME、IO_TIME)排列前十的 sql 语句 |
WDR报告 | 支持快照管理和生成 展示WDR报告列表,支持WDR报告的增删改查 |
系统配置 | 展示系统配置参数和数据库配置参数,支持参数的查询和刷新 |
代理和服务端安装卸载 | 支持代理(agent)和服务端(prometheus)的安装、修改、启动、停止、卸载 |
ASP | 采样活跃会话数量 ASP分析 |
集群监控 | 集群列表与统计信息 主备延迟列表 集群详情与集群拓扑 切换记录 |
采集配置 | 支持对不同实例,不同指标进行采集间隔配置 |
约束和限制
WDR报告生成
WDR报告基于快照生成,而且必须至少要有两个不同版本的快照才能生成。当没有快照时,需先进行快照生成,再进行WDR报告生成。
代理安装
前置条件:服务端不存在时,先安装服务端。
服务端安装
只能安装一个服务端。
项目运行
本项目依赖一体化主平台,若需要使用本项目所有功能,只能通过编译成 jar 包的形式作为插件运行在主平台上。
系统要求
本节介绍使用实例监控插件的最低系统要求。
浏览器兼容性
内置对象 \ 浏览器及版本 | Chrome | Edge | Firefox | Opera | Safari |
---|---|---|---|---|---|
Proxy | 49 | 12 | 18 | 36 | 10 |
Proxy() constructor | 49 | 12 | 18 | 36 | 10 |
revocable | 63 | 12 | 34 | 50 | 10 |
系统要求
操作系统 | 版本 |
---|---|
windows | windows7及以上 |
软件要求
软件 | 规格 |
---|---|
Java | jdk 11及以上 |
数据库版本要求
数据库 | 版本 |
---|---|
openGauss | 所有 |
使用指导
代理和服务端的安装、编辑、启动、停止、卸载
实例监控插件相关监控功能依赖于代理和服务端对指标的采集和存储,所以使用此插件相关功能前应先安装服务端,并对需要监控的数据库实例,安装对应的代理进行指标采集。代理和服务端架构如下所示:
一级Prometheus:用于查询数据以及配置告警信息,查询监控数据时从二级Prometheus进行数据读取,一级Prometheus自身不存储数据,一级Prometheus必须安装且只能安装一个,因此在实例监控插件启动时,程序自动安装一级Prometheus。
二级Prometheus:用于拉取代理agent的数据并存储对应agent采集的监控数据,供一级Prometheus进行查询。如需启用监控功能,二级Prometheus需要至少安装一个,根据采集性能与监控的实例节点数据要求可以按需横向扩展。目前二级Prometheus限制只能安装一个,下个版本将放开该限制。
采集器Agent:具体负责数据采集,支持本地采集和远程采集,可以安装在数据库所在服务器或外部服务器,一个Agent可以采集多个数据库节点的监控数据。如需启用监控功能,agent需要至少安装一个,根据采集性能与监控的实例节点数据要求可以按需横向扩展。
下面主要介绍代理和服务端的安装、编辑、启动、停止、卸载。
代理和服务端的安装
点击左边菜单【智能运维】-【实例监控】,打开【实例监控】tab,点击tab内容的左上角的收缩按钮,如下图:
安装代理/服务端:点击【安装代理】按钮或者【安装服务端】按钮。
填写表单,点击一键部署。
说明: 所有必选参数均需要填写。必填参数用星号(*)标识。
配置项 必填 组件形式 配置说明 采集实例 是 多选下拉框 平台已安装的实例,从其中选择需要安装代理器并监控的具体实例 代理物理机 是 下拉框 选择代理需要安装到哪台物理机 安装用户 是 下拉框 选择安装代理器的物理机用户 代理web服务端口 是 输入框 默认9596,供服务端拉取指标数据使用 安装目录 是 输入框 代理器安装的目录 配置项 必填 组件形式 配置说明 物理机 是 下拉框 平台可用的服务器设备,默认选第一个 安装用户 是 下拉框 安装服务端的用户名 服务端端口 是 输入框 默认9090 安装目录 是 输入框 输入服务端的安装的目录 数据存储时长 是 输入框 指标数据在服务端保留的时长,超出时长数据会被清理
代理的编辑
点击左边菜单【智能运维】-【实例监控】,打开【实例监控】tab,点击tab内容的左上角的收缩按钮,点击【已安装代理】,可查看当前安装的代理;
方式1:树状图第1层表示的是代理,鼠标悬浮后,会显示【编辑】按钮,点击编辑按钮打开编辑界面;
方式2:树状图第2层表示集群,第3层表示数据库实例,鼠标在第3层悬浮后,会显示【删除】按钮,点击删除按钮也会打开编辑代理界面,默认将点击删除的实例排除;
在弹出的编辑代理界面,可按需修改【采集实例】,点击【一键部署】按钮即可修改代理采集设置。
服务端的编辑
点击左边菜单【智能运维】-【实例监控】,打开【实例监控】tab,点击tab内容的左上角的收缩按钮,点击【已安装服务端】,可查看当前安装的服务端;
把鼠标放在服务端上,显示【编辑】按钮,点击编辑按钮打开编辑界面;
在弹出的编辑服务端界面,填写表单,点击【一键部署】按钮即可修改服务端。
代理和服务端的启动和停止
点击左边菜单【智能运维】-【实例监控】,打开【实例监控】tab,点击tab内容的左上角的收缩按钮,点击【已安装代理】/【已安装服务端】,可查看当前安装的服务端;
把鼠标放在代理/服务端上,显示【启动】/【停止】按钮,点击按钮即可启动或者停止代理或者服务端;
代理和服务端的卸载
点击左边菜单【智能运维】-【实例监控】,打开【实例监控】tab,点击tab内容的左上角的收缩按钮。
点击【已安装代理】或者【已安装服务端】,展开对应的安装菜单,继续点击菜单,将鼠标移到对应的实例。
点击【卸载】,填写表单,点击【一键卸载】,完成卸载。
说明: 所有必选参数均需要填写。必填参数用星号(*)标识。
配置项 必填 组件形式 配置说明 代理信息 是 输入框 不可修改,显示需要卸载的代理信息 配置项 必填 组件形式 配置说明 物理机 是 输入框 不可修改,显示物理机相应信息
首页
首页主要是展示实例的总体状态,包括实例信息、CPU、内存、网络、IO、SWAP、活跃会话数量、实时TOPSQL、阻塞会话、长事务、等待事件等信息,支持对活跃会话数量、实时TOPSQL、阻塞会话、长事务、等待事件的分析。下面是对首页进行介绍:
进入插件后,默认选择【首页】 tab,展示数据库实例的CPU、内存、网络、IO、SWAP的总体情况;展示数据库实例的活跃会话情况,支持对其进行分析(TOP_SQL、智能诊断、WDR分析);展示数据库实时TOPSQL、阻塞会话、长事务、等待事件。
在活跃会话中选取区间,可对会话进行一步分析(TOP_SQL、智能诊断、WDR分析):
点击【TOP_SQL】跳转到【TOP_SQL】tab,可查看该时间段的实例前十的TOP SQL详细信息;
点击【智能诊断】跳转到【历史数据诊断】页面,可对实例进行诊断;
点击【WDR分析】,跳转到【WDR报告】tab,可对实例的WDR进行进一步分析。
系统负载
【资源监控】包括【CPU】,【内存】,【IO】,【网络】部分。
CPU
实时展示实例的CPU相关指标数据、操作系统前十进程的CPU使用详细情况、数据库前十线程的CPU使用详细情况。
【CPU】tab包含CPU使用率、CPU平均负载、TOP操作系统进程、TOP数据库线程,支持TOP CPU SQL、智能诊断、WDR分析等功能。
内存
实时展示实例的内存相关指标数据、内存使用情况、交互区使用情况、操作系统前十进程的详细情况、数据库前十线程的详细情况。
IO
实时展示实例的磁盘分区IO统计数据、IO相关指标数据:展示磁盘分区IO统计、IOPS、磁盘每秒读/写字节数、I\O队列长度、I\O使用率、平均IO响应时间,支持TOP CPU SQL、智能诊断、WDR分析等功能。
网络
实现对实例的网络情况进行监控,展示网络流量(流入)、网络流量(流出)、网卡丢包数量、网络socket连接信息、TCP socket数量统计、UDP socket数量统计、网卡传输统计等,支持智能诊断、WDR分析。
实例指标
【实例指标】主要是分为【实例概况】、【实例负载】和【实例空间】三个TAB。
实例概况
展示数据库实例的缓存命中率表格、连接数、慢SQL数、平均SQL响应时间、每秒读取磁盘数据量。
实例负载
展示数据库实例TPS、QPS、每秒插入数据量、每秒更新数据量、每秒删除数据量、每秒全表扫描数据量、每秒索引扫描回表数据量、每秒清除脏块数据量。
实例空间
展示表空间概况、表空间使用总量、容量前十的表、容量前十的索引、容量前十的死元组、前十建议vacuum的表。
TOPSQL
【TOPSQL】主要是对执行总耗时、CPU耗时、执行耗时、IO耗时靠前的SQL进行展示,同时支持对TOPSQL的分析,包括对SQL语句的基本信息统计、执行信息统计、耗时统计、执行计划分析、SQL语句的资源监控、索引建议、等待事件分析(930新增)、SQL诊断等功能分析。
选择 【TOPSQL】 tab可查看按不同维度(DB_TIME、CPU_TIME、、EXEC_TIME、IO_TIME)排列前十的 sql 语句 。
可点击 【SQLID】 进入详情页面。
【实例监控详情】:
点击【 SQLID 】进入详情页面,默认展示统计信息页。
完整的【统计信息】部分:
执行计划:
展示可视化的【执行计划】数据,点击右侧按钮可高亮显示对应的行。
系统资源:
对象信息
【对象信息】tab下,可选择对应的对象,右侧展示涉及到的【基本信息】,【对象结构】,【索引信息】。
索引建议
根据建议规则给出 sql 对应的【索引建议】。
等待事件统计
sql 诊断
在这里可以对当前的sql进行诊断分析,通过点击可跳转至【诊断详情】。
WDR报告
WDR是一个监控openGauss数据库特性的衍生品,通过分析时间范围内的保存的性能快照数据,生成WDR报告,帮助用户及时发现数据库异常、问题诊断以及优化数据库性能等。
WDR报告列表显示
点击【WDR报告】tab,进入WDR报告页面,选择【集群名称】,点击【查询】按钮,显示WDR报告列表。
说明:
【集群名称】、【报告范围】、【报告类型】选项为必选,其他查询条件可选。
单击 【查询】将根据条件查询数据。
单击 【重置】 即可重置列表。
配置项 | 必填 | 组件形式 | 数据类型限制 | 配置说明 |
---|---|---|---|---|
集群名称 | 是 | 下拉框 | - | 平台已安装的实例,默认为空。 |
报告范围 | 是 | 下拉框 | - | 分【集群】和【节点】,默认【集群】。 |
报告类型 | 是 | 下拉框 | - | 分【明细】、【汇总】和【全部】,默认明细。 |
生产时间 | 否 | 时间下拉框 | 时间类型 | yyyy-MM-dd HH:mm:ss,可为空,默认当天00:00:00到当天23:59:59。 |
快照管理
点击【快照管理】按钮,进入快照管理页面。
配置项 | 必填 | 组件形式 | 数据类型限制 | 配置说明 |
---|---|---|---|---|
集群/实例 | 是 | 下拉框 | - | 默认选第一个 |
创建快照
选择【集群/实例】,点击【创建快照】,生成新的快照。
说明:由于创建快照有延迟,需要手动点击【查询】来刷新数据。
生成WDR
在主页面点击【生成WDR】,进入【生成WDR】编辑页面,填写表单,点击【生成】。
配置项 | 必填 | 组件形式 | 数据类型限制 | 配置说明 |
---|---|---|---|---|
集群/实例 | 是 | 下拉框 | - | 平台已安装的实例,默认为空。 |
报告范围 | 是 | 下拉框 | - | 分【集群】和【节点】,默认【集群】。 |
报告类型 | 是 | 下拉框 | - | 分【明细】、【汇总】和【全部】,默认明细。 |
开始快照 | 是 | 下拉框 | - | 默认为倒数第20个快照,如果快照不足20条,将默认是第1条快照。 |
结束快照 | 是 | 下拉框 | - | 默认为最后一个快照。 |
查看快照
点击WDR报告列表中的某一个数据的【查看】操作按钮,将打开新页面,展示该数据的WDR报告详情。
WDR报告下载
点击WDR报告列表中的某一个数据的【下载】操作按钮,下载该数据的WDR报告。
WDR报告删除
点击WDR报告列表中的某一个数据的【删除】操作按钮,弹出删除提示,选择【确定】,将删除该WDR报告。
系统配置
统一查看与数据库相关的OS、数据库参数信息以及调优建议。
系统配置查询
点击【系统配置】tab,分【数据库配置】和【系统配置】tab,默认显示【数据库配置】tab;选择【集群/实例】,输入【显示推荐者】/【全部】、【参数类型】、【参数名称】,点击【查询】,可查询对应的数据。
系统配置刷新
选择【集群/实例】,点击【刷新】,填写root密码,点击【确定】,可以刷新数据库配置参数或者系统配置参数。
ASP
采样活跃会话数量
点击【ASP】tab,选择【集群/实例】
ASP分析
点击【ASP】tab,选择【集群/实例】,选择【分析指标】
【分析指标】下拉框选项:Wait Status、Event、Database ID、Application Name;单击图例可以增加对应【过滤条件】
集群监控
集群列表
点击菜单【集群监控】,选择【集群列表】tab。
- 点击操作中的【实例监控】,可跳转到主节点的实例监控。
主备延迟列表
点击菜单【集群监控】,选择【主备延迟列表】tab。
- 点击操作中的【实例监控】,可跳转到对应节点的实例监控
- 点击节点名称,可以跳转到对应节点的集群详情
集群详情
点击菜单【集群监控】,选择【集群列表】tab,点击任一集群名称。
点击操作中的【性能监控】,可跳转到对应节点的实例监控。
采集配置
修改采集配置
点击菜单【实例监控】,选择【采集配置】tab;
点击【修改】按钮修改对应指标的采集间隔;
采集开关默认打开,可点击关闭,关闭则不会采集此指标
点击【保存】按钮,保存修改后的结果,提示“采集配置更新成功!”代表配置生效;
点击【重置】按钮,可将所有指标的采集间隔重置为默认采集间隔15s,并打开所有指标的采集开关。
FAQ
使用在线安装代理或服务端时,安装界面卡住不动。
原因:服务器下载速度过慢或下载异常会发生此情况,可尝试使用离线安装的方式进行安装。
安装过程中错误信息提示
yum install -y unzip zip
。原因:需在服务器提前配置yum可用或者安装unzip和zip命令。
由于平台限制了上传文件大小,可能导致安装包上传失败,需要修改平台配置。
解决方案:修改平台配置文件/ops/server/openGauss-visualtool/config/application-cus.yml中对上传文件的大小限制大于安装包大小,然后重启平台。
spring.servlet.multipart: max-file-size: 1000MB max-request-size: 1000MB