BM25全文检索索引使用指南
本章节主要介绍openGauss中BM25全文检索索引使用指南。
1. 安装部署
使用Docker实现openGauss容器化部署,简化DevOps用户的安装、配置和环境设置,参考 容器镜像安装。
2. 语法介绍
BM25全文检索索引对普通表的文档列构建全文索引,实现对文档的高效检索。
索引构建
BM25索引支持对指定文档列构建全文索引,支持并行构建,大幅提升大文本数据集的索引构建速度,语法如下:
-- 设置并行构建线程数,设置范围1~32。不设置该参数时,默认单线程构建 ALTER TABLE {表名称} SET(parallel_workers=32); -- 给指定标的指定文档列构建BM25索引 CREATE INDEX {索引名称} on {表名称} using bm25({文档列名称});
BM25索引构建的相关约束见BM25索引介绍 BM25索引构建的相关约束见BM25索引介绍
说明:
并行构建索引场景下,计算一篇文档中词汇的Maxscore参数会和串行构建场景下存在一定偏差,小概率会影响检索过程中DAAT Maxscore方法文档剪枝策略,导致召回率有一定波动。
BM25索引操作符
由于BM25索引扫描需要指定查询词,因此新增BM25索引操作符:<&>,表示根据查询词来搜索相关的文档。使用方式如下:
{文档列名称} <&> {查询词}
索引扫描
BM25索引扫描基本格式
BM25索引的目标是在文档数据集集中搜索出与查询词最相关的 n 篇文档,并按相关性由高到低的顺序返回给用户。其搜索语法下述固定格式:
-- LIMIT 不设置时返回所有与查询词相关的文档 select * from {表名称} ORDER BY {文档列名称} <&> {查询词} DESC LIMIT n;
通过提示词的方式使用BM25索引扫描
-- 查询分数最高的 n 个文档 SELECT /*+ indexscan (表名称 索引名称)*/ * FROM {表名称} ORDER BY {文档列名称} <&> {查询词} DESC LIMIT n; -- 如果想要查看返回的文档分数,可以将分数以虚拟列的方式展示 SELECT /*+ indexscan (表名称 索引名称)*/ *, {文档列名称} <&> {查询词} AS score FROM {表名称} ORDER BY {文档列名称} <&> {查询词} DESC LIMIT n;
通过扫描GUC设置使用BM25索引扫描
-- 关闭顺序扫描 set enable_seqscan = off; -- 开启索引扫描 set enable_indexscan = on; -- 查询分数最高的 n 个文档 SELECT * FROM {表名称} ORDER BY {文档列名称} <&> {查询词} DESC LIMIT n;
说明:
BM25索引扫描性能可以通过相关GUC参数调优,执行语句前可先进行参数设置,详情参考BM25参数调优。
索引删除
DROP INDEX {索引名称};
3. 示例
本节将通过实例对上述索引语法进行演示。
-- 创建普通表,包含id、document列,document存储文本数据
openGauss=# CREATE TABLE bm25_table
(
id INT,
document TEXT
);
CREATE TABLE
-- 插入文档数据
INSERT INTO bm25_table VALUES(1, '香蕉是热带水果');
INSERT INTO bm25_table VALUES(2, '小明喜欢吃香蕉');
-- 为document列建立bm25索引
openGauss=# CREATE INDEX bm25_index on bm25_table using bm25(document);
ALTER TABLE
-- 使用bm25索引检索'香蕉'相关的文档,查看查询计划,走BM25索引
openGauss=# EXPLAIN SELECT /*+ indexscan (bm25_table bm25_index)*/ *, document <&> '香蕉' AS score FROM bm25_table ORDER BY document <&> '香蕉' DESC;
QUERY PLAN
---------------------------------------------------------
Index Scan uing bm25_index on bm25_table (cost=0.00..7.11 rows=1238 width=36)
Order by: (document <&> '香蕉'::text)
(2 rows)
-- 执行查询语句,检索'香蕉'相关的文档,并显示文档分数
openGauss=# SELECT /*+ indexscan (bm25_table bm25_index)*/ *, document <&> '香蕉' AS score FROM bm25_table ORDER BY document <&> '香蕉' DESC;
id | document | score
1 | 小明喜欢吃香蕉 | .182321563363075
2 | 香蕉是热带水果 | .182321563363075
(2 rows)
-- 使用bm25索引检索'小明喜欢吃什么'
openGauss=# SELECT /*+ indexscan (bm25_table bm25_index)*/ *, document <&> '小明喜欢吃什么' AS score FROM bm25_table ORDER BY document <&> '小明喜欢吃什么' DESC;
id | document | score
1 | 小明喜欢吃香蕉 | 1.3862943649292
(1 rows)
--删除索引
openGauss=# DROP INDEX bm25_index;
DROP INDEX
意见反馈