关于数据:基于GaussDBDWS的全文检索特性了解一下

摘要：全文检索是在互联网场景下利用十分宽泛的个性，搜索引擎、站内搜索、电商搜寻等场景下都会应用到，GaussDB(DWS)同样也反对全文检索性能，是基于GIN索引实现的，上面给大家具体介绍一下GaussDB(DWS)的全文检索个性的性能。

全文检索实现的性能，简略来说就是依据关键字从在全文字段中搜寻到相干的信息，在不应用全文检索个性时，只能通过like ‘%keyword%’形式做含糊匹配，无奈利用到索引，只能进行全表扫描，效率非常低，全文检索个性能够无效地晋升检索性能。

全文检索的根底就是GIN索引，Generalized Inverted Index，也就是通用倒排索引，是一个存储对(key, posting list)汇合的索引构造，其中key是一个键值，而posting list 是一组呈现过key的地位。如(‘hello’, 2,3)中，示意hello在2和3这两个地位呈现过。

先来理解一下几个接口

to_tsvector

to_tsvector(text， text)

这个函数能够把一个文本转换为一个向量，其中保留单词和其呈现的程序，

test=# SELECT to_tsvector(‘english’, ‘huawei cloud data warehouse’);

            to_tsvector --------------------------------------------

‘cloud’:2 ‘data’:3 ‘huawei’:1 ‘warehous’:4 (1 row)

test=# SELECT to_tsvector(‘zhparser’, ‘华为云数据仓库’);

        to_tsvector -----------------------------------

‘云’:2 ‘仓库’:4 ‘华为’:1 ‘数据’:3 (1 row)

to_tsquery

to_tsquery(text)

这个函数作用是用来把文本转化为可查问的语句，例如：

SELECT to_tsquery(‘华为&深圳’);

这样就是寻找文本既蕴含“华为”，也蕴含“深圳”的语句，&是AND与操作，|是OR或操作

如果想晓得一个tsvector是否让tsquery成立，能够应用 @@ 操作符，例如：

SELECT to_tsvector(‘zhparser’, ‘华为深圳’) @@ to_tsquery(‘华为&深圳’);

这条语句会返回True

ts_rank

ts_rank(tsvector, tsquery)

这个函数能够计算tsvector和tsquery的近似水平，通过这个函数计算出rank之后，就能够排序了

SELECT

ts_rank(

to_tsvector('zhparser', '华为深圳'),

to_tsquery('华为&深圳')

);

讲完了这些接口，让咱们来做一些具体实际：

1.创立数据库

CREATE DATABASE test ENCODING ‘utf8’ template = template0;

【留神】全文检索必须应用在encoding为utf8或者gbk的数据库上。

2.创立表

CREATE TABLE t1(id int, news text, location text);

3.导入数据

INSERT INTO t1 VALUES(1, ‘华为云GaussDB(DWS)数据仓库以2048大规模节点通过信通院评测认证，华为云数据仓库成为国内首个单集群冲破两千的商用数据仓库产品’, ‘北京’);

INSERT INTO t1 VALUES(2, ‘GaussDB(DWS)历经十年磨炼，是业界当先的企业级云分布式数据仓库服务’, ‘深圳’);

INSERT INTO t1 VALUES(3, ‘华为GaussDB(DWS)数据仓库，助力招行“人人用数，翻新前行，招行客户在华为论坛中示意，华为与招行的联创实验室还将进一步摸索云数仓反对OBS存储的实际’, ‘深圳’);

INSERT INTO t1 VALUES(4, ‘数智金融使能翻新，2020 华为数智金融论坛在溪村胜利举办’, ‘东莞’);

INSERT INTO t1 VALUES(5, ‘华为云 AI 训练营西安站：“ModelArts Pro——行业 AI 落地新利器”主题沙龙隆重揭幕’, ‘西安’);

4.创立索引

CREATE INDEX t1_news_idx ON t1 USING gin(to_tsvector(‘zhparser’, news));

执行查问：

SELECT * FROM t1 WHERE to_tsvector(‘zhparser’,news) @@ to_tsquery(‘华为’);

查问后果：

news中只有蕴含“华为”词组，都会检索进去

5.创立多字段联结索引:

CREATE INDEX t1_news_location_idx ON t1 USING gin(to_tsvector(‘zhparser’, news||location));

执行后果：

查找同时蕴含两个词组

SELECT * FROM t1 WHERE to_tsvector(‘zhparser’, news||location) @@ to_tsquery(‘华为 & 深圳’);

news跟location只有有一个字段中蕴含“华为”和“深圳”都会检索进去

test=# SELECT * FROM t1 WHERE to_tsvector(‘zhparser’, news||location) @@ to_tsquery(‘华为 & 深圳’);
id | news | location —-+———————————————————————————————————————————————-+———-
3 | 华为GaussDB(DWS)数据仓库，助力招行“人人用数，翻新前行，招行客户在华为论坛中示意，华为与招行的联创实验室还将进一步摸索云数仓反对OBS存储的实际 | 深圳
(1 row)

查问蕴含其中一个词组

SELECT * FROM t1 WHERE to_tsvector(‘zhparser’, news||location) @@ to_tsquery(‘云|深圳’);

news跟location只有有一个蕴含“云”跟“深圳”这两个词的任何一个都会检索进去。

test=# SELECT * FROM t1 WHERE to_tsvector(‘zhparser’, news||location) @@ to_tsquery(‘云|深圳’);
id | news | location —-+———————————————————————————————————————————————-+———-
5 | 华为云 AI 训练营西安站：“ModelArts Pro——行业 AI 落地新利器”主题沙龙隆重揭幕 | 西安 3 | 华为GaussDB(DWS)数据仓库，助力招行“人人用数，翻新前行，招行客户在华为论坛中示意，华为与招行的联创实验室还将进一步摸索云数仓反对OBS存储的实际 | 深圳 1 | 华为云GaussDB(DWS)数据仓库以2048大规模节点通过信通院评测认证，华为云数据仓库成为国内首个单集群冲破两千的商用数据仓库产品 | 北京 2 | GaussDB(DWS)历经十年磨炼，是业界当先的企业级云分布式数据仓库服务 | 深圳
(4 rows)

6.排序

依照某一列蕴含的某个词组权重来排序

SELECT id, news, location ,ts_rank_cd(to_tsvector(‘zhparser’,news), query) AS rank FROM t1, to_tsquery(‘华为’) query WHERE query @@ to_tsvector(‘zhparser’,news) order by rank DESC;

执行后果：

test=# SELECT id, news, location ,ts_rank_cd(to_tsvector(‘zhparser’,news), query) AS rank FROM t1, to_tsquery(‘华为’) query WHERE query @@ to_tsvector(‘zhparser’,news) order by rank DESC;
id | news | location | rank —-+———————————————————————————————————————————————-+———-+——
3 | 华为GaussDB(DWS)数据仓库，助力招行“人人用数，翻新前行，招行客户在华为论坛中示意，华为与招行的联创实验室还将进一步摸索云数仓反对OBS存储的实际 | 深圳 | .3
1 | 华为云GaussDB(DWS)数据仓库以2048大规模节点通过信通院评测认证，华为云数据仓库成为国内首个单集群冲破两千的商用数据仓库产品 | 北京 | .2
4 | 数智金融使能翻新，2020 华为数智金融论坛在溪村胜利举办 | 东莞 | .1
5 | 华为云 AI 训练营西安站：“ModelArts Pro——行业 AI 落地新利器”主题沙龙隆重揭幕 | 西安 | .1 (4 rows)

搜寻出含有“华为”的词组，并且依据权重排序

依照某一列蕴含多个词组权重排序（同时蕴含两个词组）

SELECT id, news, location,ts_rank_cd(to_tsvector(‘zhparser’, news||location), query) AS rank FROM t1, to_tsquery(‘华为&深圳’) query WHERE query @@ to_tsvector(‘zhparser’,news||location) order by rank DESC;

执行后果：

test=# SELECT id, news, location,ts_rank_cd(to_tsvector(‘zhparser’, news||location), query) AS rank FROM t1, to_tsquery(‘华为&深圳’) query WHERE query @@ to_tsvector(‘zhparser’,news||location) order by rank DESC;
id | news | location | rank —-+———————————————————————————————————————————————-+———-+———–
3 | 华为GaussDB(DWS)数据仓库，助力招行“人人用数，翻新前行，招行客户在华为论坛中示意，华为与招行的联创实验室还将进一步摸索云数仓反对OBS存储的实际 | 深圳 | .00555556 (1 row)

搜寻出含有“华为”和“深圳”的词组，并且依据权重排序

依照某一列蕴含多个词组权重排序（蕴含两个词组其中一个）

SELECT id, news, location,ts_rank_cd(to_tsvector(‘zhparser’, news||location), query) AS rank FROM t1, to_tsquery(‘云|深圳’) query WHERE query @@ to_tsvector(‘zhparser’, news||location) order by rank DESC;

查看执行后果：

test=# SELECT id, news, location,ts_rank_cd(to_tsvector(‘zhparser’, news||location), query) AS rank FROM t1, to_tsquery(‘云|深圳’) query WHERE query @@ to_tsvector(‘zhparser’, news||location) order by rank DESC;
id | news | location | rank —-+———————————————————————————————————————————————-+———-+——
1 | 华为云GaussDB(DWS)数据仓库以2048大规模节点通过信通院评测认证，华为云数据仓库成为国内首个单集群冲破两千的商用数据仓库产品 | 北京 | .2
2 | GaussDB(DWS)历经十年磨炼，是业界当先的企业级云分布式数据仓库服务 | 深圳 | .2
5 | 华为云 AI 训练营西安站：“ModelArts Pro——行业 AI 落地新利器”主题沙龙隆重揭幕 | 西安 | .1
3 | 华为GaussDB(DWS)数据仓库，助力招行“人人用数，翻新前行，招行客户在华为论坛中示意，华为与招行的联创实验室还将进一步摸索云数仓反对OBS存储的实际 | 深圳 | .1 (4 rows)

检索出蕴含“云”或者“深圳”的记录，并且依据权重排序。

通过以上的案例，置信大家对GaussDB(DWS)的全文检索应用曾经有了一些理解，其实全文检索还有ngram分词，和自定义词典等等其余用法，大家如果有趣味，能够拜访DWS产品文档或者到社区发问，获取更全面的解答。

本文分享自华为云社区《GaussDB(DWS)全文检索个性初探》，原文作者：DWS_Jack 。

点击关注，第一工夫理解华为云陈腐技术~

关于数据:基于GaussDBDWS的全文检索特性了解一下

to_tsvector

to_tsquery

ts_rank

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据:基于GaussDBDWS的全文检索特性了解一下

to_tsvector

to_tsquery

ts_rank

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复