乐趣区

Mysql的全文检索

当检索数据库时,为了优化性能,我们使用一种叫索引的数据结构。当执行一个查询时,索引能够快速定位所需数据。在这篇文章中,我将分享使用全文检索处理小型项目的经验,该项目使用倒排索引概念优化了查询性能。

什么是全文检索?

全文检索 是一种检查记录中的所有单词以匹配提供的搜索条件的搜索技术(经常被搜索引擎所使用)。

能不能使用 ’LIKE’?

让我们设想一个场景,一个电商网站想提供一个搜索功能,让用户能够使用相同的搜索字段对商品名称,商品种类,商品描述进行搜索。这可以通过 Mysql 的 ’LIKE’ 查询对三个列(商品名称,商品种类,商品描述)进行关键字搜索。

SELECT * FROM product_test WHERE name LIKE‘%top%’and category LIKE‘%top%’and description LIKE‘%top%’;

上述查询语句会随着数据体量的增加而降低性能。使用 ’LIKE‘ 语句,有些搜索字词可以被很好地索引并且 (性能) 表现更好,而其他字词却不能被很好地索引从而提供更好的性能结果。基本上,通配符在查询语句中的位置决定了性能的高低。

索引范围越小,查询越快

为什么 ’LIKE’ 不合适?

‘LIKE’ 表达式包含两个部分 a)访问谓词 (在第一个通配符前的内容) b) 筛选谓词 (除去访问谓词的其他内容)
访问谓词应该更具选择性,以使索引范围更小,查询更快。在上述示例中,’like’ 表达式不包含访问谓词,以致扫描了所有的记录。

什么是倒排索引?

全文检索技术使用了倒排索引的概念。倒排索引将每个单词映射到其在记录或一组记录中的位置。这种结构在全文检索中有广泛的应用。我希望我们所有人都能够熟悉这种数据结构,因为这种数据结构可以影射为现实中书本的索引, 我们可以通过书本的索引找到对应主题的页码。倒排索引会告诉你特定搜索词所在的记录。

添加索引

全文索引在 MySQL 中是一种名为 FULLTEXT 类型的索引。FULLTEXT 索引可以在创建表时创建,或者在创建表之后通过 ALTER TABLE/CREATE INDEX,从VARCHAR、TEXT 类型的列创建。

CREATE TABLE product_test (id INT PRIMARY KEY, name VARCHAR(200),category VARCHAR(200),description TEXT, FULLTEXT (name,category, description));

搜索

搜索由 Match 函数执行。Match 函数将列名作为参数,搜索的字词作为参数传递给 Against 函数。

SELECT id, MATCH (name,category, description) AGAINST (‘Top’) FROM product_test;

排序

搜索结果默认按相关性的降序排序,相关性最高的记录将先出现,然后出现相关性低的结果。

再看性能

在 30,000 条记录的上运行 ’LIKE’ 查询语句,耗时 0.062 秒,全文检索查询耗时 0.011 秒。结果显示,使用索引的全文检索方式比 ’LIKE’ 语句更块。

退出移动版