快捷導(dǎo)航

基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎

更新時(shí)間：2021年08月31日 15:35:39 作者：靚仔聊編程

本文基于 Mysql 8.0 版本，數(shù)據(jù)庫引擎采用的是 InnoDB，關(guān)于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎，感興趣的朋友可以參考下文

基于 Mysql 實(shí)現(xiàn)一個(gè)搜索引擎

前言：

其實(shí) Mysql 很早就支持全文索引了，只不過一直只支持英文的檢索，從5.7.6 版本開始，Mysql 就內(nèi)置了 ngram 全文解析器，用來支持中文、日文、韓文分詞。

Mysql 全文索引采用的是倒排索引的原理，在倒排索引中關(guān)鍵詞是主鍵，每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件，這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí)，排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞，就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

本文測(cè)試，基于 Mysql 8.0 版本，數(shù)據(jù)庫引擎采用的是 InnoDB

一、ngram 全文解析器

ngram 就是一段文字里面連續(xù)的 n 個(gè)字的序列。ngram 全文解析器能夠?qū)ξ谋具M(jìn)行分詞，每個(gè)單詞是連續(xù)的 n 個(gè)字的序列。例如，用 ngram 全文解析器對(duì)“你好靚仔”進(jìn)行分詞:

n=1: '你', '好', '靚', '仔' 
n=2: '你好', '好靚', '靚仔' 
n=3: '你好靚', '好靚仔' 
n=4: '你好靚仔'

MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小，它的取值范圍是1到10，默認(rèn)值是 2。通常 ngram_token_size 設(shè)置為要查詢的單詞的最小字?jǐn)?shù)。如果需要搜索單字，就要把 ngram_token_size 設(shè)置為 1。在默認(rèn)值是 2 的情況下，搜索單字是得不到任何結(jié)果的。因?yàn)橹形膯卧~最少是兩個(gè)漢字，推薦使用默認(rèn)值 2。

可以通過以下命令查看 Mysql 默認(rèn)的 ngram_token_size 大?。?/p>

show variables like 'ngram_token_size'

有兩種方式可以設(shè)置全局變量 ngram_token_size 的值：

（1）啟動(dòng) mysqld 命令時(shí)指定：

mysqld --ngram_token_size=2

（2）修改 Mysql 配置文件 my.ini，末尾增加一行參數(shù)：

ngram_token_size=2

二、創(chuàng)建全文索引

1、建表時(shí)創(chuàng)建全文索引

CREATE TABLE `article` (
  `id` bigint NOT NULL,
  `url` varchar(1024) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `title` varchar(256) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `source` varchar(32) COLLATE utf8mb4_general_ci DEFAULT '',
  `keywords` varchar(32) COLLATE utf8mb4_general_ci DEFAULT NULL,
  `publish_time` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_index` (`title`) WITH PARSER `ngram`
) 

ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

2、通過 alter table 方式

ALTER TABLE article ADD FULLTEXT INDEX title_index(title) WITH PARSER ngram;

3、通過 create index 方式

CREATE FULLTEXT INDEX title_index ON article (title) WITH PARSER ngram;

三、檢索方式

1、自然語言檢索（NATURAL LANGUAGE MODE）

自然語言模式是 MySQL 默認(rèn)的全文檢索模式。自然語言模式不能使用操作符，不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

示例：

select * from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

// 不指定模式，默認(rèn)使用自然語言模式
select * from article where MATCH(title) AGAINST ('北京旅游');

可以看出，該模式下根據(jù)“北京旅游”搜索，可以搜索出包含“北京”的或者包含“旅游”的內(nèi)容，因?yàn)樗歉鶕?jù)自然語言分成了兩個(gè)關(guān)鍵詞。

上面示例中返回的結(jié)果會(huì)自動(dòng)按照匹配度排序，匹配度高的在前面，匹配度是一個(gè)非負(fù)浮點(diǎn)數(shù)。

示例：

// 查看匹配度
select * , MATCH(title) AGAINST ('北京旅游') as score from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

2、布爾檢索（BOOLEAN MODE）

布爾檢索模式可以使用操作符，可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

示例：

// 無操作符
// 包含“約會(huì)”或“攻略”
select * from article where MATCH(title) AGAINST ('約會(huì) 攻略' IN BOOLEAN MODE);

// 使用操作符
// 必須包含“約會(huì)”，可包含“攻略”
select * from article where MATCH(title) AGAINST ('+約會(huì) 攻略' IN BOOLEAN MODE);

更多操作符示例：

'約會(huì) 攻略' 
無操作符，表示或，要么包含“約會(huì)”，要么包含“攻略”

'+約會(huì) +攻略'
必須同時(shí)包含兩個(gè)詞

'+約會(huì) 攻略'
必須包含“約會(huì)”，但是如果也包含“攻略”的話，匹配度更高。

'+約會(huì) -攻略'
必須包含“約會(huì)”，同時(shí)不能包含“攻略”。

'+約會(huì) ~攻略'
必須包含“約會(huì)”，但是如果也包含“攻略”的話，匹配度要比不包含“攻略”的記錄低。

'+約會(huì) +(>攻略 <技巧)'
查詢必須包含“約會(huì)”和“攻略”或者“約會(huì)”和“技巧”的記錄，但是“約會(huì) 攻略”的匹配度要比“約會(huì) 技巧”高。

'約會(huì)*'
查詢包含以“約會(huì)”開頭的記錄。

'"約會(huì)攻略"'
使用雙引號(hào)把要搜素的詞括起來，效果類似于like '%約會(huì)攻略%'，
例如“約會(huì)攻略初級(jí)篇”會(huì)被匹配到，而“約會(huì)的攻略”就不會(huì)被匹配。

四、與 Like 對(duì)比

全文索引和 like 查詢對(duì)比，有以下優(yōu)點(diǎn)：

like 只是進(jìn)行模糊匹配，全文索引卻提供了一些語法語義的查詢功能，會(huì)將要查的字符串進(jìn)行分詞操作，這決定于 Mysql 的詞庫。
全文索引可以自己設(shè)置詞語的最小、最大長(zhǎng)度，要忽略的詞，這些都是可以設(shè)置的。
用全文索引去某個(gè)列查一個(gè)字符串，會(huì)返回匹配度，可以理解為匹配的關(guān)鍵字個(gè)數(shù)，是個(gè)浮點(diǎn)數(shù)。

而且全文檢索的性能也是優(yōu)于 like 查詢的

以下是以 50w 左右數(shù)據(jù)進(jìn)行的測(cè)試：

// like 查詢
select * from article where title like '%北京%';

// 全文索引查詢
select * from article where MATCH(title) AGAINST ('北京' IN BOOLEAN MODE);

可以看出 like 查詢是 1.536s，全文索引查詢是 0.094s，快了16倍左右。

全文索引能快速搜索，但是也存在維護(hù)索引的開銷。字段長(zhǎng)度越大，創(chuàng)建的全文索引也越大，會(huì)影響DML語句的吞吐量。數(shù)據(jù)量不大的情況下可以采用全文索引來做搜索，簡(jiǎn)單方便，但是數(shù)據(jù)量大的話還是建議用專門的搜索引擎 ElasticSearch 來做這件事。

以上就是基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎的詳細(xì)內(nèi)容，更多關(guān)于 Mysql 實(shí)現(xiàn)搜索引擎的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎

目錄

基于 Mysql 實(shí)現(xiàn)一個(gè)搜索引擎

一、ngram 全文解析器

二、創(chuàng)建全文索引

1、建表時(shí)創(chuàng)建全文索引

2、通過 alter table 方式

3、通過 create index 方式

三、檢索方式

1、自然語言檢索（NATURAL LANGUAGE MODE）

2、布爾檢索（BOOLEAN MODE）

四、與 Like 對(duì)比

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎

目錄

基于 Mysql 實(shí)現(xiàn)一個(gè)搜索引擎

一、ngram 全文解析器

二、創(chuàng)建全文索引

1、建表時(shí)創(chuàng)建全文索引

2、通過 alter table 方式

3、通過 create index 方式

三、檢索方式

1、自然語言檢索（NATURAL LANGUAGE MODE）

2、布爾檢索（BOOLEAN MODE）

四、與 Like 對(duì)比

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、ngram 全文解析器

二、創(chuàng)建全文索引

1、建表時(shí)創(chuàng)建全文索引

3、通過 create index 方式

三、檢索方式

1、自然語言檢索（NATURAL LANGUAGE MODE）

2、布爾檢索（BOOLEAN MODE）