基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎
基于 Mysql 實(shí)現(xiàn)一個(gè)搜索引擎
前言:
其實(shí) Mysql 很早就支持全文索引了,只不過一直只支持英文的檢索,從5.7.6 版本開始,Mysql 就內(nèi)置了 ngram 全文解析器,用來支持中文、日文、韓文分詞。
Mysql 全文索引采用的是倒排索引的原理,在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。
本文測(cè)試,基于 Mysql 8.0 版本,數(shù)據(jù)庫引擎采用的是 InnoDB
一、ngram 全文解析器
ngram 就是一段文字里面連續(xù)的 n 個(gè)字的序列。ngram 全文解析器能夠?qū)ξ谋具M(jìn)行分詞,每個(gè)單詞是連續(xù)的 n 個(gè)字的序列。例如,用 ngram 全文解析器對(duì)“你好靚仔”進(jìn)行分詞:
n=1: '你', '好', '靚', '仔' n=2: '你好', '好靚', '靚仔' n=3: '你好靚', '好靚仔' n=4: '你好靚仔'
MySQL 中使用全局變量 ngram_token_size
來配置 ngram 中 n 的大小,它的取值范圍是1到10,默認(rèn)值是 2。通常 ngram_token_size
設(shè)置為要查詢的單詞的最小字?jǐn)?shù)。如果需要搜索單字,就要把 ngram_token_size
設(shè)置為 1。在默認(rèn)值是 2 的情況下,搜索單字是得不到任何結(jié)果的。因?yàn)橹形膯卧~最少是兩個(gè)漢字,推薦使用默認(rèn)值 2。
可以通過以下命令查看 Mysql 默認(rèn)的 ngram_token_size
大?。?/p>
show variables like 'ngram_token_size'
有兩種方式可以設(shè)置全局變量 ngram_token_size
的值:
(1)啟動(dòng) mysqld 命令時(shí)指定:
mysqld --ngram_token_size=2
(2)修改 Mysql 配置文件 my.ini,末尾增加一行參數(shù):
ngram_token_size=2
二、創(chuàng)建全文索引
1、建表時(shí)創(chuàng)建全文索引
CREATE TABLE `article` ( `id` bigint NOT NULL, `url` varchar(1024) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '', `title` varchar(256) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '', `source` varchar(32) COLLATE utf8mb4_general_ci DEFAULT '', `keywords` varchar(32) COLLATE utf8mb4_general_ci DEFAULT NULL, `publish_time` timestamp NULL DEFAULT NULL, PRIMARY KEY (`id`), FULLTEXT KEY `title_index` (`title`) WITH PARSER `ngram` ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;
2、通過 alter table 方式
ALTER TABLE article ADD FULLTEXT INDEX title_index(title) WITH PARSER ngram;
3、通過 create index 方式
CREATE FULLTEXT INDEX title_index ON article (title) WITH PARSER ngram;
三、檢索方式
1、自然語言檢索(NATURAL LANGUAGE MODE)
自然語言模式是 MySQL 默認(rèn)的全文檢索模式。自然語言模式不能使用操作符,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。
示例:
select * from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE); // 不指定模式,默認(rèn)使用自然語言模式 select * from article where MATCH(title) AGAINST ('北京旅游');
可以看出,該模式下根據(jù)“北京旅游”搜索,可以搜索出包含“北京”的或者包含“旅游”的內(nèi)容,因?yàn)樗歉鶕?jù)自然語言分成了兩個(gè)關(guān)鍵詞。
上面示例中返回的結(jié)果會(huì)自動(dòng)按照匹配度排序,匹配度高的在前面,匹配度是一個(gè)非負(fù)浮點(diǎn)數(shù)。
示例:
// 查看匹配度 select * , MATCH(title) AGAINST ('北京旅游') as score from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);
2、布爾檢索(BOOLEAN MODE)
布爾檢索模式可以使用操作符,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。
示例:
// 無操作符 // 包含“約會(huì)”或“攻略” select * from article where MATCH(title) AGAINST ('約會(huì) 攻略' IN BOOLEAN MODE);
// 使用操作符 // 必須包含“約會(huì)”,可包含“攻略” select * from article where MATCH(title) AGAINST ('+約會(huì) 攻略' IN BOOLEAN MODE);
更多操作符示例:
'約會(huì) 攻略' 無操作符,表示或,要么包含“約會(huì)”,要么包含“攻略” '+約會(huì) +攻略' 必須同時(shí)包含兩個(gè)詞 '+約會(huì) 攻略' 必須包含“約會(huì)”,但是如果也包含“攻略”的話,匹配度更高。 '+約會(huì) -攻略' 必須包含“約會(huì)”,同時(shí)不能包含“攻略”。 '+約會(huì) ~攻略' 必須包含“約會(huì)”,但是如果也包含“攻略”的話,匹配度要比不包含“攻略”的記錄低。 '+約會(huì) +(>攻略 <技巧)' 查詢必須包含“約會(huì)”和“攻略”或者“約會(huì)”和“技巧”的記錄,但是“約會(huì) 攻略”的匹配度要比“約會(huì) 技巧”高。 '約會(huì)*' 查詢包含以“約會(huì)”開頭的記錄。 '"約會(huì)攻略"' 使用雙引號(hào)把要搜素的詞括起來,效果類似于like '%約會(huì)攻略%', 例如“約會(huì)攻略初級(jí)篇”會(huì)被匹配到,而“約會(huì)的攻略”就不會(huì)被匹配。
四、與 Like 對(duì)比
全文索引和 like 查詢對(duì)比,有以下優(yōu)點(diǎn):
- like 只是進(jìn)行模糊匹配,全文索引卻提供了一些語法語義的查詢功能,會(huì)將要查的字符串進(jìn)行分詞操作,這決定于 Mysql 的詞庫。
- 全文索引可以自己設(shè)置詞語的最小、最大長(zhǎng)度,要忽略的詞,這些都是可以設(shè)置的。
- 用全文索引去某個(gè)列查一個(gè)字符串,會(huì)返回匹配度,可以理解為匹配的關(guān)鍵字個(gè)數(shù),是個(gè)浮點(diǎn)數(shù)。
而且全文檢索的性能也是優(yōu)于 like 查詢的
以下是以 50w 左右數(shù)據(jù)進(jìn)行的測(cè)試:
// like 查詢 select * from article where title like '%北京%';
// 全文索引查詢 select * from article where MATCH(title) AGAINST ('北京' IN BOOLEAN MODE);
可以看出 like 查詢是 1.536s,全文索引查詢是 0.094s,快了16倍左右。
全文索引能快速搜索,但是也存在維護(hù)索引的開銷。字段長(zhǎng)度越大,創(chuàng)建的全文索引也越大,會(huì)影響DML語句的吞吐量。數(shù)據(jù)量不大的情況下可以采用全文索引來做搜索,簡(jiǎn)單方便,但是數(shù)據(jù)量大的話還是建議用專門的搜索引擎 ElasticSearch 來做這件事。
以上就是基于 Mysql 實(shí)現(xiàn)一個(gè)簡(jiǎn)易版搜索引擎的詳細(xì)內(nèi)容,更多關(guān)于 Mysql 實(shí)現(xiàn)搜索引擎的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!希望大家以后多多支持腳本之家!
- mysql字符集和數(shù)據(jù)庫引擎修改方法分享
- MySQL修改字符集的實(shí)戰(zhàn)教程
- MySQL查看與修改字符集的方法實(shí)例教程
- mysql 啟動(dòng)1067錯(cuò)誤及修改字符集重啟之后復(fù)原無效問題
- Linux下MySQL 5.5/5.6的修改字符集編碼為UTF8的方法
- Mysql數(shù)據(jù)庫支持的存儲(chǔ)引擎對(duì)比
- Mysql中存儲(chǔ)引擎的區(qū)別及比較
- MySQL 學(xué)習(xí)總結(jié) 之 初步了解 InnoDB 存儲(chǔ)引擎的架構(gòu)設(shè)計(jì)
- MySQL修改默認(rèn)引擎和字符集詳情
相關(guān)文章
getdata table表格數(shù)據(jù)join mysql方法
今天小編就為大家分享一篇關(guān)于getdata table表格數(shù)據(jù)join mysql方法,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2019-02-02mysql踩坑之limit與sum函數(shù)混合使用問題詳解
這篇文章主要給大家介紹了關(guān)于mysql踩坑之limit與sum函數(shù)混合使用問題的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用mysql具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧2019-06-06mysql啟動(dòng)提示mysql.host 不存在,啟動(dòng)失敗的解決方法
我將s9當(dāng)眾原來的mysql4.0刪除后,重新裝了個(gè)mysql5.0,啟動(dòng)過程中報(bào)一下錯(cuò)誤,啟動(dòng)失敗,查了一下群里面的老帖子也沒有個(gè)具體的明確說明2011-10-10wampserver下mysql導(dǎo)入數(shù)據(jù)庫的步驟
這篇文章主要介紹了wampserver下mysql導(dǎo)入數(shù)據(jù)庫的步驟,需要的朋友可以參考下2016-08-08CentOS Mysql數(shù)據(jù)庫如何實(shí)現(xiàn)定時(shí)備份
這篇文章主要介紹了CentOS Mysql數(shù)據(jù)庫如何實(shí)現(xiàn)定時(shí)備份,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06Idea連接MySQL數(shù)據(jù)庫出現(xiàn)中文亂碼的問題
這篇文章主要介紹了Idea連接MySQL數(shù)據(jù)庫出現(xiàn)中文亂碼的問題,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-04-04