詳解elasticsearch實現(xiàn)基于拼音搜索
1、背景
一般情況下,有些搜索需求是需要根據(jù)拼音和中文來搜索的,那么在elasticsearch
中是如何來實現(xiàn)基于拼音來搜索的呢?可以通過elasticsearch-analysis-pinyin
分析器來實現(xiàn)。
2、安裝拼音分詞器
# 進(jìn)入 es 的插件目錄 cd /usr/local/es/elasticsearch-8.4.3/plugins # 下載 wget https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v8.4.3/elasticsearch-analysis-pinyin-8.4.3.zip # 新建目錄 mkdir analysis-pinyin # 解壓 mv elasticsearch-analysis-pinyin-8.4.3.zip analysis-pinyin && cd analysis-pinyin && unzip elasticsearch-analysis-pinyin-8.4.3.zip && rm -rvf elasticsearch-analysis-pinyin-8.4.3.zip cd ../ && chown -R es:es analysis-pinyin # 啟動es /usr/local/es/elasticsearch-8.4.3/bin/elasticsearch -d
3、拼音分詞器提供的功能
每個選項的含義 可以通過 文檔中的例子來看懂。
4、簡單測試一下拼音分詞器
4.1 dsl
GET _analyze { "text": ["我是中國人"], "analyzer": "pinyin" }
"analyzer": "pinyin"
此處的pinyin
是拼音分詞器自帶的。
4.2 運行結(jié)果
從圖片上,實現(xiàn)了拼音分詞,但是這個不一定滿足我們的需求,比如沒有中文了,單個的拼音(比如:wo)是沒有什么用的,需要對拼音分詞器進(jìn)行定制化。
5、es中分詞器的組成
在elasticsearch
中分詞器analyzer
由如下三個部分組成:
character filters:
用于在tokenizer
之前對文本進(jìn)行處理。比如:刪除字符,替換字符等。tokenizer:
將文本按照一定的規(guī)則分成獨立的token。即實現(xiàn)分詞功能。tokenizer filter:
將tokenizer
輸出的詞條做進(jìn)一步的處理。比如: 同義詞處理,大小寫轉(zhuǎn)換、移除停用詞,拼音處理等。
6、自定義一個分詞器實現(xiàn)拼音和中文的搜索
需求: 自定義一個分詞器,即可以實現(xiàn)拼音搜索,也可以實現(xiàn)中文搜索。
1、創(chuàng)建mapping
PUT /test_pinyin { "settings": { // 分析階段的設(shè)置 "analysis": { // 分析器設(shè)置 "analyzer": { // 自定義分析器,在tokenizer階段使用ik_max_word,在filter上使用py "custom_analyzer": { "tokenizer": "ik_max_word", "filter": "custom_pinyin" } }, // 由于不滿足pinyin分詞器的默認(rèn)設(shè)置,所以我們基于pinyin // 自定義了一個filter,叫py,其中修改了一些設(shè)置 // 這些設(shè)置可以在pinyin分詞器官網(wǎng)找到 "filter": { "custom_pinyin": { "type": "pinyin", // 不會這樣分:劉德華 > [liu, de, hua] "keep_full_pinyin": false, // 這樣分:劉德華 > [liudehua] "keep_joined_full_pinyin": true, // 保留原始token(即中文) "keep_original": true, // 設(shè)置first_letter結(jié)果的最大長度,默認(rèn)值:16 "limit_first_letter_length": 16, // 當(dāng)啟用此選項時,將刪除重復(fù)項以保存索引,例如:de的> de,默認(rèn)值:false,注意:位置相關(guān)查詢可能受影響 "remove_duplicated_term": true, // 如果非漢語字母是拼音,則將其拆分為單獨的拼音術(shù)語,默認(rèn)值:true,如:liudehuaalibaba13zhuanghan- > liu,de,hua,a,li,ba,ba,13,zhuang,han,注意:keep_none_chinese和keep_none_chinese_together應(yīng)首先啟用 "none_chinese_pinyin_tokenize": false } } } }, // 定義mapping "mappings": { "properties": { "name": { "type": "text", // 創(chuàng)建倒排索引時使用的分詞器 "analyzer": "custom_analyzer", // 搜索時使用的分詞器,搜索時不使用custom_analyzer是為了防止 詞語的拼音一樣,但是中文含義不一樣,導(dǎo)致搜索錯誤。 比如: 科技 和 客機(jī),拼音一樣,但是含義不一樣 "search_analyzer": "ik_smart" } } } }
注意:可以看到 我們的 name
字段 使用的分詞器是 custom_analyzer
,這個是我們在上一步定義的。但是搜索的時候使用的是 ik_smart
,這個為甚么會這樣呢?
假設(shè)我們存在如下2個文本 科技強(qiáng)國和 這是一架客機(jī), 那么科技和客機(jī)的拼音是不是就是一樣的。 這個時候如果搜索時使用的分詞器也是custom_analyzer
那么,搜索科技的時候客機(jī)也會搜索出來,這樣是不對的。因此在搜索的時候中文就以中文搜,拼音就以拼音搜。
{ "name": { "type": "text", "analyzer": "custom_analyzer", "search_analyzer": "ik_smart" } }
當(dāng) analyzer
和search_analyzer
的值都是custom_analyzer
,搜索時也會通過拼音搜索,這樣的結(jié)果可能就不是我們想要的。
2、插入數(shù)據(jù)
PUT /test_pinyin/_bulk {"index":{"_id":1}} {"name": "科技強(qiáng)國"} {"index":{"_id":2}} {"name": "這是一架客機(jī)"} {"index":{"_id":3}}
3、搜索數(shù)據(jù)
參考文檔
以上就是詳解elasticsearch實現(xiàn)基于拼音搜索的詳細(xì)內(nèi)容,更多關(guān)于elasticsearch 拼音搜索的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Elasticsearch常見字段映射類型之scaled_float解讀
這篇文章主要介紹了Elasticsearch常見字段映射類型之scaled_float解讀。具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-11-11springmvc接口接收參數(shù)與請求參數(shù)格式的整理
這篇文章主要介紹了springmvc接口接收參數(shù)與請求參數(shù)格式的整理,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-11-11BUUCTF-easy java WEB-INF/web.xml泄露漏洞及其利用方式
這篇文章主要介紹了BUUCTF-easy java WEB-INF/web.xml泄露漏洞及其利用方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-07-07java中List去除重復(fù)數(shù)據(jù)的5種方式總結(jié)
這篇文章主要給大家總結(jié)介紹了關(guān)于java中List去除重復(fù)數(shù)據(jù)的5種方式,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01Springboot項目基于Devtools實現(xiàn)熱部署步驟詳解
這篇文章主要介紹了Springboot項目基于Devtools實現(xiàn)熱部署,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-06-06Java并發(fā)編程之Condition源碼分析(推薦)
這篇文章主要介紹了Java并發(fā)編程之Condition源碼分析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03SpringBoot+WebSocket實現(xiàn)IM及時通訊的代碼示例
項目中碰到需要及時通訊的場景,使用springboot集成websocket,即可實現(xiàn)簡單的及時通訊,本文介紹springboot如何集成websocket、IM及時通訊需要哪些模塊、開發(fā)和部署過程中遇到的問題、以及實現(xiàn)小型IM及時通訊的代碼,需要的朋友可以參考下2023-10-10