快捷導(dǎo)航

詳解elasticsearch實現(xiàn)基于拼音搜索

更新時間：2023年01月16日 08:56:02 作者：huan1993

這篇文章主要為大家介紹了詳解elasticsearch實現(xiàn)基于拼音搜索示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

1、背景

一般情況下，有些搜索需求是需要根據(jù)拼音和中文來搜索的，那么在elasticsearch中是如何來實現(xiàn)基于拼音來搜索的呢？可以通過elasticsearch-analysis-pinyin分析器來實現(xiàn)。

2、安裝拼音分詞器

# 進(jìn)入 es 的插件目錄
cd /usr/local/es/elasticsearch-8.4.3/plugins
# 下載
wget https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v8.4.3/elasticsearch-analysis-pinyin-8.4.3.zip
# 新建目錄
mkdir analysis-pinyin
# 解壓
mv elasticsearch-analysis-pinyin-8.4.3.zip analysis-pinyin && cd analysis-pinyin && unzip elasticsearch-analysis-pinyin-8.4.3.zip && rm -rvf elasticsearch-analysis-pinyin-8.4.3.zip
cd ../ && chown -R es:es analysis-pinyin
# 啟動es
/usr/local/es/elasticsearch-8.4.3/bin/elasticsearch -d

3、拼音分詞器提供的功能

拼音分詞器提供如下功能

每個選項的含義可以通過文檔中的例子來看懂。

4、簡單測試一下拼音分詞器

4.1 dsl

GET _analyze
{
  "text": ["我是中國人"],
  "analyzer": "pinyin"
}

"analyzer": "pinyin" 此處的pinyin是拼音分詞器自帶的。

4.2 運行結(jié)果

從圖片上，實現(xiàn)了拼音分詞，但是這個不一定滿足我們的需求，比如沒有中文了，單個的拼音(比如：wo)是沒有什么用的，需要對拼音分詞器進(jìn)行定制化。

5、es中分詞器的組成

在elasticsearch中分詞器analyzer由如下三個部分組成：

character filters： 用于在tokenizer之前對文本進(jìn)行處理。比如：刪除字符，替換字符等。
tokenizer： 將文本按照一定的規(guī)則分成獨立的token。即實現(xiàn)分詞功能。
tokenizer filter： 將tokenizer輸出的詞條做進(jìn)一步的處理。比如：同義詞處理，大小寫轉(zhuǎn)換、移除停用詞，拼音處理等。

6、自定義一個分詞器實現(xiàn)拼音和中文的搜索

需求：自定義一個分詞器，即可以實現(xiàn)拼音搜索，也可以實現(xiàn)中文搜索。

1、創(chuàng)建mapping

PUT /test_pinyin
{
  "settings": {
    // 分析階段的設(shè)置
    "analysis": {
      // 分析器設(shè)置
      "analyzer": {
        // 自定義分析器，在tokenizer階段使用ik_max_word，在filter上使用py
        "custom_analyzer": {
          "tokenizer": "ik_max_word",
          "filter": "custom_pinyin"
        }
      },
      // 由于不滿足pinyin分詞器的默認(rèn)設(shè)置，所以我們基于pinyin
      // 自定義了一個filter，叫py，其中修改了一些設(shè)置
      // 這些設(shè)置可以在pinyin分詞器官網(wǎng)找到
      "filter": {
        "custom_pinyin": {
          "type": "pinyin",
          // 不會這樣分：劉德華 > [liu, de, hua]
          "keep_full_pinyin": false,
          // 這樣分：劉德華 > [liudehua]
          "keep_joined_full_pinyin": true,
          // 保留原始token（即中文）
          "keep_original": true,
          // 設(shè)置first_letter結(jié)果的最大長度，默認(rèn)值：16
          "limit_first_letter_length": 16,
          // 當(dāng)啟用此選項時，將刪除重復(fù)項以保存索引，例如：de的> de，默認(rèn)值：false，注意：位置相關(guān)查詢可能受影響
          "remove_duplicated_term": true,
          // 如果非漢語字母是拼音，則將其拆分為單獨的拼音術(shù)語，默認(rèn)值：true，如：liudehuaalibaba13zhuanghan- > liu，de，hua，a，li，ba，ba，13，zhuang，han，注意：keep_none_chinese和keep_none_chinese_together應(yīng)首先啟用
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  // 定義mapping
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        // 創(chuàng)建倒排索引時使用的分詞器
        "analyzer": "custom_analyzer",
        // 搜索時使用的分詞器，搜索時不使用custom_analyzer是為了防止 詞語的拼音一樣，但是中文含義不一樣，導(dǎo)致搜索錯誤。 比如： 科技 和 客機(jī)，拼音一樣，但是含義不一樣
        "search_analyzer": "ik_smart"
      }
    }
  }
}

注意：可以看到我們的 name字段使用的分詞器是 custom_analyzer，這個是我們在上一步定義的。但是搜索的時候使用的是 ik_smart，這個為甚么會這樣呢？
假設(shè)我們存在如下2個文本科技強(qiáng)國和這是一架客機(jī)，那么科技和客機(jī)的拼音是不是就是一樣的。這個時候如果搜索時使用的分詞器也是custom_analyzer那么，搜索科技的時候客機(jī)也會搜索出來，這樣是不對的。因此在搜索的時候中文就以中文搜，拼音就以拼音搜。

{
  "name": {
    "type": "text",
    "analyzer": "custom_analyzer",
    "search_analyzer": "ik_smart"
  }
}

當(dāng) analyzer和search_analyzer的值都是custom_analyzer，搜索時也會通過拼音搜索，這樣的結(jié)果可能就不是我們想要的。

2、插入數(shù)據(jù)

PUT /test_pinyin/_bulk
{"index":{"_id":1}}
{"name": "科技強(qiáng)國"}
{"index":{"_id":2}}
{"name": "這是一架客機(jī)"}
{"index":{"_id":3}}

3、搜索數(shù)據(jù)

參考文檔

1、github.com/medcl/elast…

以上就是詳解elasticsearch實現(xiàn)基于拼音搜索的詳細(xì)內(nèi)容，更多關(guān)于elasticsearch 拼音搜索的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解elasticsearch實現(xiàn)基于拼音搜索

目錄

1、背景

2、安裝拼音分詞器

3、拼音分詞器提供的功能

4、簡單測試一下拼音分詞器

4.1 dsl

4.2 運行結(jié)果

5、es中分詞器的組成

6、自定義一個分詞器實現(xiàn)拼音和中文的搜索

1、創(chuàng)建mapping

2、插入數(shù)據(jù)

3、搜索數(shù)據(jù)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解elasticsearch實現(xiàn)基于拼音搜索

目錄

1、背景

2、安裝拼音分詞器

3、拼音分詞器提供的功能

4、簡單測試一下拼音分詞器

4.1 dsl

4.2 運行結(jié)果

5、es中分詞器的組成

6、自定義一個分詞器實現(xiàn)拼音和中文的搜索

1、創(chuàng)建mapping

2、插入數(shù)據(jù)

3、搜索數(shù)據(jù)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

1、背景

2、安裝拼音分詞器

3、拼音分詞器提供的功能

4、簡單測試一下拼音分詞器

5、es中分詞器的組成

1、創(chuàng)建mapping

2、插入數(shù)據(jù)

3、搜索數(shù)據(jù)