Elasticsearch?Analyzer?內(nèi)置分詞器使用示例詳解

更新時(shí)間：2023年05月20日 11:52:41 作者：AskaJohnny

這篇文章主要為大家介紹了Elasticsearch?Analyzer?內(nèi)置分詞器使用示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

前置知識(shí)

主要介紹一下 Elasticsearch中 Analyzer 分詞器的構(gòu)成和一些Es中內(nèi)置的分詞器以及如何使用它們

es 提供了 analyze api 可以方便我們快速的指定某個(gè)分詞器然后對(duì)輸入的text文本進(jìn)行分詞幫助我們學(xué)習(xí)和實(shí)驗(yàn)分詞器

POST _analyze
{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]

1.Analyzer

在ES中有很重要的一個(gè)概念就是分詞，ES的全文檢索也是基于分詞結(jié)合倒排索引做的。所以這一文我們來(lái)看下何謂之分詞。如何分詞。

分詞器是專(zhuān)門(mén)處理分詞的組件，在很多中間件設(shè)計(jì)中每個(gè)組件的職責(zé)都劃分的很清楚，單一職責(zé)原則，以后改的時(shí)候好擴(kuò)展。

分詞器由三部分組成。

Character Filters : 主要對(duì)原文本做處理, 例如去除 html 標(biāo)簽
Tokenizer : 按照規(guī)則把文本切分為單詞, 也就是分詞
Token Filters : 將切分后的單詞進(jìn)行加工處理, 小寫(xiě),刪除stopwords 停頓詞, 增加同義詞 , 擴(kuò)展一些

分詞場(chǎng)景:

數(shù)據(jù)寫(xiě)入index 的時(shí)候進(jìn)行分詞
query 查詢(xún)時(shí)候需要對(duì)查詢(xún)文本進(jìn)行分詞

2.Elasticsearch 內(nèi)置分詞器

在es中有不少內(nèi)置分詞器

Standard Analyzer : 默認(rèn)分詞器, 按Unicode文本分割算法拆分 , 轉(zhuǎn)化為小寫(xiě) , 支持中文(但是中文按照每個(gè)文字拆分,沒(méi)啥意義)
Simple Analyzer : 按照非字母切分并且轉(zhuǎn)化為小寫(xiě)
Stop Analyzer : 和 simple 一樣但是多了過(guò)濾停用詞(the a is) 默認(rèn)使用 stop token filter 的 _ _ english _ _ 預(yù)定義
Whitespace Analyzer : 每當(dāng)遇到空格的時(shí)候會(huì)進(jìn)行分詞 , 不會(huì)轉(zhuǎn)小寫(xiě)
Keyword Analyzer : 不分詞直接將輸入當(dāng)做輸出
Patter Analyzer : 正則表達(dá)式
Language : 語(yǔ)言分詞器 30多種
Customer Analyzer : 自定義分詞器

3. Standard Analyzer

Standard 是es中默認(rèn)的分詞器 , 它是按照 Unicode 文本分割算法去對(duì)文本進(jìn)行分詞的

POST _analyze
{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]

3.1 Definition

包括了轉(zhuǎn)小寫(xiě)的 token filter 和 stop token filter 去除停頓詞

Tokenizer

[Standard Tokenizer]

Token Filters

[Standard Token Filter] : 沒(méi)用只是作為保留的token filter (The standard token filter currently does nothing. It remains as a placeholder in case some filtering function needs to be added in a future version.)
[Lower Case Token Filter] : 轉(zhuǎn)小寫(xiě)的 token filter
[Stop Token Filter] : 停頓詞 token filter 默認(rèn)是沒(méi)有開(kāi)啟

3.2 Configuration

max_token_length : 最大的分詞長(zhǎng)度,如果超過(guò)此長(zhǎng)度則直接分詞 default 255
stopwords : 預(yù)定義的停頓詞列表如: _ _ englisth _ _ 或者停頓詞數(shù)組[] 默認(rèn) none 不設(shè)置
stopwords_path : 包含停頓詞的文件路徑

3.3 實(shí)驗(yàn)

// 使用 自定義的分詞器 基于 standard
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_english_analyzer": {
          "type": "standard", 
          "max_token_length": 5, // 最大詞數(shù)
          "stopwords": "_english_" // 開(kāi)啟過(guò)濾停頓詞 使用 englisth 語(yǔ)法
        }
      }
    }
  }
}
GET my_index/_analyze
{
  "analyzer": "my_english_analyzer",
  "text": "The hellogoodname jack"
}
// 可以看到 最長(zhǎng)5個(gè)字符 就需要進(jìn)行分詞了, 并且停頓詞 the 沒(méi)有了
["hello", "goodn", "ame", "jack"]

4. Simple Analyzer

簡(jiǎn)單的分詞器分詞規(guī)則就是遇到非字母的就分詞, 并且轉(zhuǎn)化為小寫(xiě),(lowercase tokennizer )

POST _analyze
{
  "analyzer": "simple",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

4.1 Definition

Tokenizer

Lower Case Tokenizer

4.2 Configuation

無(wú)配置參數(shù)

4.3 實(shí)驗(yàn)

simple analyzer 分詞器的實(shí)現(xiàn) 就是如下

PUT /simple_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "rebuilt_simple": {
          "tokenizer": "lowercase",
          "filter": [         
          ]
        }
      }
    }
  }
}

5. Stop Analyzer

stop analyzer 和 simple analyzer 一樣, 只是多了過(guò)濾 stop word 的 token filter , 并且默認(rèn)使用 english 停頓詞規(guī)則

POST _analyze
{
  "analyzer": "stop",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
// 可以看到 非字母進(jìn)行分詞 并且轉(zhuǎn)小寫(xiě) 然后 去除了停頓詞
[ quick, brown, foxes, jumped, over, lazy, dog, s, bone ]

5.1 Definition

Tokenizer

Lower Case Tokenizer : 轉(zhuǎn)小寫(xiě)的

Token filters

Stop Token Filter : 過(guò)濾停頓詞默認(rèn)使用規(guī)則 english

5.2 Configuration

stopwords : 指定分詞的規(guī)則默認(rèn) english , 或者分詞的數(shù)組
stopwords_path : 指定分詞停頓詞文件

5.3 實(shí)驗(yàn)

如下就是對(duì) Stop Analyzer 的實(shí)現(xiàn) , 先轉(zhuǎn)小寫(xiě) 后進(jìn)行停頓詞的過(guò)濾

PUT /stop_example
{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_" 
        }
      },
      "analyzer": {
        "rebuilt_stop": {
          "tokenizer": "lowercase",
          "filter": [
            "english_stop"          
          ]
        }
      }
    }
  }
}

設(shè)置 stopwords 參數(shù) 指定過(guò)濾的停頓詞列表

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_stop_analyzer": {
          "type": "stop",
          "stopwords": ["the", "over"]
        }
      }
    }
  }
}
POST my_index/_analyze
{
  "analyzer": "my_stop_analyzer",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ quick, brown, foxes, jumped, lazy, dog, s, bone ]

6. Whitespace Analyzer

空格分詞器, 顧名思義遇到空格就進(jìn)行分詞, 不會(huì)轉(zhuǎn)小寫(xiě)

POST _analyze
{
  "analyzer": "whitespace",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

6.1 Definition

Tokenizer

Whitespace Tokenizer

6.2 Configuration

無(wú)配置

6.3 實(shí)驗(yàn)

whitespace analyzer 的實(shí)現(xiàn)就是如下, 可以根據(jù)實(shí)際情況進(jìn)行添加 filter

PUT /whitespace_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "rebuilt_whitespace": {
          "tokenizer": "whitespace",
          "filter": [         
          ]
        }
      }
    }
  }
}

7. Keyword Analyzer

很特殊它不會(huì)進(jìn)行分詞, 怎么輸入就怎么輸出

POST _analyze
{
  "analyzer": "keyword",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
//注意 這里并沒(méi)有進(jìn)行分詞 而是原樣輸出
[ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

7.1 Definition

Tokennizer

Keyword Tokenizer

7.2 Configuration

無(wú)配置

7.3 實(shí)驗(yàn)

rebuit 如下就是 Keyword Analyzer 實(shí)現(xiàn)

PUT /keyword_example
{
  "settings": {
    "analysis": {
      "analyzer": {
        "rebuilt_keyword": {
          "tokenizer": "keyword",
          "filter": [         
          ]
        }
      }
    }
  }
}

8. Patter Analyzer

正則表達(dá)式進(jìn)行拆分 ,注意正則匹配的是標(biāo)記, 就是要被分詞的標(biāo)記默認(rèn)是按照 \w+ 正則分詞

POST _analyze
{
  "analyzer": "pattern",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
// 默認(rèn)是 按照 \w+ 正則
[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

8.1 Definition

Tokennizer

Pattern Tokenizer

Token Filters

Lower Case Token Filter
Stop Token Filter (默認(rèn)未開(kāi)啟)

8.2 Configuration

pattern	A Java regular expression, defaults to \W+.
flags	Java regular expression.
lowercase	轉(zhuǎn)小寫(xiě) 默認(rèn)開(kāi)啟 true.
stopwords	停頓詞過(guò)濾默認(rèn)none 未開(kāi)啟 , Defaults to _none_.
stopwords_path	停頓詞文件路徑

8.3 實(shí)驗(yàn)

Pattern Analyzer 的實(shí)現(xiàn) 就是如下

PUT /pattern_example
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "split_on_non_word": {
          "type":       "pattern",
          "pattern":    "\\W+" 
        }
      },
      "analyzer": {
        "rebuilt_pattern": {
          "tokenizer": "split_on_non_word",
          "filter": [
            "lowercase"       
          ]
        }
      }
    }
  }
}

9. Language Analyzer

提供了如下這么多語(yǔ)言分詞器 , 其中 english 也在其中

arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish.

GET _analyze
{
  "analyzer": "english",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}
[ 2, quick, brown, foxes, jumped, over, lazy, dog, bone ]

10. Customer Analyzer

沒(méi)啥好說(shuō)的就是當(dāng)提供的內(nèi)置分詞器不滿(mǎn)足你的需求的時(shí)候 ,你可以結(jié)合如下3部分

Character Filters : 主要對(duì)原文本做處理, 例如去除 html 標(biāo)簽
Tokenizer : 按照規(guī)則把文本切分為單詞, 也就是分詞
Token Filters : 將切分后的單詞進(jìn)行加工處理, 小寫(xiě),刪除stopwords 停頓詞, 增加同義詞 , 擴(kuò)展一些

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom",
          "char_filter": [
            "emoticons" 
          ],
          "tokenizer": "punctuation", 
          "filter": [
            "lowercase",
            "english_stop" 
          ]
        }
      },
      "tokenizer": {
        "punctuation": { 
          "type": "pattern",
          "pattern": "[ .,!?]"
        }
      },
      "char_filter": {
        "emoticons": { 
          "type": "mapping",
          "mappings": [
            ":) => _happy_",
            ":( => _sad_"
          ]
        }
      },
      "filter": {
        "english_stop": { 
          "type": "stop",
          "stopwords": "_english_"
        }
      }
    }
  }
}
POST my_index/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text":     "I'm a :) person, and you?"
}
[ i'm, _happy_, person, you ]

總結(jié)

本篇主要介紹了 Elasticsearch 中的一些內(nèi)置的 Analyzer 分詞器, 這些內(nèi)置分詞器可能不會(huì)常用,但是如果你能好好梳理一下這些內(nèi)置分詞器,一定會(huì)對(duì)你理解Analyzer 有很大的幫助, 可以幫助你理解 Character Filters , Tokenizer 和 Token Filters 的用處.

有機(jī)會(huì)再聊聊一些中文分詞器如 IKAnalyzer, ICU Analyzer ,Thulac 等等.. 畢竟開(kāi)發(fā)中中文分詞器用到更多些

以上就是Elasticsearch Analyzer 內(nèi)置分詞器使用示例詳解的詳細(xì)內(nèi)容，更多關(guān)于Elasticsearch Analyzer分詞器的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: