欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

關(guān)于elasticsearch的match_phrase_prefix查詢詳解

 更新時間:2023年03月21日 10:09:28   作者:自東向西  
這篇文章主要介紹了關(guān)于elasticsearch的match_phrase_prefix查詢問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教

match_phrase

match_phrase_prefix可以認(rèn)為是match_phrase的增強版本,所以先了解一下match_phrase。

match_phrase詞組匹配會先解析檢索詞,并且標(biāo)注出每個的token相對位置,搜索匹配的字段的必須包含所有的檢索詞的token,并且他們的相對位置也要和檢索詞里面相同。

在《系統(tǒng)學(xué)習(xí)ElasticSearch》中,有很好的例子:

# DSL語句
GET /tehero_index/_doc/_search
{
  "query":{
    "match_phrase":{
      "content.ik_smart_analyzer":"系統(tǒng)編程"
    }
  }

DSL執(zhí)行步驟分析:

1)檢索詞“系統(tǒng)編程”被分詞為兩個Token【系統(tǒng),Position=0】【編程,Position=1】

2)倒排索引檢索時,等價于sql:【where Token = 系統(tǒng) and 系統(tǒng)_Position=0 and Token = 編程 and 編程_Position=1】;

如果我們不要求這兩個單詞相鄰,希望放松一點條件,可以添加slop參數(shù),slop代表兩個token之間相隔的最多的距離(最多需要移動多少次才能相鄰)。

match_phrase_prefix

與match_phrase查詢類似,但是會對最后一個Token在倒排序索引列表中進行通配符搜索。

# DSL語句
GET /tehero_index/_doc/_search
{
  "query":{
    "match_phrase":{
      "content.ik_smart_analyzer":"我編程系"
    }
  }

這個分詞的結(jié)果會是“我”、“編程”、“系”。

“我”和“編程”是精確匹配,“系”是前綴匹配,等價于sql:【where Token = ‘我’ and 我_Position=0 and Token = ‘編程’ and 編程_Position=1 and (Token_Position=2 and Token like ‘系%’)

需要注意的點

elasticsearch的官網(wǎng)文檔上,有match_phrase_prefix的完整參數(shù)結(jié)構(gòu):

  • query,查詢的關(guān)鍵字
  • analyer,對關(guān)鍵字使用的分詞器
  • max_expansions,最后一個term做前綴匹配時的最大拓展數(shù),默認(rèn)是50
  • slop,與match_phrase的slop相同,允許term之間的最大間隔
  • zero_terms_query,經(jīng)過analyer解析后,沒有任何term時,不返回數(shù)據(jù),還是返回全部數(shù)據(jù)。默認(rèn)返回全部數(shù)據(jù)。

max_expansions是非常重要的一個參數(shù),需要留意下,不然很容易出現(xiàn)與我們期望不符合的情況。

  • 在工作中,我試過使用match_phrase_prefix來匹配手機號,但是出現(xiàn)了一些奇怪的現(xiàn)象:
  • 測試的手機號是“123454688885555”,使用match_phrase_prefix,關(guān)鍵字是“12345”來查詢指定租戶下的數(shù)據(jù),沒有返回任何文檔。把關(guān)鍵字換成“1234546”,正確返回了對應(yīng)的文檔。

為什么會這樣呢?為什么12345就不返回,1234546就返回了?

個人是這樣覺得的:

  • 手機號雖然存在es中是字符串,但是字符串的內(nèi)容是數(shù)字,分詞器并不會對它進行分詞,也就是一個手機號就是一個term
  • 在測試數(shù)據(jù)中,數(shù)據(jù)有5000條,每條數(shù)據(jù)的手機號碼都是不一樣的,也就是說,手機號這樣的term有5000個。
  • max_expansions默認(rèn)是50,也就是說,會把12345拓展出以12345為開頭的額外50個term,例如123456、1234546、123456898…
  • 最后將拓展出來的term也用于查詢

為什么我會認(rèn)為是這樣的過程呢?

elasticsearch除了會構(gòu)建倒排索引之外,還會在所有的term構(gòu)建一個term dictionary (詞典)和term index(詞索引,印象是跳躍表結(jié)構(gòu)),幫助查找。

當(dāng)出現(xiàn)前綴匹配的時候,可以在term index和term dictionary中快速找到對應(yīng)開通的term。

根據(jù)max_expansions的值,拿到指定個數(shù)的term。

12345查不到數(shù)據(jù),1234546能查找,明顯是1234546更精確,1234546拓展出來的term中包含了那個完整的手機號碼123454688885555。

在查詢這個參數(shù)相關(guān)的文章的時候,發(fā)現(xiàn):

  • 有的人認(rèn)為這個數(shù)值是值通配符,值是50,就能模糊匹配多關(guān)鍵字之后50的字符的term。有的人認(rèn)為這個數(shù)值是匹配的文檔數(shù),值是50,則匹配50個文檔,返回這50個文檔中命中的部分。
  • 這都是不對的,明顯與手機號的實驗不符。
  • 《系統(tǒng)學(xué)習(xí)ElasticSearch》中對max_expansions的描述就像是占位符…

總結(jié)

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Java使用DFA算法實現(xiàn)敏感詞過濾的示例代碼

    Java使用DFA算法實現(xiàn)敏感詞過濾的示例代碼

    很多項目中都會有一個敏感詞管理模塊,本文主要介紹了Java使用DFA算法實現(xiàn)敏感詞過濾的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-03-03
  • SpringCloud之Feign遠程接口映射的實現(xiàn)

    SpringCloud之Feign遠程接口映射的實現(xiàn)

    這篇文章主要介紹了SpringCloud之Feign遠程接口映射的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-09-09
  • 淺談JDK7和JDK8的區(qū)別在哪

    淺談JDK7和JDK8的區(qū)別在哪

    面試總是遇到這個問題,做一個小總結(jié),文中有非常詳細的介紹,對正在學(xué)習(xí)java的小伙伴們很有幫助,需要的朋友可以參考下
    2021-06-06
  • java通過DelayQueue實現(xiàn)延時任務(wù)

    java通過DelayQueue實現(xiàn)延時任務(wù)

    本文主要介紹了java通過DelayQueue實現(xiàn)延時任務(wù),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-07-07
  • Java如何提供給第三方使用接口方法詳解

    Java如何提供給第三方使用接口方法詳解

    最近在做一個項目,因一些機制問題,需要我用java代碼調(diào)用第三方接口,下面這篇文章主要給大家介紹了關(guān)于Java如何提供給第三方使用接口方法的相關(guān)資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2022-08-08
  • Java實現(xiàn)圖片合成的示例詳解

    Java實現(xiàn)圖片合成的示例詳解

    前端有一個神器——canvas,這個畫布標(biāo)簽可以處理各種圖片的合成,可以精確到圖片的具體坐標(biāo)。java后端也有這樣的神器,那就是image-combiner,可以很簡單的合成圖片,感興趣的可以試一試
    2022-01-01
  • 淺談Java springboot日志管理

    淺談Java springboot日志管理

    這篇文章主要介紹了淺談Java springboot日志管理,文中有非常詳細的代碼示例,對正在學(xué)習(xí)Java的小伙伴們有很好的幫助喲,需要的朋友可以參考下
    2021-05-05
  • Java關(guān)鍵字之this用法詳解

    Java關(guān)鍵字之this用法詳解

    這篇文章將為大家詳細介紹一下Java關(guān)鍵字this的用法,文中有相關(guān)的代碼示例,希望對大家的學(xué)習(xí)或工作有一定的幫助,感興趣的同學(xué)可以參考下
    2023-05-05
  • java中HashMap.values()轉(zhuǎn)為ArrayList()問題

    java中HashMap.values()轉(zhuǎn)為ArrayList()問題

    這篇文章主要介紹了java中HashMap.values()轉(zhuǎn)為ArrayList()問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • Java實現(xiàn)求數(shù)組最長子序列算法示例

    Java實現(xiàn)求數(shù)組最長子序列算法示例

    這篇文章主要介紹了Java實現(xiàn)求數(shù)組最長子序列算法,涉及java針對數(shù)組的遞歸遍歷、判斷相關(guān)操作技巧,需要的朋友可以參考下
    2018-07-07

最新評論