欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Elasticsearch外部詞庫文件更新及使用

 更新時(shí)間:2023年11月12日 16:41:38   作者:醉魚  
這篇文章主要為大家介紹了Elasticsearch外部詞庫文件更新及使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

引言

本文所使用的ES集群環(huán)境可在歷史文章中獲取,采用docker部署的方式。

Elasticsearch 是一個(gè)功能強(qiáng)大的搜索引擎,廣泛用于構(gòu)建復(fù)雜的全文搜索應(yīng)用程序。在許多情況下,為了提高搜索引擎的性能和精度,我們可以使用外部詞庫來定制和擴(kuò)展 Elasticsearch 的文本處理和搜索功能。本文將介紹外部詞庫的用途、優(yōu)勢以及如何在 Elasticsearch 中使用它們。

為什么需要外部詞庫?

Elasticsearch 默認(rèn)提供了一套強(qiáng)大的文本處理工具,包括分詞、標(biāo)記過濾、同義詞處理等。然而,在某些情況下,我們需要更多的控制權(quán)來適應(yīng)特定的用例和需求。外部詞庫允許我們:

  • 自定義分詞器:通過使用外部詞庫,您可以創(chuàng)建自定義分詞器,以根據(jù)特定需求定義文本分割規(guī)則。這對于處理不同語言或行業(yè)的文本非常有用。
  • 擴(kuò)展停用詞列表:停用詞(如and、the等)通常被排除在搜索索引之外。外部詞庫允許您將領(lǐng)域特定的停用詞添加到索引中,以便更好地適應(yīng)我們行業(yè)內(nèi)的數(shù)據(jù)。
  • 同義詞處理:創(chuàng)建同義詞詞庫可確保相關(guān)詞匯在搜索時(shí)被正確映射,提高搜索結(jié)果的準(zhǔn)確性。
  • 專業(yè)術(shù)語:對于特定領(lǐng)域或行業(yè),我們可以通過創(chuàng)建外部詞庫,以包含特定領(lǐng)域的專業(yè)術(shù)語,確保搜索引擎能夠理解和處理這些術(shù)語。

使用外部詞庫的優(yōu)勢

使用外部詞庫有以下優(yōu)勢:

  • 提高搜索質(zhì)量:通過自定義分詞和停用詞,可以確保搜索引擎更好地理解和處理文本,提高搜索質(zhì)量。
  • 適應(yīng)特定需求:外部詞庫允許根據(jù)特定用例和領(lǐng)域需求對搜索引擎進(jìn)行定制,以滿足工作要求。
  • 更好的用戶體驗(yàn):通過包含專業(yè)術(shù)語和擴(kuò)展的同義詞映射,用戶能夠更輕松地找到他們需要的內(nèi)容。

如何在 Elasticsearch 中使用外部詞庫

在 Elasticsearch 中使用外部詞庫通常涉及以下步驟:

  • 創(chuàng)建外部詞庫文件:首先,我們需要準(zhǔn)備一個(gè)外部詞庫文件,其中包含自定義的詞匯、同義詞或停用詞列表。
  • 將詞庫上傳到 Elasticsearch:上傳詞庫文件到 Elasticsearch
  • 配置索引:將外部詞庫與索引相關(guān)聯(lián),以確保 Elasticsearch 在索引文檔時(shí)使用這些詞匯。
  • 搜索優(yōu)化:根據(jù)需要在搜索查詢中應(yīng)用外部詞庫,以擴(kuò)展或定制搜索行為。

示例:使用自定義詞庫分詞

本文在 IK 分詞器的基礎(chǔ)上增加自定義分詞,并配置本地詞庫文件,遠(yuǎn)程熱更新詞庫文件。

本地詞庫

首先在啟動(dòng)的ES中對醉魚兩個(gè)字進(jìn)行分詞,IK 默認(rèn)分為兩個(gè)漢字

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["醉魚"]
}

結(jié)果如下

{
  "tokens" : [
    {
      "token" : "醉",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "魚",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_CHAR",
      "position" : 1
    }
  ]
}

而我們的需求是讓其能分為一次詞語,而不是兩個(gè)漢字,那么下面引入我們的自定義分詞文件

在 ES 的 plugins/ik/config 目錄下創(chuàng)建自定義詞庫文件 zuiyu.dic,文件內(nèi)容如下,格式為一個(gè)詞語為一行。

醉魚

修改 IK 的配置,支持自定義分詞文件 ,修改plugins/ik/config 目錄下的IKAnalyzer.cfg.xml,修改其中<entry key="ext_dict"></entry>的值,為本地文件路徑,配置為相對路徑,直接填寫上一步創(chuàng)建的zuiyu.dic,結(jié)果如下

<entry key="ext_dict">zuiyu.dic</entry>

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 擴(kuò)展配置</comment>
    <!--用戶可以在這里配置自己的擴(kuò)展字典 -->
    <entry key="ext_dict">zuiyu.dic</entry>
     <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
    <entry key="ext_stopwords"></entry>
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
    <!--<entry key="remote_ext_dict"></entry>-->
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

如果是啟動(dòng)的ES集群,需要復(fù)制當(dāng)前兩個(gè)文件到所有的集群中

  • 1、當(dāng)前集群有三個(gè)節(jié)點(diǎn),其中都配置本地詞庫文件,但是node1,node2中都沒有增加醉魚這詞語,只有node3有,此時(shí)使用分詞是無法達(dá)到預(yù)期效果的。
  • 2、node1中配置正常的<entry key="ext_dict">zuiyu.dic</entry>,zuiyu.dic中也包含醉魚這個(gè)詞語。node2,node3都不配置ext_dict,此時(shí)當(dāng)前這個(gè)環(huán)境是可以進(jìn)行正確分詞,達(dá)到預(yù)期的結(jié)果的。

重啟 ES

測試分詞效果,使用同樣的分詞語句

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["醉魚"]
}

結(jié)果如下

{
  "tokens" : [
    {
      "token" : "醉魚",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}

一般來說,詞語肯定不是固定的,隨著工作的長期積累,不斷地發(fā)現(xiàn)新的專業(yè)術(shù)語,那么熱更新,動(dòng)態(tài)更新詞庫,不在每次更新詞庫之后重啟ES就是非常有必要的了,下面來看一下熱更新詞庫。

遠(yuǎn)程詞庫(熱更新)

熱更新詞庫的區(qū)別就是IKAnalyzer.cfg.xml文件中的一個(gè)配置的問題。不過核心還是需要一個(gè)詞庫文件,剛才是通過路徑訪問的,但是無法熱更新,所以現(xiàn)在需要改為URL訪問,也就是 HTTP 請求可以讀取到的形式。一個(gè)詞語一行返回即可。

此處使用 Nginx 來做演示。Nginx 中的配置如下

nginx.conf

location /dic/zuiyu.dic {
            alias   html/dic/zuiyu.dic;   
        }

zuiyu.dic 文件內(nèi)容如下

醉魚

IKAnalyzer.cfg.xml配置修改如下,IP為部署的 Nginx 的 IP ,端口也是根據(jù)自己 Nginx 監(jiān)聽的端口修改

<entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>

完整的配置如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 擴(kuò)展配置</comment>
    <!--用戶可以在這里配置自己的擴(kuò)展字典 -->
    <entry key="ext_dict">zuiyu.dic</entry>
     <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
    <entry key="ext_stopwords"></entry>
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
    <entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
  • 驗(yàn)證URL訪問結(jié)果,使用瀏覽器或者postman等工具訪問 http://192.168.30.240:8088/dic/zuiyu.dic 可以返回我們的文件內(nèi)容即可,也是一個(gè)詞語一行的形式。
  • 復(fù)制IKAnalyzer.cfg.xml 到集群的每個(gè)節(jié)點(diǎn)中
  • 重啟ES

測試對 醉魚 分詞,可以看到與上面本地詞庫時(shí)是同樣的效果

{
  "tokens" : [
    {
      "token" : "醉魚",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}

測試對我愛你醉魚進(jìn)行分詞

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["我愛你醉魚"]
}

結(jié)果如下

{
  "tokens" : [
    {
      "token" : "我愛你",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "愛你",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "醉魚",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

zuiyu.dic中增加我愛你醉魚,最終的文件內(nèi)容如下

醉魚
我愛你醉魚

增加完成之后,這5個(gè)字已經(jīng)成為一個(gè)詞語,分詞結(jié)果如下

{
  "tokens" : [
    {
      "token" : "我愛你醉魚",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "我愛你",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "愛你",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "醉魚",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

僅在一個(gè)節(jié)點(diǎn) node1 中配置了遠(yuǎn)程詞庫,node2 與 node3 都沒有配置任何的詞庫,此時(shí)當(dāng)前環(huán)境無法達(dá)到我們的預(yù)期分詞效果

總結(jié)

通過上面我們的試驗(yàn),可以發(fā)現(xiàn)結(jié)合 IK分詞器,使用自定義詞庫,可以滿足我們專業(yè)內(nèi)的詞語分詞,實(shí)現(xiàn)更好的分詞效果,再加上動(dòng)態(tài)詞庫的更新,對我們的工作還是很有必要的,配置過程是不是很簡單,下面就趕緊用起來吧。

以上就是Elasticsearch外部詞庫文件更新及使用的詳細(xì)內(nèi)容,更多關(guān)于Elasticsearch外部詞庫文件更新的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Java設(shè)計(jì)模式中的適配器模式

    Java設(shè)計(jì)模式中的適配器模式

    這篇文章主要介紹了Java設(shè)計(jì)模式中的適配器模式, 適配器模式是將一個(gè)類的接口適配成用戶所期待的,一個(gè)適配允許通常因?yàn)榻涌诓患嫒荻荒茉谝黄鸸ぷ鞯念惞ぷ髟谝黄?做法是將類自己的接口包裹在一個(gè)已存在的類中,需要的朋友可以參考下
    2024-01-01
  • 比較排序之快速排序(實(shí)例代碼)

    比較排序之快速排序(實(shí)例代碼)

    下面小編就為大家?guī)硪黄容^排序之快速排序(實(shí)例代碼)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-06-06
  • Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例

    Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例

    這篇文章主要為大家介紹了Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-10-10
  • Java編寫實(shí)現(xiàn)窗體程序顯示日歷

    Java編寫實(shí)現(xiàn)窗體程序顯示日歷

    這篇文章主要為大家詳細(xì)介紹了Java編寫實(shí)現(xiàn)窗體程序顯示日歷,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-06-06
  • springboot訪問404問題的解決辦法

    springboot訪問404問題的解決辦法

    工作中遇到url404問題,解決問題的進(jìn)程比較崎嶇,寫篇文章記錄,下面這篇文章主要給大家介紹了關(guān)于springboot訪問404問題的解決辦法,文中通過圖文介紹的非常詳細(xì),要的朋友可以參考下
    2023-03-03
  • 關(guān)于JDK8中的字符串拼接示例詳解

    關(guān)于JDK8中的字符串拼接示例詳解

    字符串拼接問題應(yīng)該是每個(gè)Java程序員都熟知的事情了,幾乎每個(gè)Java程序員都讀過關(guān)于StringBuffer/StringBuilder來拼接字符串。下面這篇文章主要給大家介紹了關(guān)于JDK8中的字符串拼接的相關(guān)資料,需要的朋友可以參考下。
    2018-04-04
  • java中判斷字段真實(shí)長度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)

    java中判斷字段真實(shí)長度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)

    下面小編就為大家?guī)硪黄猨ava中判斷字段真實(shí)長度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-01-01
  • Java結(jié)構(gòu)型設(shè)計(jì)模式中代理模式示例詳解

    Java結(jié)構(gòu)型設(shè)計(jì)模式中代理模式示例詳解

    代理模式(Proxy Parttern)為一個(gè)對象提供一個(gè)替身,來控制這個(gè)對象的訪問,即通過代理對象來訪問目標(biāo)對象。本文將通過示例詳細(xì)講解一下這個(gè)模式,需要的可以參考一下
    2022-09-09
  • SpringBoot?自定義注解之脫敏注解詳解

    SpringBoot?自定義注解之脫敏注解詳解

    這篇文章主要介紹了SpringBoot?自定義注解之脫敏注解詳解,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-12-12
  • java 實(shí)現(xiàn)讀取clob

    java 實(shí)現(xiàn)讀取clob

    這篇文章主要介紹了java 如何實(shí)現(xiàn)讀取clob,幫助大家更好的理解和使用Java,感興趣的朋友可以了解下
    2020-10-10

最新評論