欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Elasticsearch外部詞庫(kù)文件更新及使用

 更新時(shí)間:2023年11月12日 16:41:38   作者:醉魚  
這篇文章主要為大家介紹了Elasticsearch外部詞庫(kù)文件更新及使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

引言

本文所使用的ES集群環(huán)境可在歷史文章中獲取,采用docker部署的方式。

Elasticsearch 是一個(gè)功能強(qiáng)大的搜索引擎,廣泛用于構(gòu)建復(fù)雜的全文搜索應(yīng)用程序。在許多情況下,為了提高搜索引擎的性能和精度,我們可以使用外部詞庫(kù)來(lái)定制和擴(kuò)展 Elasticsearch 的文本處理和搜索功能。本文將介紹外部詞庫(kù)的用途、優(yōu)勢(shì)以及如何在 Elasticsearch 中使用它們。

為什么需要外部詞庫(kù)?

Elasticsearch 默認(rèn)提供了一套強(qiáng)大的文本處理工具,包括分詞、標(biāo)記過(guò)濾、同義詞處理等。然而,在某些情況下,我們需要更多的控制權(quán)來(lái)適應(yīng)特定的用例和需求。外部詞庫(kù)允許我們:

  • 自定義分詞器:通過(guò)使用外部詞庫(kù),您可以創(chuàng)建自定義分詞器,以根據(jù)特定需求定義文本分割規(guī)則。這對(duì)于處理不同語(yǔ)言或行業(yè)的文本非常有用。
  • 擴(kuò)展停用詞列表:停用詞(如and、the等)通常被排除在搜索索引之外。外部詞庫(kù)允許您將領(lǐng)域特定的停用詞添加到索引中,以便更好地適應(yīng)我們行業(yè)內(nèi)的數(shù)據(jù)。
  • 同義詞處理:創(chuàng)建同義詞詞庫(kù)可確保相關(guān)詞匯在搜索時(shí)被正確映射,提高搜索結(jié)果的準(zhǔn)確性。
  • 專業(yè)術(shù)語(yǔ):對(duì)于特定領(lǐng)域或行業(yè),我們可以通過(guò)創(chuàng)建外部詞庫(kù),以包含特定領(lǐng)域的專業(yè)術(shù)語(yǔ),確保搜索引擎能夠理解和處理這些術(shù)語(yǔ)。

使用外部詞庫(kù)的優(yōu)勢(shì)

使用外部詞庫(kù)有以下優(yōu)勢(shì):

  • 提高搜索質(zhì)量:通過(guò)自定義分詞和停用詞,可以確保搜索引擎更好地理解和處理文本,提高搜索質(zhì)量。
  • 適應(yīng)特定需求:外部詞庫(kù)允許根據(jù)特定用例和領(lǐng)域需求對(duì)搜索引擎進(jìn)行定制,以滿足工作要求。
  • 更好的用戶體驗(yàn):通過(guò)包含專業(yè)術(shù)語(yǔ)和擴(kuò)展的同義詞映射,用戶能夠更輕松地找到他們需要的內(nèi)容。

如何在 Elasticsearch 中使用外部詞庫(kù)

在 Elasticsearch 中使用外部詞庫(kù)通常涉及以下步驟:

  • 創(chuàng)建外部詞庫(kù)文件:首先,我們需要準(zhǔn)備一個(gè)外部詞庫(kù)文件,其中包含自定義的詞匯、同義詞或停用詞列表。
  • 將詞庫(kù)上傳到 Elasticsearch:上傳詞庫(kù)文件到 Elasticsearch
  • 配置索引:將外部詞庫(kù)與索引相關(guān)聯(lián),以確保 Elasticsearch 在索引文檔時(shí)使用這些詞匯。
  • 搜索優(yōu)化:根據(jù)需要在搜索查詢中應(yīng)用外部詞庫(kù),以擴(kuò)展或定制搜索行為。

示例:使用自定義詞庫(kù)分詞

本文在 IK 分詞器的基礎(chǔ)上增加自定義分詞,并配置本地詞庫(kù)文件,遠(yuǎn)程熱更新詞庫(kù)文件。

本地詞庫(kù)

首先在啟動(dòng)的ES中對(duì)醉魚兩個(gè)字進(jìn)行分詞,IK 默認(rèn)分為兩個(gè)漢字

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["醉魚"]
}

結(jié)果如下

{
  "tokens" : [
    {
      "token" : "醉",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_CHAR",
      "position" : 0
    },
    {
      "token" : "魚",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_CHAR",
      "position" : 1
    }
  ]
}

而我們的需求是讓其能分為一次詞語(yǔ),而不是兩個(gè)漢字,那么下面引入我們的自定義分詞文件

在 ES 的 plugins/ik/config 目錄下創(chuàng)建自定義詞庫(kù)文件 zuiyu.dic,文件內(nèi)容如下,格式為一個(gè)詞語(yǔ)為一行。

醉魚

修改 IK 的配置,支持自定義分詞文件 ,修改plugins/ik/config 目錄下的IKAnalyzer.cfg.xml,修改其中<entry key="ext_dict"></entry>的值,為本地文件路徑,配置為相對(duì)路徑,直接填寫上一步創(chuàng)建的zuiyu.dic,結(jié)果如下

<entry key="ext_dict">zuiyu.dic</entry>

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 擴(kuò)展配置</comment>
    <!--用戶可以在這里配置自己的擴(kuò)展字典 -->
    <entry key="ext_dict">zuiyu.dic</entry>
     <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
    <entry key="ext_stopwords"></entry>
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
    <!--<entry key="remote_ext_dict"></entry>-->
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

如果是啟動(dòng)的ES集群,需要復(fù)制當(dāng)前兩個(gè)文件到所有的集群中

  • 1、當(dāng)前集群有三個(gè)節(jié)點(diǎn),其中都配置本地詞庫(kù)文件,但是node1node2中都沒(méi)有增加醉魚這詞語(yǔ),只有node3有,此時(shí)使用分詞是無(wú)法達(dá)到預(yù)期效果的。
  • 2、node1中配置正常的<entry key="ext_dict">zuiyu.dic</entry>,zuiyu.dic中也包含醉魚這個(gè)詞語(yǔ)。node2node3都不配置ext_dict,此時(shí)當(dāng)前這個(gè)環(huán)境是可以進(jìn)行正確分詞,達(dá)到預(yù)期的結(jié)果的。

重啟 ES

測(cè)試分詞效果,使用同樣的分詞語(yǔ)句

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["醉魚"]
}

結(jié)果如下

{
  "tokens" : [
    {
      "token" : "醉魚",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}

一般來(lái)說(shuō),詞語(yǔ)肯定不是固定的,隨著工作的長(zhǎng)期積累,不斷地發(fā)現(xiàn)新的專業(yè)術(shù)語(yǔ),那么熱更新,動(dòng)態(tài)更新詞庫(kù),不在每次更新詞庫(kù)之后重啟ES就是非常有必要的了,下面來(lái)看一下熱更新詞庫(kù)。

遠(yuǎn)程詞庫(kù)(熱更新)

熱更新詞庫(kù)的區(qū)別就是IKAnalyzer.cfg.xml文件中的一個(gè)配置的問(wèn)題。不過(guò)核心還是需要一個(gè)詞庫(kù)文件,剛才是通過(guò)路徑訪問(wèn)的,但是無(wú)法熱更新,所以現(xiàn)在需要改為URL訪問(wèn),也就是 HTTP 請(qǐng)求可以讀取到的形式。一個(gè)詞語(yǔ)一行返回即可。

此處使用 Nginx 來(lái)做演示。Nginx 中的配置如下

nginx.conf

location /dic/zuiyu.dic {
            alias   html/dic/zuiyu.dic;   
        }

zuiyu.dic 文件內(nèi)容如下

醉魚

IKAnalyzer.cfg.xml配置修改如下,IP為部署的 Nginx 的 IP ,端口也是根據(jù)自己 Nginx 監(jiān)聽(tīng)的端口修改

<entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>

完整的配置如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 擴(kuò)展配置</comment>
    <!--用戶可以在這里配置自己的擴(kuò)展字典 -->
    <entry key="ext_dict">zuiyu.dic</entry>
     <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典-->
    <entry key="ext_stopwords"></entry>
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 -->
    <entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>
    <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
  • 驗(yàn)證URL訪問(wèn)結(jié)果,使用瀏覽器或者postman等工具訪問(wèn) http://192.168.30.240:8088/dic/zuiyu.dic 可以返回我們的文件內(nèi)容即可,也是一個(gè)詞語(yǔ)一行的形式。
  • 復(fù)制IKAnalyzer.cfg.xml 到集群的每個(gè)節(jié)點(diǎn)中
  • 重啟ES

測(cè)試對(duì) 醉魚 分詞,可以看到與上面本地詞庫(kù)時(shí)是同樣的效果

{
  "tokens" : [
    {
      "token" : "醉魚",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    }
  ]
}

測(cè)試對(duì)我愛(ài)你醉魚進(jìn)行分詞

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["我愛(ài)你醉魚"]
}

結(jié)果如下

{
  "tokens" : [
    {
      "token" : "我愛(ài)你",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "愛(ài)你",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "醉魚",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

zuiyu.dic中增加我愛(ài)你醉魚,最終的文件內(nèi)容如下

醉魚
我愛(ài)你醉魚

增加完成之后,這5個(gè)字已經(jīng)成為一個(gè)詞語(yǔ),分詞結(jié)果如下

{
  "tokens" : [
    {
      "token" : "我愛(ài)你醉魚",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "我愛(ài)你",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "愛(ài)你",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "醉魚",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

僅在一個(gè)節(jié)點(diǎn) node1 中配置了遠(yuǎn)程詞庫(kù),node2 與 node3 都沒(méi)有配置任何的詞庫(kù),此時(shí)當(dāng)前環(huán)境無(wú)法達(dá)到我們的預(yù)期分詞效果

總結(jié)

通過(guò)上面我們的試驗(yàn),可以發(fā)現(xiàn)結(jié)合 IK分詞器,使用自定義詞庫(kù),可以滿足我們專業(yè)內(nèi)的詞語(yǔ)分詞,實(shí)現(xiàn)更好的分詞效果,再加上動(dòng)態(tài)詞庫(kù)的更新,對(duì)我們的工作還是很有必要的,配置過(guò)程是不是很簡(jiǎn)單,下面就趕緊用起來(lái)吧。

以上就是Elasticsearch外部詞庫(kù)文件更新及使用的詳細(xì)內(nèi)容,更多關(guān)于Elasticsearch外部詞庫(kù)文件更新的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Java設(shè)計(jì)模式中的適配器模式

    Java設(shè)計(jì)模式中的適配器模式

    這篇文章主要介紹了Java設(shè)計(jì)模式中的適配器模式, 適配器模式是將一個(gè)類的接口適配成用戶所期待的,一個(gè)適配允許通常因?yàn)榻涌诓患嫒荻荒茉谝黄鸸ぷ鞯念惞ぷ髟谝黄?做法是將類自己的接口包裹在一個(gè)已存在的類中,需要的朋友可以參考下
    2024-01-01
  • 比較排序之快速排序(實(shí)例代碼)

    比較排序之快速排序(實(shí)例代碼)

    下面小編就為大家?guī)?lái)一篇比較排序之快速排序(實(shí)例代碼)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2017-06-06
  • Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例

    Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例

    這篇文章主要為大家介紹了Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-10-10
  • Java編寫實(shí)現(xiàn)窗體程序顯示日歷

    Java編寫實(shí)現(xiàn)窗體程序顯示日歷

    這篇文章主要為大家詳細(xì)介紹了Java編寫實(shí)現(xiàn)窗體程序顯示日歷,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-06-06
  • springboot訪問(wèn)404問(wèn)題的解決辦法

    springboot訪問(wèn)404問(wèn)題的解決辦法

    工作中遇到url404問(wèn)題,解決問(wèn)題的進(jìn)程比較崎嶇,寫篇文章記錄,下面這篇文章主要給大家介紹了關(guān)于springboot訪問(wèn)404問(wèn)題的解決辦法,文中通過(guò)圖文介紹的非常詳細(xì),要的朋友可以參考下
    2023-03-03
  • 關(guān)于JDK8中的字符串拼接示例詳解

    關(guān)于JDK8中的字符串拼接示例詳解

    字符串拼接問(wèn)題應(yīng)該是每個(gè)Java程序員都熟知的事情了,幾乎每個(gè)Java程序員都讀過(guò)關(guān)于StringBuffer/StringBuilder來(lái)拼接字符串。下面這篇文章主要給大家介紹了關(guān)于JDK8中的字符串拼接的相關(guān)資料,需要的朋友可以參考下。
    2018-04-04
  • java中判斷字段真實(shí)長(zhǎng)度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)

    java中判斷字段真實(shí)長(zhǎng)度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)

    下面小編就為大家?guī)?lái)一篇java中判斷字段真實(shí)長(zhǎng)度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2017-01-01
  • Java結(jié)構(gòu)型設(shè)計(jì)模式中代理模式示例詳解

    Java結(jié)構(gòu)型設(shè)計(jì)模式中代理模式示例詳解

    代理模式(Proxy Parttern)為一個(gè)對(duì)象提供一個(gè)替身,來(lái)控制這個(gè)對(duì)象的訪問(wèn),即通過(guò)代理對(duì)象來(lái)訪問(wèn)目標(biāo)對(duì)象。本文將通過(guò)示例詳細(xì)講解一下這個(gè)模式,需要的可以參考一下
    2022-09-09
  • SpringBoot?自定義注解之脫敏注解詳解

    SpringBoot?自定義注解之脫敏注解詳解

    這篇文章主要介紹了SpringBoot?自定義注解之脫敏注解詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-12-12
  • java 實(shí)現(xiàn)讀取clob

    java 實(shí)現(xiàn)讀取clob

    這篇文章主要介紹了java 如何實(shí)現(xiàn)讀取clob,幫助大家更好的理解和使用Java,感興趣的朋友可以了解下
    2020-10-10

最新評(píng)論