Elasticsearch外部詞庫文件更新及使用
引言
本文所使用的ES集群環(huán)境可在歷史文章中獲取,采用docker部署的方式。
Elasticsearch 是一個(gè)功能強(qiáng)大的搜索引擎,廣泛用于構(gòu)建復(fù)雜的全文搜索應(yīng)用程序。在許多情況下,為了提高搜索引擎的性能和精度,我們可以使用外部詞庫來定制和擴(kuò)展 Elasticsearch 的文本處理和搜索功能。本文將介紹外部詞庫的用途、優(yōu)勢以及如何在 Elasticsearch 中使用它們。
為什么需要外部詞庫?
Elasticsearch 默認(rèn)提供了一套強(qiáng)大的文本處理工具,包括分詞、標(biāo)記過濾、同義詞處理等。然而,在某些情況下,我們需要更多的控制權(quán)來適應(yīng)特定的用例和需求。外部詞庫允許我們:
- 自定義分詞器:通過使用外部詞庫,您可以創(chuàng)建自定義分詞器,以根據(jù)特定需求定義文本分割規(guī)則。這對于處理不同語言或行業(yè)的文本非常有用。
- 擴(kuò)展停用詞列表:停用詞(如
and
、the
等)通常被排除在搜索索引之外。外部詞庫允許您將領(lǐng)域特定的停用詞添加到索引中,以便更好地適應(yīng)我們行業(yè)內(nèi)的數(shù)據(jù)。 - 同義詞處理:創(chuàng)建同義詞詞庫可確保相關(guān)詞匯在搜索時(shí)被正確映射,提高搜索結(jié)果的準(zhǔn)確性。
- 專業(yè)術(shù)語:對于特定領(lǐng)域或行業(yè),我們可以通過創(chuàng)建外部詞庫,以包含特定領(lǐng)域的專業(yè)術(shù)語,確保搜索引擎能夠理解和處理這些術(shù)語。
使用外部詞庫的優(yōu)勢
使用外部詞庫有以下優(yōu)勢:
- 提高搜索質(zhì)量:通過自定義分詞和停用詞,可以確保搜索引擎更好地理解和處理文本,提高搜索質(zhì)量。
- 適應(yīng)特定需求:外部詞庫允許根據(jù)特定用例和領(lǐng)域需求對搜索引擎進(jìn)行定制,以滿足工作要求。
- 更好的用戶體驗(yàn):通過包含專業(yè)術(shù)語和擴(kuò)展的同義詞映射,用戶能夠更輕松地找到他們需要的內(nèi)容。
如何在 Elasticsearch 中使用外部詞庫
在 Elasticsearch 中使用外部詞庫通常涉及以下步驟:
- 創(chuàng)建外部詞庫文件:首先,我們需要準(zhǔn)備一個(gè)外部詞庫文件,其中包含自定義的詞匯、同義詞或停用詞列表。
- 將詞庫上傳到 Elasticsearch:上傳詞庫文件到 Elasticsearch
- 配置索引:將外部詞庫與索引相關(guān)聯(lián),以確保 Elasticsearch 在索引文檔時(shí)使用這些詞匯。
- 搜索優(yōu)化:根據(jù)需要在搜索查詢中應(yīng)用外部詞庫,以擴(kuò)展或定制搜索行為。
示例:使用自定義詞庫分詞
本文在 IK
分詞器的基礎(chǔ)上增加自定義分詞,并配置本地詞庫文件,遠(yuǎn)程熱更新詞庫文件。
本地詞庫
首先在啟動(dòng)的ES
中對醉魚
兩個(gè)字進(jìn)行分詞,IK
默認(rèn)分為兩個(gè)漢字
GET _analyze { "analyzer": "ik_max_word", "text": ["醉魚"] }
結(jié)果如下
{ "tokens" : [ { "token" : "醉", "start_offset" : 0, "end_offset" : 1, "type" : "CN_CHAR", "position" : 0 }, { "token" : "魚", "start_offset" : 1, "end_offset" : 2, "type" : "CN_CHAR", "position" : 1 } ] }
而我們的需求是讓其能分為一次詞語,而不是兩個(gè)漢字,那么下面引入我們的自定義分詞文件
在 ES
的 plugins/ik/config
目錄下創(chuàng)建自定義詞庫文件 zuiyu.dic
,文件內(nèi)容如下,格式為一個(gè)詞語為一行。
醉魚
修改 IK
的配置,支持自定義分詞文件 ,修改plugins/ik/config
目錄下的IKAnalyzer.cfg.xml
,修改其中<entry key="ext_dict"></entry>
的值,為本地文件路徑,配置為相對路徑,直接填寫上一步創(chuàng)建的zuiyu.dic
,結(jié)果如下
<entry key="ext_dict">zuiyu.dic</entry>
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 擴(kuò)展配置</comment> <!--用戶可以在這里配置自己的擴(kuò)展字典 --> <entry key="ext_dict">zuiyu.dic</entry> <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典--> <entry key="ext_stopwords"></entry> <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 --> <!--<entry key="remote_ext_dict"></entry>--> <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典--> <!-- <entry key="remote_ext_stopwords">words_location</entry> --> </properties>
如果是啟動(dòng)的ES
集群,需要復(fù)制當(dāng)前兩個(gè)文件到所有的集群中
- 1、當(dāng)前集群有三個(gè)節(jié)點(diǎn),其中都配置本地詞庫文件,但是
node1
,node2
中都沒有增加醉魚
這詞語,只有node3
有,此時(shí)使用分詞是無法達(dá)到預(yù)期效果的。 - 2、
node1
中配置正常的<entry key="ext_dict">zuiyu.dic</entry>
,zuiyu.dic
中也包含醉魚
這個(gè)詞語。node2
,node3
都不配置ext_dict
,此時(shí)當(dāng)前這個(gè)環(huán)境是可以進(jìn)行正確分詞,達(dá)到預(yù)期的結(jié)果的。
重啟 ES
測試分詞效果,使用同樣的分詞語句
GET _analyze { "analyzer": "ik_max_word", "text": ["醉魚"] }
結(jié)果如下
{ "tokens" : [ { "token" : "醉魚", "start_offset" : 0, "end_offset" : 2, "type" : "CN_WORD", "position" : 0 } ] }
一般來說,詞語肯定不是固定的,隨著工作的長期積累,不斷地發(fā)現(xiàn)新的專業(yè)術(shù)語,那么熱更新,動(dòng)態(tài)更新詞庫,不在每次更新詞庫之后重啟ES
就是非常有必要的了,下面來看一下熱更新詞庫。
遠(yuǎn)程詞庫(熱更新)
熱更新詞庫的區(qū)別就是IKAnalyzer.cfg.xml
文件中的一個(gè)配置的問題。不過核心還是需要一個(gè)詞庫文件,剛才是通過路徑訪問的,但是無法熱更新,所以現(xiàn)在需要改為URL
訪問,也就是 HTTP
請求可以讀取到的形式。一個(gè)詞語一行返回即可。
此處使用 Nginx
來做演示。Nginx
中的配置如下
nginx.conf
location /dic/zuiyu.dic { alias html/dic/zuiyu.dic; }
zuiyu.dic
文件內(nèi)容如下
醉魚
IKAnalyzer.cfg.xml
配置修改如下,IP
為部署的 Nginx
的 IP
,端口也是根據(jù)自己 Nginx
監(jiān)聽的端口修改
<entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>
完整的配置如下
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 擴(kuò)展配置</comment> <!--用戶可以在這里配置自己的擴(kuò)展字典 --> <entry key="ext_dict">zuiyu.dic</entry> <!--用戶可以在這里配置自己的擴(kuò)展停止詞字典--> <entry key="ext_stopwords"></entry> <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展字典 --> <entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry> <!--用戶可以在這里配置遠(yuǎn)程擴(kuò)展停止詞字典--> <!-- <entry key="remote_ext_stopwords">words_location</entry> --> </properties>
- 驗(yàn)證
URL
訪問結(jié)果,使用瀏覽器或者postman
等工具訪問http://192.168.30.240:8088/dic/zuiyu.dic
可以返回我們的文件內(nèi)容即可,也是一個(gè)詞語一行的形式。 - 復(fù)制
IKAnalyzer.cfg.xml
到集群的每個(gè)節(jié)點(diǎn)中 - 重啟
ES
測試對 醉魚
分詞,可以看到與上面本地詞庫時(shí)是同樣的效果
{ "tokens" : [ { "token" : "醉魚", "start_offset" : 0, "end_offset" : 2, "type" : "CN_WORD", "position" : 0 } ] }
測試對我愛你醉魚
進(jìn)行分詞
GET _analyze { "analyzer": "ik_max_word", "text": ["我愛你醉魚"] }
結(jié)果如下
{ "tokens" : [ { "token" : "我愛你", "start_offset" : 0, "end_offset" : 3, "type" : "CN_WORD", "position" : 0 }, { "token" : "愛你", "start_offset" : 1, "end_offset" : 3, "type" : "CN_WORD", "position" : 1 }, { "token" : "醉魚", "start_offset" : 3, "end_offset" : 5, "type" : "CN_WORD", "position" : 2 } ] }
在zuiyu.dic
中增加我愛你醉魚
,最終的文件內(nèi)容如下
醉魚
我愛你醉魚
增加完成之后,這5個(gè)字已經(jīng)成為一個(gè)詞語,分詞結(jié)果如下
{ "tokens" : [ { "token" : "我愛你醉魚", "start_offset" : 0, "end_offset" : 5, "type" : "CN_WORD", "position" : 0 }, { "token" : "我愛你", "start_offset" : 0, "end_offset" : 3, "type" : "CN_WORD", "position" : 1 }, { "token" : "愛你", "start_offset" : 1, "end_offset" : 3, "type" : "CN_WORD", "position" : 2 }, { "token" : "醉魚", "start_offset" : 3, "end_offset" : 5, "type" : "CN_WORD", "position" : 3 } ] }
僅在一個(gè)節(jié)點(diǎn) node1
中配置了遠(yuǎn)程詞庫,node2
與 node3
都沒有配置任何的詞庫,此時(shí)當(dāng)前環(huán)境無法達(dá)到我們的預(yù)期分詞效果
總結(jié)
通過上面我們的試驗(yàn),可以發(fā)現(xiàn)結(jié)合 IK
分詞器,使用自定義詞庫,可以滿足我們專業(yè)內(nèi)的詞語分詞,實(shí)現(xiàn)更好的分詞效果,再加上動(dòng)態(tài)詞庫的更新,對我們的工作還是很有必要的,配置過程是不是很簡單,下面就趕緊用起來吧。
以上就是Elasticsearch外部詞庫文件更新及使用的詳細(xì)內(nèi)容,更多關(guān)于Elasticsearch外部詞庫文件更新的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例
這篇文章主要為大家介紹了Eureka源碼閱讀解析Server服務(wù)端啟動(dòng)流程實(shí)例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-10-10java中判斷字段真實(shí)長度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)
下面小編就為大家?guī)硪黄猨ava中判斷字段真實(shí)長度的實(shí)例(中文2個(gè)字符,英文1個(gè)字符)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-01-01Java結(jié)構(gòu)型設(shè)計(jì)模式中代理模式示例詳解
代理模式(Proxy Parttern)為一個(gè)對象提供一個(gè)替身,來控制這個(gè)對象的訪問,即通過代理對象來訪問目標(biāo)對象。本文將通過示例詳細(xì)講解一下這個(gè)模式,需要的可以參考一下2022-09-09