欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用PostgreSQL數(shù)據(jù)庫進(jìn)行中文全文搜索的實(shí)現(xiàn)方法

 更新時(shí)間:2023年09月25日 10:33:41   作者:undefinedType  
目前在PostgreSQL中常見的兩個(gè)中文分詞插件是zhparser和pg_jieba,這里我們使用zhparser,插件的編譯和安裝請(qǐng)查看官方文檔 ,安裝還是比較復(fù)雜的,建議找個(gè)現(xiàn)成docker鏡像,本文給大家介紹了在PostgreSQL數(shù)據(jù)庫使用中文全文搜索,需要的朋友可以參考下

如何使用zhparser

安裝相應(yīng)插件

1 安裝 pg_trgm

用于執(zhí)行文本相似性和模糊搜索。它基于 trigram 算法,允許你在文本數(shù)據(jù)上執(zhí)行模糊匹配、相似性搜索和索引。命令如下

CREATE EXTENSION pg_trgm

2 安裝 zhparser

專門用于處理中文文本數(shù)據(jù)。它允許 PostgreSQL 在中文文本上執(zhí)行全文搜索,包括分詞、詞干提取、停用詞處理等操作,以便提高中文文本數(shù)據(jù)的搜索準(zhǔn)確性和性能。命令如下

CREATE EXTENSION zhparser

創(chuàng)建基于zhparser的搜索配置

CREATE TEXT SEARCH CONFIGURATION chinese_zh (PARSER = zhparser)

這個(gè)命令創(chuàng)建了一個(gè)名為 chinese_zh 的中文文本搜索配置。該配置使用了 zhparser 解析器,表明它將用于分析和處理中文文本數(shù)據(jù)。

ALTER TEXT SEARCH CONFIGURATION chinese_zh ADD MAPPING FOR n,v,a,i,e,l WITH simple

這個(gè)命令將指定的詞匯類別(n,v,a,i,e,l)與已存在的 simple 配置進(jìn)行映射。這意味著對(duì)于這些詞匯類別,將使用 simple 配置的規(guī)則來進(jìn)行文本分析和處理。

進(jìn)行搜索查詢

select ts_debug('chinese_zh', '春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');

執(zhí)行結(jié)果:

"(t,""time,時(shí)語素"",春秋,{},,)"
"(u,""auxiliary,助詞"",、,{},,)"
"(t,""time,時(shí)語素"",戰(zhàn)國,{},,)"
"(v,""verb,動(dòng)詞"",是,{simple},simple,{是})"
"(n,""noun,名詞"",中國,{simple},simple,{中國})"
"(n,""noun,名詞"",歷史,{simple},simple,{歷史})"
"(n,""noun,名詞"",上思,{simple},simple,{上思})"
"(v,""verb,動(dòng)詞"",想,{simple},simple,{想})"
"(v,""verb,動(dòng)詞"",迸發(fā),{simple},simple,{迸發(fā)})"
"(u,""auxiliary,助詞"",的,{},,)"
"(n,""noun,名詞"",時(shí)代,{simple},simple,{時(shí)代})"
"(u,""auxiliary,助詞"",,,{},,)"
"(v,""verb,動(dòng)詞"",出現(xiàn),{simple},simple,{出現(xiàn)})"
"(v,""verb,動(dòng)詞"",了,{simple},simple,{了})"
"(n,""noun,名詞"",百家爭(zhēng)鳴,{simple},simple,{百家爭(zhēng)鳴})"
"(u,""auxiliary,助詞"",的,{},,)"
"(n,""noun,名詞"",現(xiàn)象,{simple},simple,{現(xiàn)象})"
select to_tsvector('chinese_zh', '春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');

執(zhí)行結(jié)果:

"'上思':4 '中國':2 '了':9 '出現(xiàn)':8 '歷史':3 '想':5 '時(shí)代':7 '是':1 '現(xiàn)象':11 '百家爭(zhēng)鳴':10 '迸發(fā)':6"

可以看到春秋和戰(zhàn)國沒有出現(xiàn)在里面,這里我們把t,time,時(shí)語素的映射添加下

ALTER TEXT SEARCH CONFIGURATION chinese_zh ADD MAPPING FOR t WITH simple;

再執(zhí)行上面的語句就會(huì)得到下面的結(jié)果

"'上思':6 '中國':4 '了':11 '出現(xiàn)':10 '歷史':5 '想':7 '戰(zhàn)國':2 '時(shí)代':9 '春秋':1 '是':3 '現(xiàn)象':13 '百家爭(zhēng)鳴':12 '迸發(fā)':8"

可以看到春秋和戰(zhàn)國已經(jīng)出現(xiàn)在文本向量的結(jié)果中了。我們搜索下春秋看下

select to_tsquery('戰(zhàn)國') @@ to_tsvector('chinese_zh', '春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');

true

添加自定義詞典(txt)

select to_tsquery('二十四節(jié)谷') @@  to_tsvector('chinese_zh', '春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,在二十四節(jié)谷出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');
false

這里竟然沒有,仔細(xì)觀察上面對(duì)這個(gè)句子的向量化分析,破案了,沒有把‘二十四節(jié)谷’這個(gè)詞作為一個(gè)整體

'上思':6 '中國':4 '了':11 '出現(xiàn)':10 '歷史':5 '想':7

在以下位置創(chuàng)建客戶字典/usr/share/postgresql/14/tsearch_data/kkdict.utf8.txt:(必須在該目錄中)

#word TF  IDF ATTR
二十四節(jié)谷  1 1 n

然后修改/var/lib/postgresql/data/posrgresql.conf,在末尾添加以下行: zhparser.extra_dicts = 'kkdict.utf8.txt'

select ts_debug('chinese_zh', '春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,在二十四節(jié)谷出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');
(n,"noun,名詞",二十四節(jié)谷,{simple},simple,{二十四節(jié)谷})

可見現(xiàn)在已經(jīng)變成一個(gè)名詞了。

創(chuàng)建索引

這里使用to_tsvector函數(shù)方式,不單獨(dú)增加一列tsvector字段

create table testing(
  title text
  );
  insert into testing values('春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');
  insert into testing values('春秋、戰(zhàn)國是中國歷史上思想迸發(fā)的時(shí)代,在二十四節(jié)谷出現(xiàn)了百家爭(zhēng)鳴的現(xiàn)象');
create index ind_testing on testing using gin (to_tsvector('chinese_zh', title));

這樣就可以在查詢中使用中文檢索了,注意當(dāng)你數(shù)據(jù)量不夠的時(shí)候不會(huì)走索引,會(huì)直接便利。

select * from testing where to_tsquery('chinese_zh', '二十四節(jié)谷') @@ to_tsvector('chinese_zh', title);

總結(jié)

以上就是在PostgreSQL數(shù)據(jù)庫中使用中文全文搜索的實(shí)現(xiàn)方法的詳細(xì)內(nèi)容,更多關(guān)于PostgreSQL中文全文搜索的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

最新評(píng)論