Solr通過特殊字符分詞實(shí)現(xiàn)自定義分詞器詳解
前言
我們?cè)趯?duì)英文句子分詞的時(shí)候,一般采用采用的分詞器是WhiteSpaceTokenizerFactory,有一次因業(yè)務(wù)要求,需要根據(jù)某一個(gè)特殊字符(以逗號(hào)分詞,以豎線分詞)分詞。感覺這種需求可能與WhiteSpaceTokenizerFactory相像,于是自己根據(jù)Solr源碼自定義了分詞策略。
業(yè)務(wù)場(chǎng)景
有一次,我拿到的數(shù)據(jù)都是以豎線“|”分隔,分詞的時(shí)候,需要以豎線為分詞單元。比如下面的這一堆數(shù)據(jù):
有可能你拿到的是這樣的數(shù)據(jù),典型的例子就是來自csv文件的數(shù)據(jù),格式和下面這種類似:
分詞思路
在Solr的schema.xml文件中,有這樣的配置
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType>
對(duì)于字段類型text_ws,指定了一個(gè)分詞器工廠WhitespaceTokenizerFactory,根據(jù)這個(gè)類,可以實(shí)現(xiàn)通過空格來分詞,那么我通過豎線分詞的代碼應(yīng)該與之類似。
修改源碼
在Java工程中引入如下jar包:
<dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-core</artifactId> <version>6.0.0</version> </dependency>
參照WhitespaceTokenizerFactory的源碼,寫一個(gè)自己的MyVerticalLineTokenizerFactory,內(nèi)容基本不變:
package com.trainning.project.custom; import java.util.Arrays; import java.util.Collection; import java.util.Map; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer; import org.apache.lucene.analysis.util.TokenizerFactory; import org.apache.lucene.util.AttributeFactory; /** * @author JiangChao * @date 2017年4月2日下午3:41:13 */ public class MyVerticalLineTokenizerFactory extends TokenizerFactory{ public static final String RULE_JAVA = "java"; public static final String RULE_UNICODE = "unicode"; private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE); private final String rule; /** Creates a new MyVerticalLineTokenizerFactory */ public MyVerticalLineTokenizerFactory(Map<String,String> args) { super(args); rule = get(args, "rule", RULE_NAMES, RULE_JAVA); if (!args.isEmpty()) { throw new IllegalArgumentException("Unknown parameters: " + args); } } @Override public Tokenizer create(AttributeFactory factory) { switch (rule) { case RULE_JAVA: return new MyVerticalLineTokenizer(factory); case RULE_UNICODE: return new UnicodeWhitespaceTokenizer(factory); default: throw new AssertionError(); } } }
具體做分詞的MyVerticalLineTokenizer代碼如下
package com.trainning.project.custom; import org.apache.lucene.analysis.util.CharTokenizer; import org.apache.lucene.util.AttributeFactory; /** * @author JiangChao * @date 2017年4月2日下午9:46:18 */ public class MyVerticalLineTokenizer extends CharTokenizer { public MyVerticalLineTokenizer() { } public MyVerticalLineTokenizer(AttributeFactory factory) { super(factory); } /** Collects only characters which do not satisfy * 參數(shù)c指的是term的ASCII值,豎線的值為 124 */ @Override protected boolean isTokenChar(int c) { return !(c == 124); } }
這里最主要的方法就是isTokenChar,它控制了分詞的字符,如果需要使用逗號(hào)分詞的話,字需要將這個(gè)方法修改成下面這樣:
/** Collects only characters which do not satisfy * 參數(shù)c指的是term的ASCII值,逗號(hào)的值為 44 */ @Override protected boolean isTokenChar(int c) { return !(c == 44); }
整合
代碼寫好了,怎么使用呢?首先,需要把剛才的java文件打成jar包。我使用的是Eclipse,直接選中兩個(gè)類文件,右鍵 -> Export -> JAR File -> Select the export destination: ->選擇輸出路徑,填一個(gè)jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大約3KB,將改文件放置到.\solr_home\lib下,在shcema.xml中定義自己的field
<fieldType name="vertical_text" class="solr.TextField"> <analyzer> <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/> </analyzer> </fieldType> <field name="custom" type="vertical_text" indexed="true" stored="false"/>
注意這里的class是剛才自己寫的分詞器的完整類名。
打開Solr主頁,在Analysis頁面測(cè)試一下,是否實(shí)現(xiàn)了預(yù)期?
源碼下載:
GitHub:下載地址
本地下載:鏈接地址
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
java簡(jiǎn)單實(shí)現(xiàn)八叉樹圖像處理代碼示例
這篇文章主要介紹了java簡(jiǎn)單實(shí)現(xiàn)八叉樹圖像處理代碼示例,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12關(guān)于Java中Object類的幾個(gè)方法示例
這篇文章主要給大家介紹了關(guān)于Java中Object類的幾個(gè)方法的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2018-05-05RocketMQ?ConsumeQueue與IndexFile實(shí)時(shí)更新機(jī)制源碼解析
這篇文章主要為大家介紹了RocketMQ?ConsumeQueue與IndexFile實(shí)時(shí)更新機(jī)制源碼解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-05-05Java?Socket實(shí)現(xiàn)文件發(fā)送和接收功能以及遇到的Bug問題
這篇文章主要介紹了Java?Socket實(shí)現(xiàn)文件發(fā)送和接收功能以及遇到的Bug問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-08-08SpringBoot讀取自定義配置文件方式(properties,yaml)
這篇文章主要介紹了SpringBoot讀取自定義配置文件方式(properties,yaml),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07基于令牌桶的限流器注解的簡(jiǎn)單實(shí)現(xiàn)詳解
令牌桶算法是一種常用的流量控制算法,用于限制請(qǐng)求或事件的發(fā)生速率,這篇文章主要介紹了如何基于令牌桶實(shí)現(xiàn)限流器注解,需要的可以參考一下2023-08-08使用c3p0連接數(shù)據(jù)庫實(shí)現(xiàn)增刪改查
這篇文章主要為大家詳細(xì)介紹了使用c3p0連接數(shù)據(jù)庫實(shí)現(xiàn)增刪改查,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-08-08