Solr通過特殊字符分詞實現(xiàn)自定義分詞器詳解

更新時間：2017年09月01日 09:53:48 作者：隨-憶

最近因為工作的需要，要做一個分詞器，通過查找相關(guān)的資料最終用solr實現(xiàn)了，下面這篇文章主要給大家介紹了關(guān)于Solr通過特殊字符分詞實現(xiàn)自定義分詞器的相關(guān)資料，需要的朋友可以參考借鑒，下面隨著小編來一起看看吧。

前言

我們在對英文句子分詞的時候，一般采用采用的分詞器是WhiteSpaceTokenizerFactory，有一次因業(yè)務要求，需要根據(jù)某一個特殊字符（以逗號分詞，以豎線分詞）分詞。感覺這種需求可能與WhiteSpaceTokenizerFactory相像，于是自己根據(jù)Solr源碼自定義了分詞策略。

業(yè)務場景

有一次，我拿到的數(shù)據(jù)都是以豎線“|”分隔，分詞的時候，需要以豎線為分詞單元。比如下面的這一堆數(shù)據(jù)：

有可能你拿到的是這樣的數(shù)據(jù)，典型的例子就是來自csv文件的數(shù)據(jù)，格式和下面這種類似：

分詞思路

在Solr的schema.xml文件中，有這樣的配置

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
 <analyzer>
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
 </analyzer>
</fieldType>

對于字段類型text_ws，指定了一個分詞器工廠WhitespaceTokenizerFactory，根據(jù)這個類，可以實現(xiàn)通過空格來分詞，那么我通過豎線分詞的代碼應該與之類似。

修改源碼

在Java工程中引入如下jar包：

<dependency>
  <groupId>org.apache.solr</groupId>
  <artifactId>solr-core</artifactId>
  <version>6.0.0</version>
</dependency>

參照WhitespaceTokenizerFactory的源碼，寫一個自己的MyVerticalLineTokenizerFactory，內(nèi)容基本不變：

package com.trainning.project.custom;

import java.util.Arrays;
import java.util.Collection;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
 public static final String RULE_JAVA = "java";
 public static final String RULE_UNICODE = "unicode";
 private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);

 private final String rule;

 /** Creates a new MyVerticalLineTokenizerFactory */
 public MyVerticalLineTokenizerFactory(Map<String,String> args) {
  super(args);

  rule = get(args, "rule", RULE_NAMES, RULE_JAVA);

  if (!args.isEmpty()) {
  throw new IllegalArgumentException("Unknown parameters: " + args);
  }
 }

 @Override
 public Tokenizer create(AttributeFactory factory) {
  switch (rule) {
  case RULE_JAVA:
   return new MyVerticalLineTokenizer(factory);
  case RULE_UNICODE:
   return new UnicodeWhitespaceTokenizer(factory);
  default:
   throw new AssertionError();
  }
 }
}

具體做分詞的MyVerticalLineTokenizer代碼如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {

 public MyVerticalLineTokenizer() {

 }
 public MyVerticalLineTokenizer(AttributeFactory factory) {
  super(factory);
  }

  /** Collects only characters which do not satisfy
  * 參數(shù)c指的是term的ASCII值，豎線的值為 124
  */
  @Override
  protected boolean isTokenChar(int c) {
  return !(c == 124);
  }
}

這里最主要的方法就是isTokenChar，它控制了分詞的字符，如果需要使用逗號分詞的話，字需要將這個方法修改成下面這樣：

 /** Collects only characters which do not satisfy
  * 參數(shù)c指的是term的ASCII值，逗號的值為 44
  */
  @Override
  protected boolean isTokenChar(int c) {
  return !(c == 44);
  }

整合

代碼寫好了，怎么使用呢？首先，需要把剛才的java文件打成jar包。我使用的是Eclipse，直接選中兩個類文件，右鍵 -> Export -> JAR File -> Select the export destination: ->選擇輸出路徑，填一個jar名字：MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大約3KB，將改文件放置到.\solr_home\lib下，在shcema.xml中定義自己的field

<fieldType name="vertical_text" class="solr.TextField">
 <analyzer>
  <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
 </analyzer>
 </fieldType>
 <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意這里的class是剛才自己寫的分詞器的完整類名。

打開Solr主頁，在Analysis頁面測試一下，是否實現(xiàn)了預期？

源碼下載：

GitHub：下載地址

本地下載：鏈接地址

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學習或者工作能帶來一定的幫助，如果有疑問大家可以留言交流，謝謝大家對腳本之家的支持。

您可能感興趣的文章: