欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

IKAnalyzer結(jié)合Lucene實現(xiàn)中文分詞(示例講解)

 更新時間:2017年10月13日 09:03:51   作者:funnyboy0128  
下面小編就為大家?guī)硪黄狪KAnalyzer結(jié)合Lucene實現(xiàn)中文分詞(示例講解)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧

1、基本介紹

隨著分詞在信息檢索領(lǐng)域應(yīng)用的越來越廣泛,分詞這門技術(shù)對大家并不陌生。對于英文分詞處理相對簡單,經(jīng)過拆分單詞、排斥停止詞、提取詞干的過程基本就能實現(xiàn)英文分詞,單對于中文分詞而言,由于語義的復(fù)雜導(dǎo)致分詞并沒英文分詞那么簡單,一般都是通過相關(guān)的分詞工具來實現(xiàn),目前比較常用的有庖丁分詞以及IKAnalyzer等。這里我們主要通過一個簡單的Demo聊聊IKAnalyzer的基本使用。IKAnalyzer是一個開源的,基于java開發(fā)的分詞工具包,它獨立于Lucene項目,同時提供了Lucene的默認(rèn)實現(xiàn)。

2、IKAnalyzer結(jié)合Lucene實現(xiàn)簡單的中文分詞

我們通過一個基本的Demo來實踐說明,步驟如下:

step1:準(zhǔn)備相關(guān)的Jar依賴,lucene-core-5.1.0.jar、ik.jar,然后新建項目,引入相關(guān)依賴項目結(jié)構(gòu)如下:

IkDemo-src
     -con.funnyboy.ik
-IKAnalyzer.cfg.xml
     -stopword.dic
-ext.dic
-Reference Libraries
     -lucene-core-5.1.0.jar
     -ik.jar

IKAnalyzer.cfg.xml:配置擴(kuò)展詞典以及停止詞典 內(nèi)容如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> 
<properties> <comment>IK Analyzer 擴(kuò)展配置</comment>
   <entry key="ext_dict">ext.dic;</entry>
   <entry key="ext_stopwords">stopword.dic;</entry>
</properties>

其中的ext.dic配置自己的擴(kuò)展字典,stopword.dic配置自己的擴(kuò)展停止詞字典

step2:通過java代碼驗證測試

public class MyIkTest {
  public static String str = "中國人民銀行我是中國人";
  public static void main(String[] args) { 
     MyIkTest test = new MyIkTest(); 
     test.wordCount("", str);
   }
   private void wordCount(String arg,String content) {
     Analyzer analyzer = new IKAnalyzer(true); // IK實現(xiàn)分詞 true:用最大詞長分詞 false:最細(xì)粒度切分 
    StringReader reader = null; 
    TokenStream ts = null; try { 
      reader = new StringReader(content); 
      ts = analyzer.tokenStream(arg,reader); 
      CharTermAttribute term = ts.addAttribute(CharTermAttribute.class); 
      ts.reset(); 
      Map<String, Integer> map = new HashMap<String, Integer>(); //統(tǒng)計 
      while (ts.incrementToken()) { 
        String str = term.toString(); 
        Object o = map.get(str); 
        if (o == null) { 
          map.put(str, new Integer(1)); 
         } else { 
          Integer i = new Integer(((Integer) o).intValue() + 1); 
           map.put(str, i); 
        } 
       } 
      List<Entry<String, Integer>> list = new ArrayList<Entry<String, Integer>>(map.entrySet()); 
      Collections.sort(list,new Comparator<Map.Entry<String, Integer>>() { 
        public int compare(Map.Entry<String, Integer> o1,Map.Entry<String, Integer> o2) { 
          return (o2.getValue() - o1.getValue()); 
        } });  
       for (int k=0;k<list.size();k++) { 
        Entry<String, Integer> it=list.get(k); 
        String word = it.getKey().toString(); 
        System.err.println(word+"["+it.getValue()+"]"); 
       }  
    } catch (Exception e) {
     } finally { 
      if(reader != null){ 
         reader.close(); 
      } 
      if (analyzer != null) { 
        analyzer.close(); 
      } 
     } 
   }
  }

執(zhí)行程序測試結(jié)果如下:

中國人民銀行[1]

中國人[1]

我[1]

3、配置說明

a、如何自定義配置擴(kuò)展詞典和停止詞典 IKAnalyzer.cfg.xml中定義了擴(kuò)展詞典和停止詞典,如果有多好個可以通過;配置多個。擴(kuò)展詞典是指用戶可以根據(jù)自己定義的詞義實現(xiàn)分詞,比如人名在默認(rèn)的詞典中并未實現(xiàn),需要自定義實現(xiàn)分詞,卡可以通過在ext.dic中新增自定義的詞語。停止詞是指對于分詞沒有實際意義但出現(xiàn)頻率很高的詞,比如嗎、乎等語氣詞,用戶也可以通過在stopword.dic中自定義相關(guān)的停止詞。

b、關(guān)于最大詞長分詞和最小粒度分詞的區(qū)分 在IKAnalyzer構(gòu)造方法中可以通過提供一個標(biāo)示來實現(xiàn)最大詞長分詞和最小粒度分詞,true為最大詞長分詞,默認(rèn)是最小粒度分詞。對"中國人民銀行我是中國人"分別測試結(jié)果如下:

最大詞長分詞結(jié)果如下:

中國人民銀行[1]

中國人[1]

我[1]

最小粒度分詞結(jié)果如下:

國人[2]
中國人[2]
中國[2]
人民[1]
中國人民銀行[1]
我[1]
人民銀行[1]
中國人民[1]
銀行[1]

以上這篇IKAnalyzer結(jié)合Lucene實現(xiàn)中文分詞(示例講解)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Java中常用的日期類圖文詳解

    Java中常用的日期類圖文詳解

    Java提供了Date類來處理日期、時間(此處的Date是指java.util包下的Date類,而不是java.sql包下的Date類),Date對象既包含日期,也包含時間,下面這篇文章主要給大家介紹了關(guān)于Java中常用的日期類的相關(guān)資料,需要的朋友可以參考下
    2022-11-11
  • java獲取昨天日期字符串的方法

    java獲取昨天日期字符串的方法

    這篇文章主要介紹了java獲取昨天日期字符串的方法,涉及java針對日期與時間的運算與轉(zhuǎn)換等相關(guān)操作技巧,需要的朋友可以參考下
    2016-08-08
  • 在Spring?MVC中使用@ControllerAdvice創(chuàng)建全局異常處理器的方法

    在Spring?MVC中使用@ControllerAdvice創(chuàng)建全局異常處理器的方法

    在Spring?MVC中,可以使用@ControllerAdvice或@RestControllerAdvice注解來定義全局異常處理器類,并使用?@ExceptionHandler注解來定義處理特定異常的方法,本文就給大家介紹了Spring?MVC?@ControllerAdvice創(chuàng)建處理器的方法,需要的朋友可以參考下
    2023-08-08
  • SpringCloud-Gateway網(wǎng)關(guān)的使用實例教程

    SpringCloud-Gateway網(wǎng)關(guān)的使用實例教程

    Gateway網(wǎng)關(guān)在微服務(wù)架構(gòu)中扮演了不可或缺的角色,通過集中化管理、智能路由和強(qiáng)大的過濾器機(jī)制,為構(gòu)建高效、可擴(kuò)展的微服務(wù)系統(tǒng)提供了有力支持,這篇文章主要介紹了SpringCloud-Gateway網(wǎng)關(guān)的使用,需要的朋友可以參考下
    2024-03-03
  • Java國密加密SM2代碼詳細(xì)使用步驟

    Java國密加密SM2代碼詳細(xì)使用步驟

    SM2算法可以用較少的計算能力提供比RSA算法更高的安全強(qiáng)度,而所需的密鑰長度卻遠(yuǎn)比RSA算法低,下面這篇文章主要給大家介紹了關(guān)于Java國密加密SM2代碼的相關(guān)資料,需要的朋友可以參考下
    2024-07-07
  • Java實現(xiàn)定時任務(wù)最簡單的3種方法

    Java實現(xiàn)定時任務(wù)最簡單的3種方法

    幾乎在所有的項目中,定時任務(wù)的使用都是不可或缺的,如果使用不當(dāng)甚至?xí)斐少Y損,下面這篇文章主要給大家介紹了關(guān)于Java實現(xiàn)定時任務(wù)最簡單的3種方法,本文通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-06-06
  • 初識Java一些常見的數(shù)據(jù)類型

    初識Java一些常見的數(shù)據(jù)類型

    這篇文章主要介紹Java一些常見的數(shù)據(jù)類型,Java是一種優(yōu)秀的程序設(shè)計語言,它具有令人賞心悅目的語法和易于理解的語義,下面文章小編就來簡單介紹為什么說Java是最好的語言并且介紹它的各種常見類型,需要的朋友可以參考一下
    2021-10-10
  • 編程語言榜單Java與Python并列第二!Julia下滑

    編程語言榜單Java與Python并列第二!Julia下滑

    日新月異的技術(shù)圈,隨著云、大數(shù)據(jù)、人工智能等主流技術(shù)的廣泛應(yīng)用,作為開發(fā)利器的編程語言的最新發(fā)展趨勢也在無形中發(fā)生了變化,本文主要介紹了java、Python、Julia等語言在Resmonk榜單的排名
    2021-08-08
  • 關(guān)于spring.factories失效原因分析及解決

    關(guān)于spring.factories失效原因分析及解決

    這篇文章主要介紹了關(guān)于spring.factories失效原因分析及解決,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-07-07
  • Java并發(fā)編程之同步容器與并發(fā)容器詳解

    Java并發(fā)編程之同步容器與并發(fā)容器詳解

    今天給大家?guī)淼奈恼率荍ava并發(fā)編程的相關(guān)知識,文中對java同步容器與并發(fā)容器做了非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下
    2021-06-06

最新評論