欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用Pinyin4j進(jìn)行拼音分詞的方法

 更新時(shí)間:2018年01月03日 14:14:13   作者:悠閑咖啡007  
下面小編就為大家分享一篇使用Pinyin4j進(jìn)行拼音分詞的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

使用maven引入相關(guān)的jar

<dependency>
 <groupId>com.belerweb</groupId>
 <artifactId>pinyin4j</artifactId>
 <version>2.5.1</version>
</dependency>

創(chuàng)建Pinyin4jUtil

package com.os.core.util.solr;
import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;
import java.util.ArrayList;
import java.util.Hashtable;
import java.util.List;
import java.util.Map;
/**
 * 漢語(yǔ)拼音工具類
 * Created by PengSongHe on 2017/2/9 0009.
 */
public class Pinyin4jUtil {
 public static void main(String[] args) {
  String str = "測(cè)試";
  String pinyin = Pinyin4jUtil.converterToSpell(str);
  System.out.println(str + " pin yin :" + pinyin);
  pinyin = Pinyin4jUtil.converterToFirstSpell(str);
  System.out.println(str + " short pin yin :" + pinyin);
 }
 /**
  * 漢字轉(zhuǎn)換位漢語(yǔ)拼音首字母,英文字符不變,特殊字符丟失 支持多音字,生成方式如(長(zhǎng)沙市長(zhǎng):cssc,zssz,zssc,cssz)
  *
  * @param chines 漢字
  * @return 拼音
  */
 public static String converterToFirstSpell(String chines) {
  StringBuffer pinyinName = new StringBuffer();
  char[] nameChar = chines.toCharArray();
  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);
  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
  for (int i = 0; i < nameChar.length; i++) {
   if (nameChar[i] > 128) {
    try {
     // 取得當(dāng)前漢字的所有全拼
     String[] strs = PinyinHelper.toHanyuPinyinStringArray(
       nameChar[i], defaultFormat);
     if (strs != null) {
      for (int j = 0; j < strs.length; j++) {
       // 取首字母
       pinyinName.append(strs[j].charAt(0));
       if (j != strs.length - 1) {
        pinyinName.append(",");
       }
      }
     }
     // else {
     // pinyinName.append(nameChar[i]);
     // }
    } catch (BadHanyuPinyinOutputFormatCombination e) {
     e.printStackTrace();
    }
   } else {
    pinyinName.append(nameChar[i]);
   }
   pinyinName.append(" ");
  }
  // return pinyinName.toString();
  return parseTheChineseByObject(discountTheChinese(pinyinName.toString()));
 }
 /**
  * 漢字轉(zhuǎn)換位漢語(yǔ)全拼,英文字符不變,特殊字符丟失
  * 支持多音字,生成方式如(重當(dāng)參:zhongdangcen,zhongdangcan,chongdangcen
  * ,chongdangshen,zhongdangshen,chongdangcan)
  *
  * @param chines 漢字
  * @return 拼音
  */
 public static String converterToSpell(String chines) {
  StringBuffer pinyinName = new StringBuffer();
  char[] nameChar = chines.toCharArray();
  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);
  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
  for (int i = 0; i < nameChar.length; i++) {
   if (nameChar[i] > 128) {
    try {
     // 取得當(dāng)前漢字的所有全拼
     String[] strs = PinyinHelper.toHanyuPinyinStringArray(
       nameChar[i], defaultFormat);
     if (strs != null) {
      for (int j = 0; j < strs.length; j++) {
       pinyinName.append(strs[j]);
       if (j != strs.length - 1) {
        pinyinName.append(",");
       }
      }
     }
    } catch (BadHanyuPinyinOutputFormatCombination e) {
     e.printStackTrace();
    }
   } else {
    pinyinName.append(nameChar[i]);
   }
   pinyinName.append(" ");
  }
  // return pinyinName.toString();
  return parseTheChineseByObject(discountTheChinese(pinyinName.toString()));
 }
 /**
  * 去除多音字重復(fù)數(shù)據(jù)
  *
  * @param theStr
  * @return
  */
 private static List<Map<String, Integer>> discountTheChinese(String theStr) {
  // 去除重復(fù)拼音后的拼音列表
  List<Map<String, Integer>> mapList = new ArrayList<Map<String, Integer>>();
  // 用于處理每個(gè)字的多音字,去掉重復(fù)
  Map<String, Integer> onlyOne = null;
  String[] firsts = theStr.split(" ");
  // 讀出每個(gè)漢字的拼音
  for (String str : firsts) {
   onlyOne = new Hashtable<String, Integer>();
   String[] china = str.split(",");
   // 多音字處理
   for (String s : china) {
    Integer count = onlyOne.get(s);
    if (count == null) {
     onlyOne.put(s, new Integer(1));
    } else {
     onlyOne.remove(s);
     count++;
     onlyOne.put(s, count);
    }
   }
   mapList.add(onlyOne);
  }
  return mapList;
 }
 /**
  * 解析并組合拼音,對(duì)象合并方案(推薦使用)
  *
  * @return
  */
 private static String parseTheChineseByObject(
   List<Map<String, Integer>> list) {
  Map<String, Integer> first = null; // 用于統(tǒng)計(jì)每一次,集合組合數(shù)據(jù)
  // 遍歷每一組集合
  for (int i = 0; i < list.size(); i++) {
   // 每一組集合與上一次組合的Map
   Map<String, Integer> temp = new Hashtable<String, Integer>();
   // 第一次循環(huán),first為空
   if (first != null) {
    // 取出上次組合與此次集合的字符,并保存
    for (String s : first.keySet()) {
     for (String s1 : list.get(i).keySet()) {
      String str = s + s1;
      temp.put(str, 1);
     }
    }
    // 清理上一次組合數(shù)據(jù)
    if (temp != null && temp.size() > 0) {
     first.clear();
    }
   } else {
    for (String s : list.get(i).keySet()) {
     String str = s;
     temp.put(str, 1);
    }
   }
   // 保存組合數(shù)據(jù)以便下次循環(huán)使用
   if (temp != null && temp.size() > 0) {
    first = temp;
   }
  }
  String returnStr = "";
  if (first != null) {
   // 遍歷取出組合字符串
   for (String str : first.keySet()) {
    returnStr += (str + ",");
   }
  }
  if (returnStr.length() > 0) {
   returnStr = returnStr.substring(0, returnStr.length() - 1);
  }
  return returnStr;
 }
}

以上這篇使用Pinyin4j進(jìn)行拼音分詞的方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • mybatis快速上手并運(yùn)行程序

    mybatis快速上手并運(yùn)行程序

    MyBatis 是一款優(yōu)秀的持久層框架,它支持自定義 SQL、存儲(chǔ)過(guò)程以及高級(jí)映射。MyBatis 免除了幾乎所有的 JDBC 代碼以及設(shè)置參數(shù)和獲取結(jié)果集的工作。MyBatis 可以通過(guò)簡(jiǎn)單的 XML 或注解來(lái)配置和映射原始類型、接口和 Java POJO為數(shù)據(jù)庫(kù)中的記錄
    2022-01-01
  • Java畢業(yè)設(shè)計(jì)實(shí)戰(zhàn)項(xiàng)目之寵物商城系統(tǒng)的實(shí)現(xiàn)流程

    Java畢業(yè)設(shè)計(jì)實(shí)戰(zhàn)項(xiàng)目之寵物商城系統(tǒng)的實(shí)現(xiàn)流程

    這是一個(gè)使用了java+Springboot+Maven+mybatis+Vue+mysql開(kāi)發(fā)的寵物商城系統(tǒng),是一個(gè)畢業(yè)設(shè)計(jì)的實(shí)戰(zhàn)練習(xí),具有寵物商城該有的所有功能,感興趣的朋友快來(lái)看看吧
    2022-01-01
  • Spring boot 集成Dubbox的方法示例

    Spring boot 集成Dubbox的方法示例

    本篇文章主要介紹了Spring boot 集成Dubbox的方法示例,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-05-05
  • Spring JPA整合QueryDSL的示例代碼

    Spring JPA整合QueryDSL的示例代碼

    這篇文章主要介紹了Spring JPA整合QueryDSL的示例代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-10-10
  • Java 泛型總結(jié)(三):通配符的使用

    Java 泛型總結(jié)(三):通配符的使用

    在泛型的使用中,還有個(gè)重要的東西叫通配符,本文介紹通配符的使用。具有很好的參考價(jià)值。下面跟著小編一起來(lái)看下吧
    2017-03-03
  • java如何更改數(shù)據(jù)庫(kù)中的數(shù)據(jù)

    java如何更改數(shù)據(jù)庫(kù)中的數(shù)據(jù)

    這篇文章主要介紹了java如何更改數(shù)據(jù)庫(kù)中的數(shù)據(jù),修改數(shù)據(jù)庫(kù)是數(shù)據(jù)庫(kù)操作必不可少的一部分,使用Statement接口中的excuteUpdate()方法可以修改數(shù)據(jù)表中的數(shù)據(jù),感興趣的朋友跟隨小編一起看看吧
    2021-11-11
  • Eclipse項(xiàng)目怎么導(dǎo)入IDEA并運(yùn)行(超詳細(xì))

    Eclipse項(xiàng)目怎么導(dǎo)入IDEA并運(yùn)行(超詳細(xì))

    這篇文章主要介紹了Eclipse項(xiàng)目怎么導(dǎo)入IDEA并運(yùn)行(超詳細(xì)),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • java使用PDFRenderer實(shí)現(xiàn)預(yù)覽PDF功能

    java使用PDFRenderer實(shí)現(xiàn)預(yù)覽PDF功能

    這篇文章主要為大家詳細(xì)介紹了java使用PDFRenderer實(shí)現(xiàn)預(yù)覽PDF功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-12-12
  • Java并發(fā)編程加鎖導(dǎo)致的活躍性問(wèn)題詳解方案

    Java并發(fā)編程加鎖導(dǎo)致的活躍性問(wèn)題詳解方案

    所謂并發(fā)編程是指在一臺(tái)處理器上"同時(shí)"處理多個(gè)任務(wù)。并發(fā)是在同一實(shí)體上的多個(gè)事件。多個(gè)事件在同一時(shí)間間隔發(fā)生,所以編寫正確的程序很難,而編寫正確的并發(fā)程序則難上加難
    2021-10-10
  • Java 如何從spring容器中獲取注入的bean對(duì)象

    Java 如何從spring容器中獲取注入的bean對(duì)象

    這篇文章主要介紹了Java 如何從spring容器中獲取注入的bean對(duì)象,幫助大家更好的理解和使用Java,感興趣的朋友可以了解下
    2020-11-11

最新評(píng)論