java中文分詞之正向最大匹配法實例代碼
前言
基于詞典的正向最大匹配算法(最長詞優(yōu)先匹配),算法會根據(jù)詞典文件自動調(diào)整最大長度,分詞的好壞完全取決于詞典。
所謂詞典正向最大匹配就是將一段字符串進行分隔,其中分隔 的長度有限制,然后將分隔的子字符串與字典中的詞進行匹配,如果匹配成功則進行下一輪匹配,直到所有字符串處理完畢,否則將子字符串從末尾去除一個字,再進行匹配,如此反復(fù)。
算法流程圖如下:

下面給大家主要講一下中文分詞里面算法的簡單實現(xiàn),廢話不多說了,現(xiàn)在先上代碼
示例代碼
package com;
import java.util.ArrayList;
import java.util.List;
public class Segmentation1 {
private List<String> dictionary = new ArrayList<String>();
private String request = "北京大學生前來應(yīng)聘";
public void setDictionary() {
dictionary.add("北京");
dictionary.add("北京大學");
dictionary.add("大學");
dictionary.add("大學生");
dictionary.add("生前");
dictionary.add("前來");
dictionary.add("應(yīng)聘");
}
public String leftMax() {
String response = "";
String s = "";
for(int i=0; i<request.length(); i++) {
s += request.charAt(i);
if(isIn(s, dictionary) && aheadCount(s, dictionary)==1) {
response += (s + "/");
s = "";
} else if(aheadCount(s, dictionary) > 0) {
} else {
response += (s + "/");
s = "";
}
}
return response;
}
private boolean isIn(String s, List<String> list) {
for(int i=0; i<list.size(); i++) {
if(s.equals(list.get(i))) return true;
}
return false;
}
private int aheadCount(String s, List<String> list) {
int count = 0;
for(int i=0; i<list.size(); i++) {
if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++;
}
return count;
}
public static void main(String[] args) {
Segmentation1 seg = new Segmentation1();
seg.setDictionary();
String response1 = seg.leftMax();
System.out.println(response1);
}
}
可以看到運行結(jié)果是:北京大學/生前/來/應(yīng)聘/
算法的核心就是從前往后搜索,然后找到最長的字典分詞。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
基于java構(gòu)造方法Vector創(chuàng)建對象源碼分析
這篇文章主要介紹了java構(gòu)造函數(shù)中對Vector源碼及原理的分析,有需要的朋友可以借鑒參考下,希望可以有所幫助,祝大家早日升職加薪2021-09-09
mybatis Invalid bound statement(not foun
這篇文章主要介紹了mybatis Invalid bound statement(not found)排坑記錄,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-06-06
java循環(huán)刪除List元素報錯的原因分析與解決
大家在工作中應(yīng)該都會遇到從List集合中刪除某一個或多個元素的業(yè)務(wù)場景,相信大家都會避開在循環(huán)里面刪除元素,使用其他方式處理,這是為什么呢,下面小編就來和大家詳細聊聊2023-11-11
Activiti工作流學習筆記之自動生成28張數(shù)據(jù)庫表的底層原理解析
這篇文章主要介紹了Activiti工作流學習筆記之自動生成28張數(shù)據(jù)庫表的底層原理解析,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-03-03
一個applicationContext 加載錯誤導(dǎo)致的阻塞問題及解決方法
這篇文章主要介紹了一個applicationContext 加載錯誤導(dǎo)致的阻塞問題及解決方法,需要的朋友可以參考下2018-11-11
java 中Comparable與Comparator詳解與比較
這篇文章主要介紹了java 中Comparable與Comparator詳解與比較的相關(guān)資料,需要的朋友可以參考下2017-04-04
java實現(xiàn)字符串轉(zhuǎn)String數(shù)組的方法示例
這篇文章主要介紹了java實現(xiàn)字符串轉(zhuǎn)String數(shù)組的方法,涉及java字符串的遍歷、分割、轉(zhuǎn)換等相關(guān)操作技巧,需要的朋友可以參考下2017-10-10
解決Maven本地倉庫明明有對應(yīng)的jar包但還是報找不到的問題
這篇文章主要介紹了解決Maven本地倉庫明明有對應(yīng)的jar包但還是報找不到的問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-10-10

