Java實(shí)現(xiàn)簡易的分詞器功能
業(yè)務(wù)需求:
生活中常見的搜索功能大概可分為以下幾類:
- 單關(guān)鍵詞。如“Notebook”
- 雙關(guān)鍵詞加空格。如“Super Notebook”
- 多關(guān)鍵詞加多空格。如“Intel Super Notebook”
當(dāng)然,還有四甚至五關(guān)鍵詞,這些搜索場景在生活中可以用罕見來形容,不在我們的討論范圍。我們今天就以上三種生活中最常見的搜索形式進(jìn)行探討分析。業(yè)務(wù)需求也很簡單,假設(shè)我們要完成一個搜索功能,業(yè)務(wù)層、持久層、控制層不在我們討論的范圍,僅討論分詞功能如何實(shí)現(xiàn)。
分析:
假設(shè)用戶鍵入的搜索內(nèi)容為以下內(nèi)容:
Intel Super Notebook
我們可以利用Java中String強(qiáng)大而豐富的方法來慢慢拼湊一個小算法來達(dá)到目的。String中大多數(shù)方法的參數(shù)和返回值都與下標(biāo)相關(guān),那么,分析上述語句的下標(biāo),我們可發(fā)現(xiàn)如下內(nèi)容:
上述內(nèi)容紅色是我們分詞的關(guān)鍵內(nèi)容。對于一個語句而言(不是語言學(xué)上通俗的語句,因?yàn)樵摼錄]有主謂賓),重要的就是各單詞或詞組的首字母下標(biāo)與該單詞或詞組后面最近一個空格。我們發(fā)現(xiàn),Intel
這個單詞首字母下標(biāo)為0,距離該單詞后面最近的一個空格下標(biāo)為5;Super
首字母下標(biāo)為距離該單詞前面最近的一個空格的下標(biāo)加1,也就是6;Notebook
首字母下標(biāo)為距離該單詞前面最近的一個空格的下標(biāo)加1,也就是12;最后就是該語句的尾下標(biāo),也就是19。
當(dāng)然,實(shí)際情況會有用戶多輸入了兩個甚至三個空格在某兩個單詞之間,例如如下形式:
Intel Super Notebook
(注意這里的空格為每個單詞之間為2個)
這個問題很容易解決,我們把兩個或三個空格替換為一個空格即可(為什么不是四個或者更多?因?yàn)楝F(xiàn)實(shí)情況是用戶不太可能在各個單詞之間連按多個空格),如下:
sentence = sentence.replace(" ", " "); sentence = sentence.replace(" ", " ");
這樣以來語句中就只存在單個空格了。
經(jīng)過分析我們得知,若想對一個語句進(jìn)行分詞,就必須知道各個單詞的起始下標(biāo)才行。起始下標(biāo)可以由空格的下標(biāo)得知,那我們該如何得知空格的下標(biāo)?
很簡單,我們寫個方法,通過迭代語句的每個單詞,判斷其是否存在空格即可。方法如下:
private int firstPosition(){ int first = 0; for(int i = 0; i < sentence.length(); i++){ if(String.valueOf(sentence.charAt(i)).equals(" ")){ first = i; return first; } } return first; }
這個方法的作用是判斷一個語句中第一個空格的位置。既然有第一個了,肯定要有第二個了。要注意第一個內(nèi)容是從0開始進(jìn)行迭代,而第二個空格的判斷方法要從第一個空格的位置加1開始,否則迭代的剛好還是第一個空格的位置。內(nèi)容如下:
private int secondPosition(){ int second = 0; for(int i = (firstPosition() + 1); i < sentence.length(); i++){ if(String.valueOf(sentence.charAt(i)).equals(" ")){ second = i; return second; } } return second; }
第三個為什么不迭代?因?yàn)榈谌齻€單詞之后就沒有空格了,就到結(jié)尾了。
找出每個空格的下標(biāo)索引后,我們還需知道語句中含有多少個空格,是沒有,還是1個或2個(連續(xù)的重復(fù)空格在上文已經(jīng)被替換為單個空格了)。方法如下:
private int countBlank(String s){ // Store single blank signal. int amount = 0; // If s contains single blank signal, and it will increse amount's value of 1 every loop times. for(int i = 0; i < s.length(); i++){ if(String.valueOf(sentence.charAt(i)).equals(" ")){ amount++; } } return amount; }
拿到了空格的總個數(shù)及每個空格的下標(biāo),我們就可以寫個方法進(jìn)行分割了。由于我是采用了泛型集合作為數(shù)據(jù)源,這里的方法返回類型就為void。
我們先假設(shè)輸入的僅有以下內(nèi)容:
Intel
輸入的僅有一個詞組。我們先判斷其空格的個數(shù),發(fā)現(xiàn)為0,那么也不用進(jìn)行什么操作了,直接添加其作為集合的數(shù)據(jù)。
public void divide(){ // Record every single blank signal's position. int position1 = firstPosition(); int position2 = secondPosition(); if(sentence.contains(" ")){ } else{ words.add(sentence); } }
現(xiàn)在情況變?yōu)檩斎氲膬?nèi)容如下:
Intel Super
我們知道了這個語句共有一個空格,下標(biāo)為5,長度為11,那可以這樣判斷:是否包含空格,如果是,那就判斷其空格數(shù)是否大于等于0,如果為真,就添加到數(shù)據(jù)源。接著判斷其空格數(shù)是否大于等于1,如果真,進(jìn)入下一層判斷其空格數(shù)是否大于等于1其小于2,如果真,就添加到數(shù)據(jù)源。內(nèi)容如下:
public void divide(){ // Record every single blank signal's position. int position1 = firstPosition(); int position2 = secondPosition(); if(sentence.contains(" ")){ int blankAmount = countBlank(sentence); if (blankAmount >= 0) { words.add(sentence.substring(0, position1)); if (blankAmount >= 1) { if(blankAmount >= 1 && blankAmount < 2))); words.add(sentence.substring(position1, sentence.length())); } else { } } } } else{ words.add(sentence); } }
下面就是較為全面的情況了:
Intel Super Notebook
我們判斷完兩個情況就看第三個情況。第三個單詞其獲取是通過第二個空格下標(biāo)與語句長度得來。但第二個單詞就要改為第一個空格下標(biāo)加1與第二個空格下標(biāo)加1了。那么至此分割方法也就完成了:
public String divide(){ // Record every single blank signal's position. int position1 = firstPosition(); int position2 = secondPosition(); if(sentence.contains(" ")){ int blankAmount = countBlank(sentence); if (blankAmount >= 0) { words.add(sentence.substring(0, position1)); if (blankAmount >= 1) { if(blankAmount >= 1 && blankAmount < 2){ words.add(sentence.substring(position1, sentence.length())); } else { words.add(sentence.substring(position1, position2)); if (blankAmount >= 2) { words.add(sentence.substring(position2, sentence.length())); } } } } } else{ words.add(sentence); } }
測試:
Intel Super Notebook
SIZE:3
POSITION(0): Intel
POSITION(1): Super
POSITION(2): Notebook
Intel Super Notebook
(注這里有重復(fù)且連續(xù)的空格)
SIZE:3
POSITION(0): Intel
POSITION(1): Super
POSITION(2): Notebook
英特爾 超級 筆記本
SIZE:3
POSITION(0): 英特爾
POSITION(1): 超級
POSITION(2): 筆記本
華為
SIZE:1
POSITION(0): 華為
完整代碼:
class DivideWord{ private String sentence; private List<String> words = new ArrayList<String>(); public DivideWord(String sentence) { // Replace two or three blank signal that connected into single blank signal. sentence = sentence.replace(" ", " "); sentence = sentence.replace(" ", " "); this.sentence = sentence; } private int countBlank(String s){ // Store single blank signal. int amount = 0; // If s contains single blank signal, and it will increse amount's value of 1 every loop times. for(int i = 0; i < s.length(); i++){ if(String.valueOf(sentence.charAt(i)).equals(" ")){ amount++; } } return amount; } private int firstPosition(){ int first = 0; for(int i = 0; i < sentence.length(); i++){ if(String.valueOf(sentence.charAt(i)).equals(" ")){ first = i; return first; } } return first; } private int secondPosition(){ int second = 0; for(int i = (firstPosition() + 1); i < sentence.length(); i++){ if(String.valueOf(sentence.charAt(i)).equals(" ")){ second = i; return second; } } return second; } public String divide(){ // Record every single blank signal's position. int position1 = firstPosition(); int position2 = secondPosition(); if(sentence.contains(" ")){ int blankAmount = countBlank(sentence); if (blankAmount >= 0) { words.add(sentence.substring(0, position1)); if (blankAmount >= 1) { if(blankAmount >= 1 && blankAmount < 2){ words.add(sentence.substring(position1, sentence.length())); } else { words.add(sentence.substring(position1, position2)); if (blankAmount >= 2) { words.add(sentence.substring(position2, sentence.length())); } } } } } else{ words.add(sentence); } } public int getSize(){ return words.size(); } public String getWord(int position){ return words.get(position); } } public class DateGet { public static void main(String[] args){ DivideWord divideWord = new DivideWord("英特爾"); divideWord.divide(); System.out.println("SIZE:" + divideWord.getSize()); System.out.println("POSITION :" + divideWord.getWord(0)); } }
到此這篇關(guān)于Java實(shí)現(xiàn)簡易的分詞器功能的文章就介紹到這了,更多相關(guān)Java分詞器功能內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
AsyncHttpClient的ConnectionSemaphore方法源碼流程解讀
這篇文章主要為大家介紹了AsyncHttpClient的ConnectionSemaphore方法源碼流程解讀,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-12-12java實(shí)現(xiàn)一個簡單的Web服務(wù)器實(shí)例解析
這篇文章主要介紹了java實(shí)現(xiàn)一個簡單的Web服務(wù)器實(shí)例解析,分享了相關(guān)代碼示例,小編覺得還是挺不錯的,具有一定借鑒價值,需要的朋友可以參考下2018-02-02Spring事務(wù)aftercommit原理及實(shí)踐
這篇文章主要為大家介紹了Spring事務(wù)aftercommit原理及實(shí)踐,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-09-09全排列算法-遞歸與字典序的實(shí)現(xiàn)方法(Java)
下面小編就為大家?guī)硪黄帕兴惴?遞歸與字典序的實(shí)現(xiàn)方法(Java) 。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-04-04