java 中模式匹配算法-KMP算法實(shí)例詳解
java 中模式匹配算法-KMP算法實(shí)例詳解
樸素模式匹配算法的最大問(wèn)題就是太低效了。于是三位前輩發(fā)表了一種KMP算法,其中三個(gè)字母分別是這三個(gè)人名的首字母大寫(xiě)。
簡(jiǎn)單的說(shuō),KMP算法的對(duì)于主串的當(dāng)前位置不回溯。也就是說(shuō),如果主串某次比較時(shí),當(dāng)前下標(biāo)為i,i之前的字符和子串對(duì)應(yīng)的字符匹配,那么不要再像樸素算法那樣將主串的下標(biāo)回溯,比如主串為“abcababcabcabcabcabc”,子串為“abcabx”.第一次匹配的時(shí)候,主串1,2,3,4,5字符都和子串相應(yīng)的匹配,第6為‘c'與子串中的‘x'不匹配,說(shuō)明此時(shí)i=6,下次匹配的時(shí)候,就不用再像樸素那樣,將i置為2,再循環(huán)置為3,4,5去和子串匹配了。而是直接從i=6(以i=6為開(kāi)頭)開(kāi)始和子串去進(jìn)行匹配。
那么子串的下標(biāo)的變化呢,是不是每次要從第一位開(kāi)始去和主串匹配,實(shí)際上也不需要。還是上面的例子,第一次匹配后,子串的當(dāng)前位置(下標(biāo))為j=6,因?yàn)榍皟晌籥,b和主串的4,5位的a,b已經(jīng)比較完成,是匹配的,所以這兩位也無(wú)需比較,也就是從j=3開(kāi)始和主串匹配?,F(xiàn)在的問(wèn)題是,如何找到子串的下標(biāo)j的變化。
我們把子串各個(gè)位置的j值得變化定義為1個(gè)數(shù)組next,那么next的長(zhǎng)度就是T串的長(zhǎng)度。于是可以得到下面的函數(shù)定義:

上圖引用自《大話數(shù)據(jù)結(jié)構(gòu)》,關(guān)于更多的KMP算法的說(shuō)明,尤其是next[j]的推導(dǎo),讀者可以參考該書(shū),講解的非常的詳細(xì)。下面給出該算法的java實(shí)現(xiàn)。
在《大話數(shù)據(jù)結(jié)構(gòu)》,保存串的數(shù)組的首位,也就是0下標(biāo)位置保存的是字符串的長(zhǎng)度。但是上面的next[j]卻可取值為0,這點(diǎn)我沒(méi)有弄明白,如有哪位牛人能幫忙解釋?zhuān)f(wàn)分感謝。下面編寫(xiě)的代碼略有不同,在0下標(biāo)位置不再是保存字符串的長(zhǎng)度,而是保存字符串的首字符,也就是是與字符串對(duì)應(yīng)的。所以next[j]的計(jì)算函數(shù)也不太一樣,如下:

實(shí)現(xiàn)的代碼:
public class Pattern_KMP {
public static void main(String args[])
{
int times;
String source="abcabaabcabcabxxzhabaabcabcabxad";
String subStr="abcabx";
times=pattren_KMP(source, subStr);
System.out.println("匹配次數(shù):"+times);
}
static int pattren_KMP(String source,String subStr)
{
int len1,len2;
len1=source.length();
len2=subStr.length();
int i,j;
i=j=0;
int times=0;
while(i<len1)
{
if(source.charAt(i)==subStr.charAt(j))
{
i++;
j++;
}else
{
if(j==0)/*這一步很重要,如果沒(méi)有會(huì)進(jìn)入死循環(huán),也就是,如果主串某位與子串*/
i++;/*第一位不等的話,必須往后移位。*/
j=next(subStr,j);
}
if(j==len2)
{
times++;
j=0;
}
}
return times;
}
static int next(String subStr,int j)
{
if(j==0)
return 0;
else {
int next=0;
int k=1;
int m1;
int m2;
int i,n;
/*這一循環(huán)對(duì)應(yīng)實(shí)現(xiàn)上面函數(shù)的第二項(xiàng)*/
while(k<j)
{
String sub1="",sub2="";
for(m1=0,m2=j-k;m1<k&&m2<j;m1++,m2++)
{
sub1+=subStr.charAt(m1);
sub2+=subStr.charAt(m2);
}
for(i=0,n=0;i<sub1.length()&&n<sub2.length();i++,n++)
{
if(sub1.charAt(i)!=sub2.charAt(n))
break;
}
if(i==sub1.length()&&n==sub2.length())
next=k;
k++;
}
return next;
}
}
}
下面附上《大話數(shù)據(jù)結(jié)構(gòu)》中的KMP算法(c代碼)供對(duì)照參考(不是完整可執(zhí)行程序)
/* 通過(guò)計(jì)算返回子串T的next數(shù)組。 */
void get_next(String T, int *next)
{
int i,j;
i=1;
j=0;
next[1]=0;
while (i<T[0]) /* 此處T[0]表示串T的長(zhǎng)度 */
{
if(j==0 || T[i]== T[j]) /* T[i]表示后綴的單個(gè)字符,T[j]表示前綴的單個(gè)字符 */
{
++i;
++j;
next[i] = j;
}
else
j= next[j]; /* 若字符不相同,則j值回溯 */
}
}
/* 返回子串T在主串S中第pos個(gè)字符之后的位置。若不存在,則函數(shù)返回值為0。 */
/* T非空,1≤pos≤StrLength(S)。 */
int Index_KMP(String S, String T, int pos)
{
int i = pos; /* i用于主串S中當(dāng)前位置下標(biāo)值,若pos不為1,則從pos位置開(kāi)始匹配 */
int j = 1; /* j用于子串T中當(dāng)前位置下標(biāo)值 */
int next[255]; /* 定義一next數(shù)組 */
get_next(T, next); /* 對(duì)串T作分析,得到next數(shù)組 */
while (i <= S[0] && j <= T[0]) /* 若i小于S的長(zhǎng)度并且j小于T的長(zhǎng)度時(shí),循環(huán)繼續(xù) */
{
if (j==0 || S[i] == T[j]) /* 兩字母相等則繼續(xù),與樸素算法增加了j=0判斷 */
{
++i;
++j;
}
else /* 指針后退重新開(kāi)始匹配 */
j = next[j];/* j退回合適的位置,i值不變 */
}
if (j > T[0])
return i-T[0];
else
return 0;
}
感謝閱讀,希望能幫助到大家,謝謝大家對(duì)本站的支持!
相關(guān)文章
解決JDK8的ParallelStream遍歷無(wú)序的問(wèn)題
這篇文章主要介紹了解決JDK8的ParallelStream遍歷無(wú)序的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-07-07
java枚舉enum,根據(jù)value值獲取key鍵的操作
這篇文章主要介紹了java枚舉enum,根據(jù)value值獲取key鍵的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-02-02
淺談Java序列化和反序列化為何要實(shí)現(xiàn)Serializable接口
這篇文章主要介紹了淺談Java序列化和反序列化為何要實(shí)現(xiàn)Serializable接口,序列化最重要的作用是在傳遞和保存對(duì)象時(shí).保證對(duì)象的完整性和可傳遞性,對(duì)象轉(zhuǎn)換為有序字節(jié)流,以便在網(wǎng)絡(luò)上傳輸或者保存在本地文件中,需要的朋友可以參考下2023-12-12
Java日常練習(xí)題,每天進(jìn)步一點(diǎn)點(diǎn)(21)
下面小編就為大家?guī)?lái)一篇Java基礎(chǔ)的幾道練習(xí)題(分享)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧,希望可以幫到你2021-07-07
Springboot使用ResponseBody漢字返回問(wèn)號(hào)問(wèn)題
這篇文章主要介紹了Springboot使用ResponseBody漢字返回問(wèn)號(hào)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-06-06
Java中的ThreadLocal與ThreadLocalMap詳解
這篇文章主要介紹了Java中的ThreadLocal與ThreadLocalMap詳解,ThreadLocal 是一個(gè)線程局部變量,其實(shí)的功用非常簡(jiǎn)單,就是為每一個(gè)使用該變量的線程都提供一個(gè)變量值的副本,是Java中一種較為特殊的線程綁定機(jī)制,需要的朋友可以參考下2023-09-09

