JAVA正則表達式提取key-value類型字符值代碼實例
背景
本人最近半年參與過兩個從字符文本中提取相關(guān)信息需求開發(fā),在開發(fā)過程中需要通過寫java正則去匹配截取字符,希望通過這篇文檔總結(jié)一些使用心得
先回顧一下基礎(chǔ)知識:
方括號表達式(用于確定取值范圍):
- [xyz] :字符集。匹配包含的任一字符。例如,"[abc]"匹配"plain"中的"a"。
- [^xyz] :反向字符集。匹配未包含的任何字符。例如,"[^abc]"匹配"plain"中"p","l","i","n"。
- [a-z] :字符范圍。匹配指定范圍內(nèi)的任何字符。例如,"[a-z]"匹配"a"到"z"范圍內(nèi)的任何小寫字母。
- [^a-z] :反向范圍字符。匹配不在指定的范圍內(nèi)的任何字符。例如,"[^a-z]"匹配任何不在"a"到"z"范圍內(nèi)的任何字符
- [a-zA-Z] : 表示是英文字母
- [0-9] : 表示是數(shù)字
預(yù)定義字符匹配符:
- . :匹配任意的字符
- \d :表示數(shù)字
- \D :表示非數(shù)字
- \s :表示由空字符組成,[ \t\n\r\x\f]
- \S :表示由非空字符組成,[^\s]
- \w :表示字母、數(shù)字、下劃線,[a-zA-Z0-9_]
- \W :表示不是由字母、數(shù)字、下劃線組成
- \s :匹配任何空白字符,包括空格、制表符、換頁符等
次數(shù)匹配符:
- ? : 表示出現(xiàn)0次或1次
- + : 表示出現(xiàn)1次或多次
- * : 表示出現(xiàn)0次、1次或多次
- {n}:表示出現(xiàn)n次
- {n,m}:表示出現(xiàn)n~m次
- {n,}:表示出現(xiàn)n次或n次以上
邊界匹配符:
- ^ :行的開頭
- $ :行的結(jié)尾
java.util.regex 包主要包括以下兩個個類:
Pattern 類:
- Pattern類用于創(chuàng)建一個正則表達式,也可以說創(chuàng)建一個匹配模式,它的構(gòu)造方法是私有的,不可以直接創(chuàng)建,但可以通過Pattern.complie(String regex)簡單工廠方法創(chuàng)建一個正則表達式,
- Pattern.complie(String regex)簡單工廠方法創(chuàng)建一個正則表達式
Matcher 類:
- Matcher 對象是對輸入字符串進行解釋和匹配操作的引擎,Pattern.matcher(CharSequence input)返回一個Matcher對象
- Matcher.find() //返回true or false 對字符串進行匹配,匹配到的字符串可以在任何位置.
- Matcher.group(int i) // 返回匹配到的子字符串,m.group(1)返回第一組匹配到的子字符串
代碼實例
如果要提取 字符串為 "本端IP=177.148.165.110 本端端口=60001" 我們要提取本端IP。key值之間以空格分割
public class Test{ public static void main( String[] args ){ // 按指定模式在字符串查找 \\s作為空白符 String line = "本端IP=177.148.165.110 本端端口=60001 "; String pattern = "本端IP=(.*?)(\\s)"; // 創(chuàng)建 Pattern 對象 Pattern r = Pattern.compile(pattern); // 現(xiàn)在創(chuàng)建 matcher 對象 Matcher m = r.matcher(line); if (m.find( )) { // 0 代表整個表達式。每出現(xiàn)一個左括號"("記做一個分組,分組編號從 1 開始。 // 返回第一組匹配到的子字符串 System.out.println("Found value: " + m.group(1) ); } else { System.out.println("NO MATCH"); } }}
1、分組
用小括號來指定子表達式(a)、(abc)、(bc)可以把多個字符當(dāng)一個單獨單元進行處理,本例中(.*?)創(chuàng)建了一個分組,代表本端IP的地址,
m.group(1) 返回匹配的輸入的第一個子序列。
2、惰性匹配和貪婪匹配
(.*?) 為惰性匹配,最小匹配。本例中會提取以“本端IP=”開頭,以空格結(jié)束的字符,會提取到 177.148.165.110
(.*)默認是貪婪匹配,最大匹配,它將會匹配最長的以“本端IP=”開始,以空格結(jié)束的字符,會提取到 177.148.165.110 本端端口=60001
3、分割符
假如是以“;”或者“,”分割鍵值對,我們可以把pattern 換成 "本端IP=(.*?)(;)" 和 "本端IP=(.*?)(,)";
如果要同時兼容 空格、“;”和“,”作為分隔符可以 pattern 換成 “本端端口=(.*?)(\\s|;|,)"
4、結(jié)束符
2 假如要提取字符串為:"本端端口=60001 本端IP=177.148.165.110" 我們要提取本端IP在字符串行尾,需要用“$”作為 結(jié)束符
public class Test{ public static void main( String[] args ){ // 按指定模式在字符串查找 $作為行末尾 String line = "本端端口=60001 本端IP=177.148.165.110"; String pattern = "本端IP=(.*?)($)"; // 創(chuàng)建 Pattern 對象 Pattern r = Pattern.compile(pattern); // 現(xiàn)在創(chuàng)建 matcher 對象 Matcher m = r.matcher(line); if (m.find( )) { // 0 代表整個表達式。每出現(xiàn)一個左括號"("記做一個分組,分組編號從 1 開始。 // 返回第一組匹配到的子字符串 System.out.println("Found value: " + m.group(1) ); } else { System.out.println("NO MATCH"); } }}
假如要同時兼容 "本端IP=177.148.165.110 本端端口=60001" 和 "本端端口=60001 本端IP=177.148.165.110" 這兩種位置 字符排列,pattern可以調(diào)整為:
String pattern = "本端IP=(.*?)(\\s|$)";
總結(jié)
到此這篇關(guān)于JAVA正則表達式提取key-value類型字符值的文章就介紹到這了,更多相關(guān)java提取key-value字符值內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
struts2的國際化實現(xiàn)網(wǎng)站整體中英文切換實例代碼
本篇文章主要介紹了struts2的國際化實現(xiàn)網(wǎng)站整體中英文切換實例代碼,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-10-10Java實現(xiàn)基于JDBC操作mysql數(shù)據(jù)庫的方法
這篇文章主要介紹了Java實現(xiàn)基于JDBC操作mysql數(shù)據(jù)庫的方法,結(jié)合實例形式分析了java使用JDBC實現(xiàn)針對mysql數(shù)據(jù)庫的連接、查詢、輸出等相關(guān)操作技巧,需要的朋友可以參考下2017-12-12