Java正則表達式的實例操作指南

更新時間：2020年09月15日 10:33:51 作者：回憶中的明天

這篇文章主要給大家介紹了關于Java正則表達式的實例操作指南，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

前言

Regular Expression正則表達式，簡稱RegExp，常規(guī)通用的表達式，在多個開發(fā)語言中都有它的實現，可以通過正則表達式來快速的檢索、匹配、查找、替換字符串中的文本。

簡單實例

匹配網址

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
 public static void main(String[] args) {
 String input = "https://ichochy.com";
 //正則表達式，(.+)代表一個或多個字符
 String regex = "https://.+.com";
 Boolean flag = Pattern.matches(regex,input);
 System.out.println(flag); //全文匹配返回：true
 }
}

Matches 方法

Matcher.matches方法，為整塊全匹配，字符串完全匹配返回true。

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
 public static void main(String[] args) {
 String input = "https://ichochy.com";
 //正則表達式，(.+)代表一個或多個字符
 String regex = "https://.+.com";
 Pattern pattern = Pattern.compile(regex);//編譯表達式
 Matcher matcher = pattern.matcher(input);//匹配表達式
 System.out.println(matcher.matches());//全文匹配返回：true
 }
}

Find 方法

Matcher.find方法，為查找模式匹配，匹配到就返回true。

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
 public static void main(String[] args) {
 String input = "我的網站是：https://ichochy.com，你知道嗎？";
 //正則表達式，(.+)代表一個或多個字符
 String regex = "https://.+.com";
 Pattern pattern = Pattern.compile(regex);//編譯表達式
 Matcher matcher = pattern.matcher(input);//匹配表達式
 System.out.println(matcher.find());//查找匹配返回：true
 System.out.println(matcher.matches());//全文匹配返回：false
 System.out.println(matcher.find());//再次查找匹配返回：false
 matcher.reset();//重置匹配器
 System.out.println(matcher.find());//重置查找返回：true
 }
}

find方法多次調用，出現結果不相同的問題：

This method starts at the beginning of this matcher's region, or, if a previous invocation of the method was successful and the matcher has not since been reset, at the first character not matched by the previous match.

Matcher.find方法第一次查找匹配成功后，如果Matcher沒有重置(Matcher.reset())，則從上一次匹配成功位置的后面開始查找，所以會出現，再次匹配不成功，返回false。

Group 分組

正則表達式通過括號分組進行匹配，matcher.group(int group)：通過組序號獲取匹配信息

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
 public static void main(String[] args) {
 String input = "我的網站是：https://ichochy.com，你知道嗎？";
 String regex = "(https://)(.+)(.com)";//分組表達式
 Pattern pattern = Pattern.compile(regex);
 Matcher matcher = pattern.matcher(input);
 if(matcher.find()){//查找匹配成功
 //匹配的信息：https://ichochy.com
 System.out.println(matcher.group().toString());
 //groupCount 組數
 for (int i = 0; i < matcher.groupCount(); i++) {
 //每組匹配的信息，注意：序號是從 1 開始
 System.out.println(matcher.group(i+1));
 }
 }

 }
}

正則表達式規(guī)則

字符

構造	匹配
x	字符 x
\	反斜線字符
\0n	帶有八進制值 0 的字符 n (0 <= n <= 7)
\0nn	帶有八進制值 0 的字符 nn (0 <= n <= 7)
\0mnn	帶有八進制值 0 的字符 mnn（0 <= m <= 3、0 <= n <= 7）
\xhh	帶有十六進制值 0x 的字符 hh
\uhhhh	帶有十六進制值 0x 的字符 hhhh
\t	制表符('\u0009')
\n	新行（換行）符 ('\u000A')
\r	回車符 ('\u000D')
\f	換頁符 ('\u000C')
\a	報警 (bell) 符 ('\u0007')
\e	轉義符 ('\u001B')
\cx	對應于 x 的控制符

字符類

構造	匹配
[abc]	a、b 或 c（簡單類）
[^abc]	任何字符，除了 a、b 或 c（否定）
[a-zA-Z]	a 到 z 或 A 到 Z，兩頭的字母包括在內（范圍）
[a-d[m-p]]	a 到 d 或 m 到 p：[a-dm-p]（并集）
[a-z&&[def]]	d、e 或 f（交集）
[a-z&&[^bc]]	a 到 z，除了 b 和 c：[ad-z]（減去）
[a-z&&[^m-p]]	a 到 z，而非 m 到 p：[a-lq-z]（減去）

預定義字符類

構造	匹配
.	任何字符（與行結束符可能匹配也可能不匹配）
\d	數字：[0-9]
\D	非數字： [^0-9]
\s	空白字符：[ \t\n\x0B\f\r]
\S	非空白字符：[^\s]
\w	單詞字符：[a-zA-Z_0-9]
\W	非單詞字符：[^\w]

POSIX 字符類（僅 US-ASCII）

構造	匹配
\p{Lower}	小寫字母字符：[a-z]
\p{Upper}	大寫字母字符：[A-Z]
\p{ASCII}	所有 ASCII：[\x00-\x7F]
\p{Alpha}	字母字符：[\p{Lower}\p{Upper}]
\p{Digit}	十進制數字：[0-9]
\p{Alnum}	字母數字字符：[\p{Alpha}\p{Digit}]
\p{Punct}	標點符號：!"#$%&'()*+,-./:;<=>?@[]^_`{\|}~\|
\p{Graph}	可見字符：[\p{Alnum}\p{Punct}]
\p{Print}	可打印字符：[\p{Graph}\x20]
\p{Blank}	空格或制表符：[ \t]
\p{Cntrl}	控制字符：[\x00-\x1F\x7F]
\p{XDigit}	十六進制數字：[0-9a-fA-F]
\p{Space}	空白字符：[ \t\n\x0B\f\r]

java.lang.Character 類（簡單的 java 字符類型）

構造	匹配
\p{javaLowerCase}	等效于 java.lang.Character.isLowerCase()
\p{javaUpperCase}	等效于 java.lang.Character.isUpperCase()
\p{javaWhitespace}	等效于 java.lang.Character.isWhitespace()
\p{javaMirrored}	等效于 java.lang.Character.isMirrored()

Unicode 塊和類別的類

構造	匹配
\p{InGreek}	Greek 塊（簡單塊）中的字符
\p{Lu}	大寫字母（簡單類別）
\p{Sc}	貨幣符號
\P{InGreek}	所有字符，Greek 塊中的除外（否定）
[\p{L}&&[^\p{Lu}]]	所有字母，大寫字母除外（減去）

邊界匹配器

構造	匹配
^	行的開頭
$	行的結尾
\b	單詞邊界
\B	非單詞邊界
\A	輸入的開頭
\G	上一個匹配的結尾
\Z	輸入的結尾，僅用于最后的結束符（如果有的話）
\z	輸入的結尾

Greedy 數量詞

構造	匹配
X?	X，一次或一次也沒有
X*	X，零次或多次
X+	X，一次或多次
X{n}	X，恰好 n 次
X{n,}	X，至少 n 次
X{n,m}	X，至少 n 次，但是不超過 m 次

Reluctant 數量詞

構造	匹配
X??	X，一次或一次也沒有
X*?	X，零次或多次
X+?	X，一次或多次
X{n}?	X，恰好 n 次
X{n,}?	X，至少 n 次
X{n,m}?	X，至少 n 次，但是不超過 m 次

Possessive 數量詞

構造	匹配
X?+	X，一次或一次也沒有
X*+	X，零次或多次
X++	X，一次或多次
X{n}+	X，恰好 n 次
X{n,}+	X，至少 n 次
X{n,m}+	X，至少 n 次，但是不超過 m 次

Logical 運算符

構造	匹配
XY	X 后跟 Y
X	Y
(X)	X，作為捕獲組

Back 引用

構造	匹配
\n	任何匹配的 nth 捕獲組

引用

構造	匹配
\	Nothing，但是引用以下字符
\Q	Nothing，但是引用所有字符，直到 \E
\E	Nothing，但是結束從 \Q 開始的引用

特殊構造（非捕獲）

構造	匹配
(?:X)	X，作為非捕獲組
(?idmsux-idmsux)	Nothing，但是將匹配標志i d m s u x on - off
(?idmsux-idmsux:X)	X，作為帶有給定標志 i d m s u x on - off
(?=X)	X，通過零寬度的正 lookahead
(?!X)	X，通過零寬度的負 lookahead
(?<=X)	X，通過零寬度的正 lookbehind
(?<!X)	X，通過零寬度的負 lookbehind
(?>X)	X，作為獨立的非捕獲組