腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開(kāi)發(fā)工具 python Photoshop 必備軟件

Hive中常用正則表達(dá)式的運(yùn)用小結(jié)

更新時(shí)間：2022年08月02日 09:33:05 作者：每天一個(gè)摸魚(yú)技巧

在實(shí)際的應(yīng)用中，通常需要在一些復(fù)雜的、沒(méi)有規(guī)律的字符串中提取數(shù)據(jù)，這時(shí)候就需要用到正則表達(dá)式了，這次講一下hive的正則表達(dá)式，感興趣的朋友跟隨小編一起看看吧

在實(shí)際的應(yīng)用中，通常需要在一些復(fù)雜的、沒(méi)有規(guī)律的字符串中提取數(shù)據(jù)，這時(shí)候就需要用到正則表達(dá)式了，這次講一下hive的正則表達(dá)式。

like

語(yǔ)法:A like B

說(shuō)明：如果字符串A符合表達(dá)式B的正則語(yǔ)法，則為true，否則為flase。B中字符"_"表示任意單個(gè)字符，而字符"%"表示任意數(shù)量的字符。

例子：select 'AA123' like 'AA%';

結(jié)果：true

例子：select 'AAbbbbcccc' like '_A%';

結(jié)果：true

rlike

語(yǔ)法:A rlike B

說(shuō)明：如果字符串A符合JAVA正則表達(dá)式B的正則語(yǔ)法，則為T(mén)RUE，否則為FALSE。

例子：select 'AAbbbbcccc' rlike 'AA';

結(jié)果：true

regexp

語(yǔ)法: A REGEXP B

說(shuō)明：用法和rike一樣

例子：select 'AAbbbbcccc' regexp 'AA';

結(jié)果：true

regexp_replace

語(yǔ)法: regexp_replace(string A, string B, string C)

說(shuō)明:將字符串A中的符合java正則表達(dá)式B的部分替換為C

例子：select regexp_replace('AA123bbcccc' ,'123','o');

結(jié)果：AAobbcccc

regexp_extract

語(yǔ)法: regexp_extract(string A, string pattern, int index)

說(shuō)明：將字符串A按照pattern正則表達(dá)式的規(guī)則拆分，返回index指定的字符，index從1開(kāi)始計(jì)。

0是顯示與之匹配的整個(gè)字符串
1 是顯示第一個(gè)括號(hào)里面的
2 是顯示第二個(gè)括號(hào)里面的字段
3,4,5.....依次類(lèi)推

例子：select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',0);

結(jié)果：AA123bbcccc

例子：select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',2);

結(jié)果：bbcccc

基礎(chǔ)語(yǔ)法 "^([]{})([]{})([]{})$"

正則字符串 = "開(kāi)始（[包含內(nèi)容]{長(zhǎng)度}）（[包含內(nèi)容]{長(zhǎng)度}）（[包含內(nèi)容]{長(zhǎng)度}）結(jié)束"

常用元字符的使用：

元字符	描述
\	轉(zhuǎn)義字符。例如，“\n”代表?yè)Q行符，如果想表示"\n"這個(gè)字符串，需要使用"\\n"來(lái)表示，也就是說(shuō)"\\"代表字符"\"
^	匹配輸入字行首。"^a"代表以a開(kāi)頭的任意字符串
$	匹配輸入行尾。"a$"代表以a結(jié)尾的任意字符串
*	匹配前面的子表達(dá)式0次或多次。例如，ab*能匹配a，ab，abb，abbbb等等，等價(jià)于{0,}
+	匹配前面的子表達(dá)式一次或多次(大于等于1次）。例如，“ab+”能匹配ab，abb，abbbb等等。等價(jià)于{1,}
?	匹配前面的子表達(dá)式零次或一次。例如，“ab?”可以匹配ab，abb，等價(jià)于{0,1}。當(dāng)該字符緊跟在任何一個(gè)其他限制符（*,+,?，{n}，{n,}，{n,m}）后面時(shí)，匹配模式是非貪婪的。非貪婪模式盡可能少地匹配所搜索的字符串，而默認(rèn)的貪婪模式則盡可能多地匹配所搜索的字符串。例如，對(duì)于字符串“oooo”，“o+”將盡可能多地匹配“o”，得到結(jié)果[“oooo”]，而“o+?”將盡可能少地匹配“o”，得到結(jié)果 ['o', 'o', 'o', 'o']，等價(jià)于{0,1}
{n}	n是一個(gè)非負(fù)整數(shù)。匹配確定的n次。例如，“a{2}”不能匹配到aa。
{n,}	n是一個(gè)非負(fù)整數(shù)。至少匹配n次。例如，“a{2,}”能匹配“aa，aaa等等。“a{1,}”等價(jià)于“a+”，“a{0,}”則等價(jià)于“a*”。
{n,m}	m和n均為非負(fù)整數(shù)，其中n<=m。最少匹配n次且最多匹配m次。例如，“a{1,3}”將匹配“aoooood”中的前三個(gè)o為一組，后三個(gè)o為一組。“a{0,1}”等價(jià)于“a?”。請(qǐng)注意在逗號(hào)和兩個(gè)數(shù)之間不能有空格。
.	匹配除“\n”和"\r"之外的任何單個(gè)字符。要匹配包括“\n”和"\r"在內(nèi)的任何字符，請(qǐng)使用像“[\s\S]”的模式。
_	匹配任意單個(gè)字符，例如：_a 能匹配到任何第二個(gè)字符為a的，如aa,ba等等
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”。 “[z\|f]ood”則匹配“zood”或“food”。
[xyz]	字符集合，匹配所包含的任意一個(gè)字符。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負(fù)值字符集合。匹配未包含的任意字符。例如“[^abc]”可以匹配“plain”中的“plin”任一字符。
[a-z]	字符范圍，匹配指定范圍內(nèi)的任意字符。例如，“[a-z]”可以匹配 “a”到“z”范圍內(nèi)的任意小寫(xiě)字母字符。注意:只有連字符在字符組內(nèi)部時(shí),并且出現(xiàn)在兩個(gè)字符之間時(shí),才能表示字符的范圍; 如果出字符組的開(kāi)頭,則只能表示連字符本身.
[^a-z]	負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。
\d	匹配一個(gè)數(shù)字字符。等價(jià)于[0-9]。
\D	匹配一個(gè)非數(shù)字字符。等價(jià)于[^0-9]。
\n	匹配一個(gè)換行符。
\r	匹配一個(gè)回車(chē)符。
\s	匹配任何不可見(jiàn)字符，包括空格、制表符、換頁(yè)符等等。等價(jià)于[ \f\n\r\t\v]。
\S	匹配任何可見(jiàn)字符。等價(jià)于[^\f\n\r\t\v]。
\t	匹配一個(gè)制表符。
\v	匹配一個(gè)垂直制表符。
\w	匹配包括下劃線的任何單詞字符。類(lèi)似但不等價(jià)于“[A-Za-z0-9_]”，這里的"單詞"字符使用Unicode字符集。
\W	匹配任何非單詞字符。等價(jià)于“[^A-Za-z0-9_]”。
( )	將( 和 ) 之間的表達(dá)式定義為“組”（group），并且將匹配這個(gè)表達(dá)式的字符保存到一個(gè)臨時(shí)區(qū)域（一個(gè)正則表達(dá)式中最多可以保存9個(gè)），它們可以用 \1 到\9 的符號(hào)來(lái)引用。