Hive中常用正則表達(dá)式的運(yùn)用小結(jié)
在實(shí)際的應(yīng)用中,通常需要在一些復(fù)雜的、沒(méi)有規(guī)律的字符串中提取數(shù)據(jù),這時(shí)候就需要用到正則表達(dá)式了,這次講一下hive的正則表達(dá)式。
like
語(yǔ)法:A like B
說(shuō)明:如果字符串A符合表達(dá)式B的正則語(yǔ)法,則為true,否則為flase。B中字符"_"表示任意單個(gè)字符,而字符"%"表示任意數(shù)量的字符。
例子:select 'AA123' like 'AA%';
結(jié)果:true
例子:select 'AAbbbbcccc' like '_A%';
結(jié)果:true
rlike
語(yǔ)法:A rlike B
說(shuō)明:如果字符串A符合JAVA正則表達(dá)式B的正則語(yǔ)法,則為TRUE,否則為FALSE。
例子:select 'AAbbbbcccc' rlike 'AA';
結(jié)果:true
regexp
語(yǔ)法: A REGEXP B
說(shuō)明:用法和rike一樣
例子:select 'AAbbbbcccc' regexp 'AA';
結(jié)果:true
regexp_replace
語(yǔ)法: regexp_replace(string A, string B, string C)
說(shuō)明:將字符串A中的符合java正則表達(dá)式B的部分替換為C
例子:select regexp_replace('AA123bbcccc' ,'123','o');
結(jié)果:AAobbcccc
regexp_extract
語(yǔ)法: regexp_extract(string A, string pattern, int index)
說(shuō)明:將字符串A按照pattern正則表達(dá)式的規(guī)則拆分,返回index指定的字符,index從1開(kāi)始計(jì)。
- 0是顯示與之匹配的整個(gè)字符串
- 1 是顯示第一個(gè)括號(hào)里面的
- 2 是顯示第二個(gè)括號(hào)里面的字段
- 3,4,5.....依次類推
例子:select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',0);
結(jié)果:AA123bbcccc
例子:select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',2);
結(jié)果:bbcccc
基礎(chǔ)語(yǔ)法 "^([]{})([]{})([]{})$"
正則字符串 = "開(kāi)始([包含內(nèi)容]{長(zhǎng)度})([包含內(nèi)容]{長(zhǎng)度})([包含內(nèi)容]{長(zhǎng)度})結(jié)束"
常用元字符的使用:
元字符 | 描述 |
\ | 轉(zhuǎn)義字符。例如,“\n”代表?yè)Q行符,如果想表示"\n"這個(gè)字符串,需要使用"\\n"來(lái)表示,也就是說(shuō)"\\"代表字符"\" |
^ | 匹配輸入字行首。"^a"代表以a開(kāi)頭的任意字符串 |
$ | 匹配輸入行尾。"a$"代表以a結(jié)尾的任意字符串 |
* | 匹配前面的子表達(dá)式0次或多次。例如,ab*能匹配a,ab,abb,abbbb等等,等價(jià)于{0,} |
+ | 匹配前面的子表達(dá)式一次或多次(大于等于1次)。例如,“ab+”能 匹配ab,abb,abbbb等等。等價(jià)于{1,} |
? | 匹配前面的子表達(dá)式零次或一次。例如,“ab?”可以匹配ab,abb,等價(jià)于{0,1}。當(dāng)該字符緊跟在任何一個(gè)其他限制符(*,+,?,{n},{n,},{n,m})后面時(shí),匹配模式是非貪婪的。非貪婪模式盡可能少地匹配所搜索的字符串,而默認(rèn)的貪婪模式則盡可能多地匹配所搜索的字符串。例如,對(duì)于字符串“oooo”,“o+”將盡可能多地匹配“o”,得到結(jié)果[“oooo”],而“o+?”將盡可能少地匹配“o”,得到結(jié)果 ['o', 'o', 'o', 'o'],等價(jià)于{0,1} |
{n} | n是一個(gè)非負(fù)整數(shù)。匹配確定的n次。例如,“a{2}”不能匹配到aa。 |
{n,} | n是一個(gè)非負(fù)整數(shù)。至少匹配n次。例如,“a{2,}”能匹配“aa,aaa等等。“a{1,}”等價(jià)于“a+”,“a{0,}”則等價(jià)于“a*”。 |
{n,m} | m和n均為非負(fù)整數(shù),其中n<=m。最少匹配n次且最多匹配m次。例如,“a{1,3}”將匹配“aoooood”中的前三個(gè)o為一組,后三個(gè)o為一組。“a{0,1}”等價(jià)于“a?”。請(qǐng)注意在逗號(hào)和兩個(gè)數(shù)之間不能有空格。 |
. | 匹配除“\n”和"\r"之外的任何單個(gè)字符。要匹配包括“\n”和"\r"在內(nèi)的任何字符,請(qǐng)使用像“[\s\S]”的模式。 |
_ | 匹配任意單個(gè)字符,例如:_a 能匹配到任何第二個(gè)字符為a的,如aa,ba等等 |
x|y | 匹配x或y。例如,“z|food”能匹配“z”或“food”。 “[z|f]ood”則匹配“zood”或“food”。 |
[xyz] | 字符集合,匹配所包含的任意一個(gè)字符。 例如,“[abc]”可以匹配“plain”中的“a”。 |
[^xyz] | 負(fù)值字符集合。匹配未包含的任意字符。例如“[^abc]”可以匹配“plain”中的“plin”任一字符。 |
[a-z] | 字符范圍,匹配指定范圍內(nèi)的任意字符。例如,“[a-z]”可以匹配 “a”到“z”范圍內(nèi)的任意小寫字母字符。注意:只有連字符在字符組內(nèi)部時(shí),并且出現(xiàn)在兩個(gè)字符之間時(shí),才能表示字符的范圍; 如果出字符組的開(kāi)頭,則只能表示連字符本身. |
[^a-z] | 負(fù)值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。 |
\d | 匹配一個(gè)數(shù)字字符。等價(jià)于[0-9]。 |
\D | 匹配一個(gè)非數(shù)字字符。等價(jià)于[^0-9]。 |
\n | 匹配一個(gè)換行符。 |
\r | 匹配一個(gè)回車符。 |
\s | 匹配任何不可見(jiàn)字符,包括空格、制表符、換頁(yè)符等等。 等價(jià)于[ \f\n\r\t\v]。 |
\S | 匹配任何可見(jiàn)字符。等價(jià)于[^\f\n\r\t\v]。 |
\t | 匹配一個(gè)制表符。 |
\v | 匹配一個(gè)垂直制表符。 |
\w | 匹配包括下劃線的任何單詞字符。類似但不等價(jià)于“[A-Za-z0-9_]”, 這里的"單詞"字符使用Unicode字符集。 |
\W | 匹配任何非單詞字符。等價(jià)于“[^A-Za-z0-9_]”。 |
( ) | 將( 和 ) 之間的表達(dá)式定義為“組”(group),并且將匹配這個(gè)表達(dá)式的字符保存到一個(gè)臨時(shí)區(qū)域(一個(gè)正則表達(dá)式中最多可以保存9個(gè)),它們可以用 \1 到\9 的符號(hào)來(lái)引用。 |
其他
漢字:[\u4e00-\u9fa5]
身份證號(hào)(15位、18位數(shù)字),最后一位是校驗(yàn)位,可能為數(shù)字或字符X:(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)
日期格式:^\d{4}-\d{1,2}-\d{1,2}
兩位小數(shù)正數(shù):[0-9]+(.[0-9]{2})
26個(gè)英文字母組成的字符串:[A-Za-z]+
數(shù)字和26個(gè)英文字母組成的字符串:[A-Za-z0-9]
Email地址:w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$
手機(jī)號(hào)碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
到此這篇關(guān)于Hive中常用正則表達(dá)式的運(yùn)用的文章就介紹到這了,更多相關(guān)Hive正則表達(dá)式運(yùn)用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
數(shù)據(jù)庫(kù)中使用正則表達(dá)式小結(jié)
這篇文章主要介紹了數(shù)據(jù)庫(kù)中使用正則表達(dá)式小結(jié)的相關(guān)資料,需要的朋友可以參考下2015-10-10