欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Hive中常用正則表達式的運用小結

 更新時間:2022年08月02日 09:33:05   作者:每天一個摸魚技巧  
在實際的應用中,通常需要在一些復雜的、沒有規(guī)律的字符串中提取數(shù)據(jù),這時候就需要用到正則表達式了,這次講一下hive的正則表達式,感興趣的朋友跟隨小編一起看看吧

在實際的應用中,通常需要在一些復雜的、沒有規(guī)律的字符串中提取數(shù)據(jù),這時候就需要用到正則表達式了,這次講一下hive的正則表達式。

like

語法:A like B

說明:如果字符串A符合表達式B的正則語法,則為true,否則為flase。B中字符"_"表示任意單個字符,而字符"%"表示任意數(shù)量的字符。

例子:select 'AA123' like 'AA%';

結果:true

例子:select 'AAbbbbcccc' like '_A%';

結果:true

rlike

語法:A rlike B

說明:如果字符串A符合JAVA正則表達式B的正則語法,則為TRUE,否則為FALSE。

例子:select 'AAbbbbcccc' rlike 'AA';

結果:true

regexp

語法: A REGEXP B

說明:用法和rike一樣

例子:select 'AAbbbbcccc' regexp 'AA';

結果:true

regexp_replace

語法: regexp_replace(string A, string B, string C)

說明:將字符串A中的符合java正則表達式B的部分替換為C

例子:select regexp_replace('AA123bbcccc' ,'123','o');

結果:AAobbcccc

regexp_extract

語法: regexp_extract(string A, string pattern, int index)

說明:將字符串A按照pattern正則表達式的規(guī)則拆分,返回index指定的字符,index從1開始計。

  • 0是顯示與之匹配的整個字符串
  • 1 是顯示第一個括號里面的
  • 2 是顯示第二個括號里面的字段
  • 3,4,5.....依次類推

例子:select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',0);

結果:AA123bbcccc

例子:select regexp_extract('AA123bbcccc' ,'A{2}([1-9]{3})([a-z]{6})',2);

結果:bbcccc

基礎語法 "^([]{})([]{})([]{})$"

正則字符串 = "開始([包含內(nèi)容]{長度})([包含內(nèi)容]{長度})([包含內(nèi)容]{長度})結束" 

常用元字符的使用:

元字符

描述

\

轉(zhuǎn)義字符。例如,“\n”代表換行符,如果想表示"\n"這個字符串,需要使用"\\n"來表示,也就是說"\\"代表字符"\"

^

匹配輸入字行首。"^a"代表以a開頭的任意字符串

$

匹配輸入行尾。"a$"代表以a結尾的任意字符串

*

匹配前面的子表達式0次或多次。例如,ab*能匹配a,ab,abb,abbbb等等,等價于{0,}

+

匹配前面的子表達式一次或多次(大于等于1次)。例如,“ab+”能

匹配ab,abb,abbbb等等。等價于{1,}

?

匹配前面的子表達式零次或一次。例如,“ab?”可以匹配ab,abb,等價于{0,1}。當該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})后面時,匹配模式是非貪婪的。非貪婪模式盡可能少地匹配所搜索的字符串,而默認的貪婪模式則盡可能多地匹配所搜索的字符串。例如,對于字符串“oooo”,“o+”將盡可能多地匹配“o”,得到結果[“oooo”],而“o+?”將盡可能少地匹配“o”,得到結果 ['o', 'o', 'o', 'o'],等價于{0,1}

{n}

n是一個非負整數(shù)。匹配確定的n次。例如,“a{2}”不能匹配到aa。

{n,}

n是一個非負整數(shù)。至少匹配n次。例如,“a{2,}”能匹配“aa,aaa等等。“a{1,}”等價于“a+”,“a{0,}”則等價于“a*”。

{n,m}

m和n均為非負整數(shù),其中n<=m。最少匹配n次且最多匹配m次。例如,“a{1,3}”將匹配“aoooood”中的前三個o為一組,后三個o為一組。“a{0,1}”等價于“a?”。請注意在逗號和兩個數(shù)之間不能有空格。

.

匹配除“\n”和"\r"之外的任何單個字符。要匹配包括“\n”和"\r"在內(nèi)的任何字符,請使用像“[\s\S]”的模式。

_匹配任意單個字符,例如:_a 能匹配到任何第二個字符為a的,如aa,ba等等

x|y

匹配x或y。例如,“z|food”能匹配“z”或“food”。

“[z|f]ood”則匹配“zood”或“food”。

[xyz]

字符集合,匹配所包含的任意一個字符。

例如,“[abc]”可以匹配“plain”中的“a”。

[^xyz]

負值字符集合。匹配未包含的任意字符。例如“[^abc]”可以匹配“plain”中的“plin”任一字符。

[a-z]

字符范圍,匹配指定范圍內(nèi)的任意字符。例如,“[a-z]”可以匹配

“a”到“z”范圍內(nèi)的任意小寫字母字符。注意:只有連字符在字符組內(nèi)部時,并且出現(xiàn)在兩個字符之間時,才能表示字符的范圍; 如果出字符組的開頭,則只能表示連字符本身.

[^a-z]

負值字符范圍。匹配任何不在指定范圍內(nèi)的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范圍內(nèi)的任意字符。

\d

匹配一個數(shù)字字符。等價于[0-9]。

\D

匹配一個非數(shù)字字符。等價于[^0-9]。

\n

匹配一個換行符。

\r

匹配一個回車符。

\s

匹配任何不可見字符,包括空格、制表符、換頁符等等。

等價于[ \f\n\r\t\v]。

\S

匹配任何可見字符。等價于[^\f\n\r\t\v]。

\t

匹配一個制表符。

\v

匹配一個垂直制表符。

\w

匹配包括下劃線的任何單詞字符。類似但不等價于“[A-Za-z0-9_]”,

這里的"單詞"字符使用Unicode字符集。

\W

匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。

( )

將( 和 ) 之間的表達式定義為“組”(group),并且將匹配這個表達式的字符保存到一個臨時區(qū)域(一個正則表達式中最多可以保存9個),它們可以用 \1 到\9 的符號來引用。

其他

漢字:[\u4e00-\u9fa5]

身份證號(15位、18位數(shù)字),最后一位是校驗位,可能為數(shù)字或字符X:(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)

日期格式:^\d{4}-\d{1,2}-\d{1,2}

兩位小數(shù)正數(shù):[0-9]+(.[0-9]{2})

26個英文字母組成的字符串:[A-Za-z]+

數(shù)字和26個英文字母組成的字符串:[A-Za-z0-9]

Email地址:w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$

手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

到此這篇關于Hive中常用正則表達式的運用的文章就介紹到這了,更多相關Hive正則表達式運用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

最新評論