python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例
背景:加入現(xiàn)在有這樣的數(shù)據(jù),可能一條ocr代表兩個(gè)label,并且label通過(guò)","分隔。我們想把數(shù)據(jù)轉(zhuǎn)換成下面的。
原始數(shù)據(jù):
label | ocr |
日常行車(chē)服務(wù),汽車(chē)資訊 | 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員 |
社會(huì)民生 | 已致2死20傷 !景區(qū)突遭塵卷風(fēng)襲擊,孩子被卷上天!現(xiàn)場(chǎng)畫(huà)面曝光 |
目標(biāo)數(shù)據(jù):
label | ocr |
日常行車(chē)服務(wù) | 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員 |
汽車(chē)資訊 | 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員 |
社會(huì)民生 | 已致2死20傷 !景區(qū)突遭塵卷風(fēng)襲擊,孩子被卷上天!現(xiàn)場(chǎng)畫(huà)面曝光 |
實(shí)現(xiàn)辦法:
1.通過(guò)hive代碼:
select ocr,split(tag_info,',') label from ( select label,ocr from t1 lateral view explode(split(label,',')) TableName as tag_info ) t;
要注意的是一定要添加 t 語(yǔ)句另命名。
2.通過(guò)python代碼:
df0 = pd.DataFrame({'A':[[1,2],[5,6]],'B':[10,-20]}) df0 = df df0.columns = ['A','B'] rows = [] for i, row in df0.iterrows(): for a in row.A.split(","): rows.append((a, row.B)) df222 = pd.DataFrame(rows, columns=df.columns) df222
補(bǔ)充知識(shí):hive中的lateral view(側(cè)視圖) 與 explode函數(shù)的使用
今天偶然間發(fā)現(xiàn)了一個(gè)hive中列轉(zhuǎn)行的小題目,需要用到lateral view 和 explode函數(shù),剛好借這題說(shuō)說(shuō)lateral view 與 explode函數(shù)的使用。
題目是這樣:
原數(shù)據(jù)表如下圖
movie | category |
---|---|
《疑犯追蹤》 | 懸疑,動(dòng)作,科幻,劇情 |
《Lie to me》 | 懸疑,警匪,動(dòng)作,心理,劇情 |
《戰(zhàn)狼2》 | 戰(zhàn)爭(zhēng),動(dòng)作,災(zāi)難 |
需求:將電影分類(lèi)中的數(shù)組數(shù)據(jù)展開(kāi)。
結(jié)果如下:
《疑犯追蹤》 懸疑
《疑犯追蹤》 動(dòng)作
《疑犯追蹤》 科幻
《疑犯追蹤》 劇情
《Lie to me》 懸疑
《Lie to me》 警匪
先簡(jiǎn)單聊幾句理論:explode與lateral view在關(guān)系型數(shù)據(jù)庫(kù)中本身是不該出現(xiàn)的,因?yàn)樗某霈F(xiàn)本身就是在操作不滿足第一范式的數(shù)據(jù)(每個(gè)屬性都不可再分),本身已經(jīng)違背了數(shù)據(jù)庫(kù)的設(shè)計(jì)原理(不論是業(yè)務(wù)系統(tǒng)還是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)),不過(guò)大數(shù)據(jù)技術(shù)普及后,很多類(lèi)似pv,uv的數(shù)據(jù),在業(yè)務(wù)系統(tǒng)中是存貯在非關(guān)系型數(shù)據(jù)庫(kù)中,用json存儲(chǔ)的概率比較大,直接導(dǎo)入hive為基礎(chǔ)的數(shù)倉(cāng)系統(tǒng)中,就需要經(jīng)過(guò)ETL過(guò)程解析這類(lèi)數(shù)據(jù),explode與lateral view在這種場(chǎng)景下大顯身手。
explode作用是處理map結(jié)構(gòu)的字段,使用案例如下:
//建表語(yǔ)句 create table movie_info( movie string, category array<string> ) row format delimited fields terminated by '\t' collection items terminated by ','; //加載數(shù)據(jù) load data local inpath '/opt/data/movie.txt' into table movie_info;
看下explode函數(shù)效果,以拆解category為例,可與原數(shù)據(jù)表結(jié)構(gòu)對(duì)比。
select explode(category) from movie_info;
LATERAL VIEW的使用:
用法:
LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解釋?zhuān)河糜诤蛃plit, explode等UDTF一起使用,它能夠?qū)⒁涣袛?shù)據(jù)拆成多行數(shù)據(jù),在此基礎(chǔ)上可以對(duì)拆分后的數(shù)據(jù)進(jìn)行聚合。
select movie,category_name from movie_info lateral view explode(category) table_emp as category_name;
效果如下:
其中l(wèi)ateral view explode(category) table_emp相當(dāng)于一個(gè)虛擬表,與原表movie_info笛卡爾積關(guān)聯(lián),也可以多重使用。那么問(wèn)題就這樣解決了。
以上這篇python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- 在python中使用pyspark讀寫(xiě)Hive數(shù)據(jù)操作
- 使用Python構(gòu)造hive insert語(yǔ)句說(shuō)明
- Python pandas 列轉(zhuǎn)行操作詳解(類(lèi)似hive中explode方法)
- python 操作hive pyhs2方式
- 如何在python中寫(xiě)hive腳本
- python處理數(shù)據(jù),存進(jìn)hive表的方法
- python導(dǎo)出hive數(shù)據(jù)表的schema實(shí)例代碼
- Python讀取Hive數(shù)據(jù)庫(kù)實(shí)現(xiàn)代碼詳解
相關(guān)文章
通過(guò)實(shí)例了解python property屬性
這篇文章主要介紹了通過(guò)實(shí)例了解python property屬性,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11Python使用smtplib?實(shí)現(xiàn)單發(fā)和群發(fā)郵件驗(yàn)證碼
這篇文章主要介紹了Python使用smtplib?實(shí)現(xiàn)單發(fā)和群發(fā)郵件驗(yàn)證碼,文章通過(guò)使用?smtplib?模塊在?Python?中發(fā)送電子郵件,需要的小伙伴可以參考一下2022-05-05解決Python requests 報(bào)錯(cuò)方法集錦
這篇文章主要介紹了解決Python requests 報(bào)錯(cuò)方法集錦的相關(guān)資料,需要的朋友可以參考下2017-03-03Python中字典的基礎(chǔ)介紹及常用操作總結(jié)
字典也是python的數(shù)據(jù)類(lèi)型中的一種,它由許多鍵值對(duì)組成,它是一種可變?nèi)萜髂P?一般情況下鍵是唯一的,字典支持嵌套,下面這篇文章主要給大家介紹了關(guān)于Python中字典的基礎(chǔ)介紹及常用操作,需要的朋友可以參考下2021-09-09python 利用matplotlib在3D空間繪制二次拋物面的案例
這篇文章主要介紹了python 利用matplotlib在3D空間繪制二次拋物面的案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-02-02WxPython界面如何用pubsub展示進(jìn)程工作的進(jìn)度條
這篇文章主要介紹了WxPython界面如何用pubsub展示進(jìn)程工作的進(jìn)度條,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-11-11