欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例

 更新時(shí)間:2020年05月18日 16:27:43   作者:數(shù)據(jù)拾光者  
這篇文章主要介紹了python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

背景:加入現(xiàn)在有這樣的數(shù)據(jù),可能一條ocr代表兩個(gè)label,并且label通過(guò)","分隔。我們想把數(shù)據(jù)轉(zhuǎn)換成下面的。

原始數(shù)據(jù):

label ocr
日常行車(chē)服務(wù),汽車(chē)資訊 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員
社會(huì)民生 已致2死20傷 !景區(qū)突遭塵卷風(fēng)襲擊,孩子被卷上天!現(xiàn)場(chǎng)畫(huà)面曝光

目標(biāo)數(shù)據(jù):

label ocr
日常行車(chē)服務(wù) 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員
汽車(chē)資訊 去加油站,加完油后直接離開(kāi)?最開(kāi)心的可能是加油站的工作人員
社會(huì)民生 已致2死20傷 !景區(qū)突遭塵卷風(fēng)襲擊,孩子被卷上天!現(xiàn)場(chǎng)畫(huà)面曝光

實(shí)現(xiàn)辦法:

1.通過(guò)hive代碼:

select ocr,split(tag_info,',') label
from 
(
 select label,ocr 
 from t1
 lateral view explode(split(label,',')) TableName as tag_info 
) t;

要注意的是一定要添加 t 語(yǔ)句另命名。

2.通過(guò)python代碼:

df0 = pd.DataFrame({'A':[[1,2],[5,6]],'B':[10,-20]})
df0 = df
df0.columns = ['A','B']
rows = []
for i, row in df0.iterrows():
 for a in row.A.split(","):
 rows.append((a, row.B))
df222 = pd.DataFrame(rows, columns=df.columns)
df222

補(bǔ)充知識(shí):hive中的lateral view(側(cè)視圖) 與 explode函數(shù)的使用

今天偶然間發(fā)現(xiàn)了一個(gè)hive中列轉(zhuǎn)行的小題目,需要用到lateral view 和 explode函數(shù),剛好借這題說(shuō)說(shuō)lateral view 與 explode函數(shù)的使用。

題目是這樣:

原數(shù)據(jù)表如下圖

movie category
《疑犯追蹤》 懸疑,動(dòng)作,科幻,劇情
《Lie to me》 懸疑,警匪,動(dòng)作,心理,劇情
《戰(zhàn)狼2》 戰(zhàn)爭(zhēng),動(dòng)作,災(zāi)難

需求:將電影分類(lèi)中的數(shù)組數(shù)據(jù)展開(kāi)。

結(jié)果如下:

《疑犯追蹤》 懸疑
《疑犯追蹤》 動(dòng)作
《疑犯追蹤》 科幻
《疑犯追蹤》 劇情
《Lie to me》 懸疑
《Lie to me》 警匪

先簡(jiǎn)單聊幾句理論:explode與lateral view在關(guān)系型數(shù)據(jù)庫(kù)中本身是不該出現(xiàn)的,因?yàn)樗某霈F(xiàn)本身就是在操作不滿足第一范式的數(shù)據(jù)(每個(gè)屬性都不可再分),本身已經(jīng)違背了數(shù)據(jù)庫(kù)的設(shè)計(jì)原理(不論是業(yè)務(wù)系統(tǒng)還是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)),不過(guò)大數(shù)據(jù)技術(shù)普及后,很多類(lèi)似pv,uv的數(shù)據(jù),在業(yè)務(wù)系統(tǒng)中是存貯在非關(guān)系型數(shù)據(jù)庫(kù)中,用json存儲(chǔ)的概率比較大,直接導(dǎo)入hive為基礎(chǔ)的數(shù)倉(cāng)系統(tǒng)中,就需要經(jīng)過(guò)ETL過(guò)程解析這類(lèi)數(shù)據(jù),explode與lateral view在這種場(chǎng)景下大顯身手。

explode作用是處理map結(jié)構(gòu)的字段,使用案例如下:

//建表語(yǔ)句
create table movie_info(
movie string,
category array<string>
)
row format delimited fields terminated by '\t'
collection items terminated by ',';
//加載數(shù)據(jù)
load data local inpath '/opt/data/movie.txt' into table movie_info;

看下explode函數(shù)效果,以拆解category為例,可與原數(shù)據(jù)表結(jié)構(gòu)對(duì)比。

select explode(category) from movie_info;

LATERAL VIEW的使用:

用法:

LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解釋?zhuān)河糜诤蛃plit, explode等UDTF一起使用,它能夠?qū)⒁涣袛?shù)據(jù)拆成多行數(shù)據(jù),在此基礎(chǔ)上可以對(duì)拆分后的數(shù)據(jù)進(jìn)行聚合。

select movie,category_name
from movie_info
lateral view explode(category) table_emp as category_name;

效果如下:

其中l(wèi)ateral view explode(category) table_emp相當(dāng)于一個(gè)虛擬表,與原表movie_info笛卡爾積關(guān)聯(lián),也可以多重使用。那么問(wèn)題就這樣解決了。

以上這篇python 實(shí)現(xiàn) hive中類(lèi)似 lateral view explode的功能示例就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • 通過(guò)實(shí)例了解python property屬性

    通過(guò)實(shí)例了解python property屬性

    這篇文章主要介紹了通過(guò)實(shí)例了解python property屬性,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-11-11
  • Python使用smtplib?實(shí)現(xiàn)單發(fā)和群發(fā)郵件驗(yàn)證碼

    Python使用smtplib?實(shí)現(xiàn)單發(fā)和群發(fā)郵件驗(yàn)證碼

    這篇文章主要介紹了Python使用smtplib?實(shí)現(xiàn)單發(fā)和群發(fā)郵件驗(yàn)證碼,文章通過(guò)使用?smtplib?模塊在?Python?中發(fā)送電子郵件,需要的小伙伴可以參考一下
    2022-05-05
  • 解決Python requests 報(bào)錯(cuò)方法集錦

    解決Python requests 報(bào)錯(cuò)方法集錦

    這篇文章主要介紹了解決Python requests 報(bào)錯(cuò)方法集錦的相關(guān)資料,需要的朋友可以參考下
    2017-03-03
  • Python中字典的基礎(chǔ)介紹及常用操作總結(jié)

    Python中字典的基礎(chǔ)介紹及常用操作總結(jié)

    字典也是python的數(shù)據(jù)類(lèi)型中的一種,它由許多鍵值對(duì)組成,它是一種可變?nèi)萜髂P?一般情況下鍵是唯一的,字典支持嵌套,下面這篇文章主要給大家介紹了關(guān)于Python中字典的基礎(chǔ)介紹及常用操作,需要的朋友可以參考下
    2021-09-09
  • 微信跳一跳游戲python腳本

    微信跳一跳游戲python腳本

    這篇文章主要為大家詳細(xì)介紹了微信跳一跳游戲python腳本,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-01-01
  • python 利用matplotlib在3D空間繪制二次拋物面的案例

    python 利用matplotlib在3D空間繪制二次拋物面的案例

    這篇文章主要介紹了python 利用matplotlib在3D空間繪制二次拋物面的案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2021-02-02
  • 詳細(xì)分析python3的reduce函數(shù)

    詳細(xì)分析python3的reduce函數(shù)

    小編給大家整理了python3的reduce函數(shù)詳細(xì)用法以及相關(guān)的技巧,需要的朋友們參考一下吧。
    2017-12-12
  • WxPython界面如何用pubsub展示進(jìn)程工作的進(jìn)度條

    WxPython界面如何用pubsub展示進(jìn)程工作的進(jìn)度條

    這篇文章主要介紹了WxPython界面如何用pubsub展示進(jìn)程工作的進(jìn)度條,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • 使用Python繪制圣誕樹(shù)教程詳解(附源代碼)

    使用Python繪制圣誕樹(shù)教程詳解(附源代碼)

    又是一年一度的圣誕節(jié)快到了,提到圣誕節(jié),就不得不提圣誕樹(shù),所以本文我們將使用Python繪制一棵圣誕樹(shù),文中有詳細(xì)的代碼講解,具有一定的參考價(jià)值,需要的朋友可以參考下
    2023-12-12
  • 基于Python制作一個(gè)微信聊天機(jī)器人

    基于Python制作一個(gè)微信聊天機(jī)器人

    這篇文章主要為大家詳細(xì)介紹了如何基于Python制作一個(gè)微信聊天機(jī)器人,文中的示例代碼講解詳細(xì),具有一定的借鑒價(jià)值,有需要的小伙伴可以參考下
    2024-01-01

最新評(píng)論