spark dataframe 將一列展開,把該列所有值都變成新列的方法
The original dataframe
需求:hour代表一天的24小時,現(xiàn)在要將hour列展開,每一個小時都作為一個列
實現(xiàn):
val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0)
并且統(tǒng)計了對應(yīng)的countGeoPerHour的和,如果有些行沒有這個新列對應(yīng)的數(shù)據(jù),將用null填充
The new dataframe
以上這篇spark dataframe 將一列展開,把該列所有值都變成新列的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
用Python編寫腳本使IE實現(xiàn)代理上網(wǎng)的教程
這篇文章主要介紹了用Python編寫腳本使IE實現(xiàn)代理上網(wǎng)的教程,“著名的”goagent代理也是基于同樣原理實現(xiàn),需要的朋友可以參考下2015-04-04零基礎(chǔ)寫python爬蟲之urllib2中的兩個重要概念:Openers和Handlers
文章首先介紹了urllib2的2個方法,然后詳細介紹了urllib2中的2個重要概念Openers和Handlers的相關(guān)知識,希望能對大家有所幫助2014-11-11Python中的遠程調(diào)試與性能優(yōu)化技巧分享
Python 是一種簡單易學(xué)、功能強大的編程語言,廣泛應(yīng)用于各種領(lǐng)域,包括網(wǎng)絡(luò)編程、數(shù)據(jù)分析、人工智能等,在開發(fā)過程中,我們經(jīng)常會遇到需要遠程調(diào)試和性能優(yōu)化的情況,本文將介紹如何利用遠程調(diào)試工具和性能優(yōu)化技巧來提高 Python 應(yīng)用程序的效率和性能2024-05-05Python3.5內(nèi)置模塊之shelve模塊、xml模塊、configparser模塊、hashlib、hmac模塊用法
這篇文章主要介紹了Python3.5內(nèi)置模塊之shelve模塊、xml模塊、configparser模塊、hashlib、hmac模塊,結(jié)合實例形式較為詳細的分析了shelve、xml、configparser、hashlib、hmac等模塊的功能及使用方法,需要的朋友可以參考下2019-04-04解決Python 使用h5py加載文件,看不到keys()的問題
今天小編就為大家分享一篇解決Python 使用h5py加載文件,看不到keys()的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-02-02剖析Django中模版標(biāo)簽的解析與參數(shù)傳遞
這篇文章主要介紹了剖析Django中模版標(biāo)簽的解析與參數(shù)傳遞,Django是重多高人氣Python框架中最為著名的一個,需要的朋友可以參考下2015-07-07