欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

pyspark給dataframe增加新的一列的實(shí)現(xiàn)示例

 更新時(shí)間:2020年04月24日 14:28:27   作者:曉東邪  
這篇文章主要介紹了pyspark給dataframe增加新的一列的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

熟悉pandas的pythoner 應(yīng)該知道給dataframe增加一列很容易,直接以字典形式指定就好了,pyspark中就不同了,摸索了一下,可以使用如下方式增加

from pyspark import SparkContext
from pyspark import SparkConf
from pypsark.sql import SparkSession
from pyspark.sql import functions

spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

data =   [['Alice', 19, 'blue', '["Alice", 19, "blue"]'],
  ['Jane', 20, 'green', '["Jane", 20, "green"]'],
   ['Mary', 21, 'blue', '["Mary", 21, "blue"]'], ]
frame = spark.createDataFrame(data, schema=["name", "age", "eye_color", "detail"])

frame.cache()
frame.show()

+-----+---+---------+--------------------+
| name|age|eye_color|              detail|
+-----+---+---------+--------------------+
|Alice| 19|     blue|["Alice", 19, "bl...|
| Jane| 20|    green|["Jane", 20, "gre...|
| Mary| 21|     blue|["Mary", 21, "blue"]|
+-----+---+---------+--------------------+

1、 增加常數(shù)項(xiàng)

frame2 = frame.withColumn("contant", functions.lit(10))
frame2.show()

+-----+---+---------+--------------------+-------+
| name|age|eye_color|              detail|contant|
+-----+---+---------+--------------------+-------+
|Alice| 19|     blue|["Alice", 19, "bl...|     10|
| Jane| 20|    green|["Jane", 20, "gre...|     10|
| Mary| 21|     blue|["Mary", 21, "blue"]|     10|
+-----+---+---------+--------------------+-------+

2、簡(jiǎn)單根據(jù)某列進(jìn)行計(jì)算

2.1 使用 withColumn

frame3_1 = frame.withColumn("name_length", functions.length(frame.name))
frame3_1.show()

+-----+---+---------+--------------------+-----------+
| name|age|eye_color|              detail|name_length|
+-----+---+---------+--------------------+-----------+
|Alice| 19|     blue|["Alice", 19, "bl...|          5|
| Jane| 20|    green|["Jane", 20, "gre...|          4|
| Mary| 21|     blue|["Mary", 21, "blue"]|          4|
+-----+---+---------+--------------------+-----------+

2.2 使用 select

frame3_2 = frame.select(["name", functions.length(frame.name).alias("name_length")])
frame3_2.show()

+-----+-----------+
| name|name_length|
+-----+-----------+
|Alice|          5|
| Jane|          4|
| Mary|          4|
+-----+-----------+

2.3 使用 selectExpr

frame3_3 = frame.selectExpr(["name", "length(name) as name_length"])
frame3_3.show()

+-----+-----------+
| name|name_length|
+-----+-----------+
|Alice|          5|
| Jane|          4|
| Mary|          4|
+-----+-----------+

3、定制化根據(jù)某列進(jìn)行計(jì)算

比如我想對(duì)某列做指定操作,但是對(duì)應(yīng)的函數(shù)沒(méi)得咋辦,造,自己造~

frame4 = frame.withColumn("detail_length", functions.UserDefinedFunction(lambda obj: len(json.loads(obj)))(frame.detail))

# or
def length_detail(obj):
 return len(json.loads(obj))
frame4 = frame.withColumn("detail_length", functions.UserDefinedFunction(length_detail)(frame.detail))
frame4.show()

+-----+---+---------+--------------------+-------------+
| name|age|eye_color|              detail|detail_length|
+-----+---+---------+--------------------+-------------+
|Alice| 19|     blue|["Alice", 19, "bl...|            3|
| Jane| 20|    green|["Jane", 20, "gre...|            3|
| Mary| 21|     blue|["Mary", 21, "blue"]|            3|
+-----+---+---------+--------------------+-------------+

到此這篇關(guān)于pyspark給dataframe增加新的一列的實(shí)現(xiàn)示例的文章就介紹到這了,更多相關(guān)pyspark dataframe增加列內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python3.9最新版下載與安裝圖文教程詳解(Windows系統(tǒng)為例)

    Python3.9最新版下載與安裝圖文教程詳解(Windows系統(tǒng)為例)

    這篇文章主要介紹了Python3.9最新版下載與安裝圖文教程詳解,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-11-11
  • 封裝?Python?時(shí)間處理庫(kù)創(chuàng)建自己的TimeUtil類(lèi)示例

    封裝?Python?時(shí)間處理庫(kù)創(chuàng)建自己的TimeUtil類(lèi)示例

    這篇文章主要為大家介紹了封裝?Python?時(shí)間處理庫(kù)創(chuàng)建自己的TimeUtil類(lèi)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步早日升職加薪
    2023-05-05
  • Flask?的路由Route詳情

    Flask?的路由Route詳情

    在上一篇Flask?入門(mén)Web?微框架Hello?Flask中,我們用?Flask?框架寫(xiě)了一個(gè)?Hello?Flask?應(yīng)用程序,我們了解到?Flask?框架簡(jiǎn)潔高效、可以快速上手,接下來(lái)將對(duì)?Flask?框架的各項(xiàng)功能詳細(xì)的介紹一下,本篇文章介紹的是?Flask?的路由(Route),需要的朋友可以參考一下
    2021-11-11
  • Django 在iframe里跳轉(zhuǎn)頂層url的例子

    Django 在iframe里跳轉(zhuǎn)頂層url的例子

    今天小編就為大家分享一篇Django 在iframe里跳轉(zhuǎn)頂層url的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-08-08
  • Python閉包裝飾器使用方法匯總

    Python閉包裝飾器使用方法匯總

    這篇文章主要介紹了Python閉包裝飾器使用方法匯總,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-06-06
  • Pandas讀取csv的實(shí)現(xiàn)

    Pandas讀取csv的實(shí)現(xiàn)

    本文主要介紹了Pandas讀取csv的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-01-01
  • Form表單及django的form表單的補(bǔ)充

    Form表單及django的form表單的補(bǔ)充

    這篇文章主要介紹了Form表單及django的form表單的補(bǔ)充,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-07-07
  • python中l(wèi)xml模塊的使用詳解

    python中l(wèi)xml模塊的使用詳解

    lxml是python的一個(gè)解析庫(kù),支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高,這篇文章主要來(lái)和大家講解一下lxml模塊的使用,感興趣的可以了解一下
    2023-08-08
  • Python從臨時(shí)郵箱獲取驗(yàn)證碼的操作代碼

    Python從臨時(shí)郵箱獲取驗(yàn)證碼的操作代碼

    這篇文章主要介紹了Python從臨時(shí)郵箱獲取驗(yàn)證碼的操作代碼,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-08-08
  • Python 存取npy格式數(shù)據(jù)實(shí)例

    Python 存取npy格式數(shù)據(jù)實(shí)例

    這篇文章主要介紹了Python 存取npy格式數(shù)據(jù)實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-07-07

最新評(píng)論