Python?PySpark案例實(shí)戰(zhàn)教程
為什么要學(xué)習(xí)PySpark?
Spark對(duì)Python語(yǔ)言的支持,重點(diǎn)體現(xiàn)在,Python第三方庫(kù):PySpark之上。
PySpark是由Spark官方開發(fā)的Python語(yǔ)言第三方庫(kù)。
Python開發(fā)者可以使用pip程序快速的安裝PySpark并像其它三方庫(kù)那樣直接使用。
PySpark庫(kù)的安裝
在”CMD”命令提示符程序內(nèi),輸入:
pip install pyspark
或使用國(guó)內(nèi)代理鏡像網(wǎng)站(清華大學(xué)源)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
構(gòu)建PySpark執(zhí)行環(huán)境入口對(duì)象
想要使用PySpark庫(kù)完成數(shù)據(jù)處理,首先需要構(gòu)建一個(gè)執(zhí)行環(huán)境入口對(duì)象。
PySpark的執(zhí)行環(huán)境入口對(duì)象是:類 SparkContext 的類對(duì)象
PySpark的編程模型
SparkContext類對(duì)象,是PySpark編程中一切功能的入口。
- 數(shù)據(jù)輸入:通過(guò)SparkContext完成數(shù)據(jù)讀取
- 數(shù)據(jù)計(jì)算:讀取到的數(shù)據(jù)轉(zhuǎn)換為RDD對(duì)象,調(diào)用RDD的成員方法完成計(jì)算
- 數(shù)據(jù)輸出:調(diào)用RDD的數(shù)據(jù)輸出相關(guān)成員方法,將結(jié)果輸出到list、元組、字典、文本文件、數(shù)據(jù)庫(kù)等
到此這篇關(guān)于Python PySpark案例實(shí)戰(zhàn)的文章就介紹到這了,更多相關(guān)Python PySpark案例內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python讀出當(dāng)前時(shí)間精度到秒的代碼
在本文里小編給各位分享了一篇關(guān)于python怎么讀出當(dāng)前時(shí)間精度到秒的內(nèi)容,對(duì)此有需要的朋友們可以學(xué)習(xí)參考下。2019-07-07python實(shí)現(xiàn)摳圖給證件照換背景源碼
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)摳圖給證件照換背景源碼,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-08-08Python腳本實(shí)現(xiàn)音頻和視頻格式轉(zhuǎn)換
這篇文章主要為大家詳細(xì)介紹了Python如何通過(guò)腳本實(shí)現(xiàn)音頻和視頻格式轉(zhuǎn)換,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2025-03-03python輾轉(zhuǎn)相除法求最大公約數(shù)和最小公倍數(shù)的實(shí)現(xiàn)
這篇文章主要介紹了python輾轉(zhuǎn)相除法求最大公約數(shù)和最小公倍數(shù)的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07使用Mixin設(shè)計(jì)模式進(jìn)行Python編程的方法講解
Mixin模式也可以看作是一種組合模式,綜合多個(gè)類的功能來(lái)產(chǎn)生一個(gè)類而不通過(guò)繼承來(lái)實(shí)現(xiàn),下面就來(lái)整理一下使用Mixin設(shè)計(jì)模式進(jìn)行Python編程的方法講解:2016-06-06Python3 多線程(連接池)操作MySQL插入數(shù)據(jù)
本文將結(jié)合實(shí)例代碼,介紹Python3 多線程(連接池)操作MySQL插入數(shù)據(jù),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-06-06