Python?PySpark案例實戰(zhàn)教程
為什么要學習PySpark?
Spark對Python語言的支持,重點體現在,Python第三方庫:PySpark之上。
PySpark是由Spark官方開發(fā)的Python語言第三方庫。
Python開發(fā)者可以使用pip程序快速的安裝PySpark并像其它三方庫那樣直接使用。

PySpark庫的安裝
在”CMD”命令提示符程序內,輸入:
pip install pyspark
或使用國內代理鏡像網站(清華大學源)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
構建PySpark執(zhí)行環(huán)境入口對象
想要使用PySpark庫完成數據處理,首先需要構建一個執(zhí)行環(huán)境入口對象。
PySpark的執(zhí)行環(huán)境入口對象是:類 SparkContext 的類對象

PySpark的編程模型
SparkContext類對象,是PySpark編程中一切功能的入口。


- 數據輸入:通過SparkContext完成數據讀取
- 數據計算:讀取到的數據轉換為RDD對象,調用RDD的成員方法完成計算
- 數據輸出:調用RDD的數據輸出相關成員方法,將結果輸出到list、元組、字典、文本文件、數據庫等
到此這篇關于Python PySpark案例實戰(zhàn)的文章就介紹到這了,更多相關Python PySpark案例內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

