快捷導(dǎo)航

PySpark和RDD對(duì)象最新詳解

更新時(shí)間：2023年01月11日 15:03:03 作者：陽862

Spark是一款分布式的計(jì)算框架，用于調(diào)度成百上千的服務(wù)器集群，計(jì)算TB、PB乃至EB級(jí)別的海量數(shù)據(jù)，PySpark是由Spark官方開發(fā)的Python語言第三方庫，本文重點(diǎn)介紹PySpark和RDD對(duì)象，感興趣的朋友一起看看吧

一.了解Spark、PySpark

Spark是什么

定義:Apache Spark是用于大規(guī)模數(shù)據(jù)（large-scala data）處理的統(tǒng)一（unified）分析引擎。

簡單來說，Spark是一款分布式的計(jì)算框架，用于調(diào)度成百上千的服務(wù)器集群，計(jì)算TB、PB乃至EB級(jí)別的海量數(shù)據(jù)

Python on Spark

Spark作為全球頂級(jí)的分布式計(jì)算框架,支持眾多的編程語言進(jìn)行開發(fā)。而Python語言,則是Spark重點(diǎn)支持的方向。

Pyspark

Spark對(duì)Python語言的支持,重點(diǎn)體現(xiàn)在，Python第三方庫: PySpark之上。
PySpark是由Spark官方開發(fā)的Python語言第三方庫。
Python開發(fā)者可以使用pip程序快速的安裝PySpark并像其它三方庫那樣直接使用。

小結(jié)

1.什么是Spark、什么是PySpark

Spark是Apache基金會(huì)旗下的頂級(jí)開源項(xiàng)目,用于對(duì)海量數(shù)據(jù)進(jìn)行大規(guī)模分布式計(jì)算。
PySpark是Spark的Python實(shí)現(xiàn)，是Spark為Python開發(fā)者提供的編程入口，用于以Python代碼完成Spark任務(wù)的開發(fā)
PySpark不僅可以作為Python第三方庫使用,也可以將程序提交的Spark集群環(huán)境中,調(diào)度大規(guī)模集群進(jìn)行執(zhí)行。

2.為什么要學(xué)習(xí)PySpark?
大數(shù)據(jù)開發(fā)是Python眾多就業(yè)方向中的明星賽道,薪資高崗位多，Spark ( PySpark)又是大數(shù)據(jù)開發(fā)中的核心技術(shù)

二.構(gòu)建PySpark執(zhí)行環(huán)境入口對(duì)象

想要使用PySpark庫完成數(shù)據(jù)處理,首先需要構(gòu)建一個(gè)執(zhí)行環(huán)境入口對(duì)象。PySpark的執(zhí)行環(huán)境入口對(duì)象是:類SparkContext的類對(duì)象

注意：

紅框里面的兩個(gè)都是一個(gè)意思，上面的方法叫做鏈?zhǔn)秸{(diào)用

#導(dǎo)包
from pyspark import SparkConf,SparkContext
#創(chuàng)建SparkConf類對(duì)象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")
#基于SparkConf類對(duì)象創(chuàng)建SparkContext對(duì)象
sc=SparkContext(conf=conf)
#打印Pyspark版本
print(sc.version)
#停止SparkContext對(duì)象的運(yùn)行（停止PySpark程序）
sc.stop()

注意：要想運(yùn)行成功需要下載JDK并配置好環(huán)境變量

PySpark的編程模型

SparkContext類對(duì)象，是PySpark編程中一切功能的入口。PySpark的編程,主要分為如下三大步驟:

通過SparkContext對(duì)象，完成數(shù)據(jù)輸入
輸入數(shù)據(jù)后得到RDD對(duì)象，對(duì)RDD對(duì)象進(jìn)行迭代計(jì)算
最終通過RDD對(duì)象的成員方法,完成數(shù)據(jù)輸出工作

小結(jié)

1.如何安裝PySpark庫
pip install pyspark
2.為什么要構(gòu)建SparkContext對(duì)象作為執(zhí)行入口
PySpark的功能都是從SparkContext對(duì)象作為開始
3.PySpark的編程模型是?

數(shù)據(jù)輸入:通過SparkContext完成數(shù)據(jù)讀取
數(shù)據(jù)計(jì)算:讀取到的數(shù)據(jù)轉(zhuǎn)換為RDD對(duì)象，調(diào)用RDD的成員方法完成計(jì)算
數(shù)據(jù)輸出:調(diào)用RDD的數(shù)據(jù)輸出相關(guān)成員方法,將結(jié)果輸出到list、元組、字典、文本文件、數(shù)據(jù)庫等

三.RDD對(duì)象

如圖可見，PySpark支持多種數(shù)據(jù)的輸入，在輸入完成后,都會(huì)得到一個(gè):RDD類的對(duì)象
RDD全稱為:彈性分布式數(shù)據(jù)集( Resilient Distributed Datasets)
PySpark針對(duì)數(shù)據(jù)的處理,都是以RDD對(duì)象作為載體，即:

數(shù)據(jù)存儲(chǔ)在RDD內(nèi)
各類數(shù)據(jù)的計(jì)算方法,也都是RDD的成員方法
RDD的數(shù)據(jù)計(jì)算方法，返回值依舊是RDD對(duì)象

python數(shù)據(jù)容器轉(zhuǎn)RDD對(duì)象

PySpark支持通過Sparkcontext對(duì)象的parallelize成員方法,將:

list
tuple
set
dict
str

轉(zhuǎn)為PySpark的RDD對(duì)象

代碼：

注意

字符串會(huì)被拆分出1個(gè)個(gè)的字符
存入RDD對(duì)象字典僅有key會(huì)被存入RDD對(duì)象
如果要查看RDD里面有什么內(nèi)容，需要用collect()方法

演示

#導(dǎo)包
from pyspark import  SparkConf,SparkContext
#創(chuàng)建SparkConf類對(duì)象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark")
#基于SparkConf類對(duì)象創(chuàng)建SparkContext對(duì)象
sc=SparkContext(conf=conf)
 
#通過parallelize方法將python對(duì)象加載到Spark內(nèi)，成為RDD對(duì)象
rdd1=sc.parallelize([1,2,3,4,5])
rdd2=sc.parallelize((1,2,3,4,5))
rdd3=sc.parallelize("abcdefg")
rdd4=sc.parallelize({1,2,3,4,5})
rdd5=sc.parallelize({"key1":"value1","key2":"value2"})
#如果要查看RDD里面有什么內(nèi)容，需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
#停止SparkContext對(duì)象的運(yùn)行（停止PySpark程序）
sc.stop()

結(jié)果是

讀取文件轉(zhuǎn)RDD對(duì)象

PySpark也支持通過SparkContext入口對(duì)象，來讀取文件，來構(gòu)建出RDD對(duì)象。

演示

#導(dǎo)包
from pyspark import  SparkConf,SparkContext
#創(chuàng)建SparkConf類對(duì)象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark")
#基于SparkConf類對(duì)象創(chuàng)建SparkContext對(duì)象
sc=SparkContext(conf=conf)
#用textFile方法，讀取文件數(shù)據(jù)加載到Spark中，成為RDD對(duì)象
rdd=sc.textFile("D:/game.txt")
print(rdd.collect())
#停止SparkContext對(duì)象的運(yùn)行（停止PySpark程序）
sc.stop()

結(jié)果是