欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

PySpark和RDD對(duì)象最新詳解

 更新時(shí)間:2023年01月11日 15:03:03   作者:陽(yáng)862  
Spark是一款分布式的計(jì)算框架,用于調(diào)度成百上千的服務(wù)器集群,計(jì)算TB、PB乃至EB級(jí)別的海量數(shù)據(jù),PySpark是由Spark官方開(kāi)發(fā)的Python語(yǔ)言第三方庫(kù),本文重點(diǎn)介紹PySpark和RDD對(duì)象,感興趣的朋友一起看看吧

一.了解Spark、PySpark

Spark是什么

定義:Apache Spark是用于大規(guī)模數(shù)據(jù)(large-scala data)處理的統(tǒng)一(unified)分析引擎。

簡(jiǎn)單來(lái)說(shuō),Spark是一款分布式的計(jì)算框架,用于調(diào)度成百上千的服務(wù)器集群,計(jì)算TB、PB乃至EB級(jí)別的海量數(shù)據(jù)

Python on Spark

Spark作為全球頂級(jí)的分布式計(jì)算框架,支持眾多的編程語(yǔ)言進(jìn)行開(kāi)發(fā)。而Python語(yǔ)言,則是Spark重點(diǎn)支持的方向。

Pyspark

Spark對(duì)Python語(yǔ)言的支持,重點(diǎn)體現(xiàn)在,Python第三方庫(kù): PySpark之上。
PySpark是由Spark官方開(kāi)發(fā)的Python語(yǔ)言第三方庫(kù)。
Python開(kāi)發(fā)者可以使用pip程序快速的安裝PySpark并像其它三方庫(kù)那樣直接使用。

 小結(jié)

1.什么是Spark、什么是PySpark

  • Spark是Apache基金會(huì)旗下的頂級(jí)開(kāi)源項(xiàng)目,用于對(duì)海量數(shù)據(jù)進(jìn)行大規(guī)模分布式計(jì)算。
  • PySpark是Spark的Python實(shí)現(xiàn),是Spark為Python開(kāi)發(fā)者提供的編程入口,用于以Python代碼完成Spark任務(wù)的開(kāi)發(fā)
  • PySpark不僅可以作為Python第三方庫(kù)使用,也可以將程序提交的Spark集群環(huán)境中,調(diào)度大規(guī)模集群進(jìn)行執(zhí)行。

2.為什么要學(xué)習(xí)PySpark?
大數(shù)據(jù)開(kāi)發(fā)是Python眾多就業(yè)方向中的明星賽道,薪資高崗位多,Spark ( PySpark)又是大數(shù)據(jù)開(kāi)發(fā)中的核心技術(shù)

二.構(gòu)建PySpark執(zhí)行環(huán)境入口對(duì)象

想要使用PySpark庫(kù)完成數(shù)據(jù)處理,首先需要構(gòu)建一個(gè)執(zhí)行環(huán)境入口對(duì)象。PySpark的執(zhí)行環(huán)境入口對(duì)象是:類(lèi)SparkContext的類(lèi)對(duì)象

 注意:

 紅框里面的兩個(gè)都是一個(gè)意思,上面的方法叫做鏈?zhǔn)秸{(diào)用

#導(dǎo)包
from pyspark import SparkConf,SparkContext
#創(chuàng)建SparkConf類(lèi)對(duì)象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")
#基于SparkConf類(lèi)對(duì)象創(chuàng)建SparkContext對(duì)象
sc=SparkContext(conf=conf)
#打印Pyspark版本
print(sc.version)
#停止SparkContext對(duì)象的運(yùn)行(停止PySpark程序)
sc.stop()

 注意:要想運(yùn)行成功需要下載JDK并配置好環(huán)境變量

PySpark的編程模型

SparkContext類(lèi)對(duì)象,是PySpark編程中一切功能的入口。PySpark的編程,主要分為如下三大步驟:

  • 通過(guò)SparkContext對(duì)象,完成數(shù)據(jù)輸入
  • 輸入數(shù)據(jù)后得到RDD對(duì)象,對(duì)RDD對(duì)象進(jìn)行迭代計(jì)算
  • 最終通過(guò)RDD對(duì)象的成員方法,完成數(shù)據(jù)輸出工作

小結(jié)

1.如何安裝PySpark庫(kù)
        pip install pyspark
2.為什么要構(gòu)建SparkContext對(duì)象作為執(zhí)行入口
        PySpark的功能都是從SparkContext對(duì)象作為開(kāi)始
3.PySpark的編程模型是?

  • 數(shù)據(jù)輸入:通過(guò)SparkContext完成數(shù)據(jù)讀取
  • 數(shù)據(jù)計(jì)算:讀取到的數(shù)據(jù)轉(zhuǎn)換為RDD對(duì)象,調(diào)用RDD的成員方法完成計(jì)算
  • 數(shù)據(jù)輸出:調(diào)用RDD的數(shù)據(jù)輸出相關(guān)成員方法,將結(jié)果輸出到list、元組、字典、文本文件、數(shù)據(jù)庫(kù)等

三.RDD對(duì)象

如圖可見(jiàn),PySpark支持多種數(shù)據(jù)的輸入,在輸入完成后,都會(huì)得到一個(gè):RDD類(lèi)的對(duì)象
RDD全稱(chēng)為:彈性分布式數(shù)據(jù)集( Resilient Distributed Datasets)
PySpark針對(duì)數(shù)據(jù)的處理,都是以RDD對(duì)象作為載體,即:

  • 數(shù)據(jù)存儲(chǔ)在RDD內(nèi)
  • 各類(lèi)數(shù)據(jù)的計(jì)算方法,也都是RDD的成員方法
  • RDD的數(shù)據(jù)計(jì)算方法,返回值依舊是RDD對(duì)象

python數(shù)據(jù)容器轉(zhuǎn)RDD對(duì)象

PySpark支持通過(guò)Sparkcontext對(duì)象的parallelize成員方法,將:

  • list
  • tuple
  • set
  • dict
  • str

轉(zhuǎn)為PySpark的RDD對(duì)象

代碼:

 注意

  • 字符串會(huì)被拆分出1個(gè)個(gè)的字符
  • 存入RDD對(duì)象字典僅有key會(huì)被存入RDD對(duì)象
  • 如果要查看RDD里面有什么內(nèi)容,需要用collect()方法

演示

#導(dǎo)包
from pyspark import  SparkConf,SparkContext
#創(chuàng)建SparkConf類(lèi)對(duì)象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark")
#基于SparkConf類(lèi)對(duì)象創(chuàng)建SparkContext對(duì)象
sc=SparkContext(conf=conf)
 
#通過(guò)parallelize方法將python對(duì)象加載到Spark內(nèi),成為RDD對(duì)象
rdd1=sc.parallelize([1,2,3,4,5])
rdd2=sc.parallelize((1,2,3,4,5))
rdd3=sc.parallelize("abcdefg")
rdd4=sc.parallelize({1,2,3,4,5})
rdd5=sc.parallelize({"key1":"value1","key2":"value2"})
#如果要查看RDD里面有什么內(nèi)容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())
#停止SparkContext對(duì)象的運(yùn)行(停止PySpark程序)
sc.stop()

結(jié)果是

 讀取文件轉(zhuǎn)RDD對(duì)象

PySpark也支持通過(guò)SparkContext入口對(duì)象,來(lái)讀取文件,來(lái)構(gòu)建出RDD對(duì)象。

 演示

#導(dǎo)包
from pyspark import  SparkConf,SparkContext
#創(chuàng)建SparkConf類(lèi)對(duì)象
conf=SparkConf().setMaster("local[*]").setAppName("test_spark")
#基于SparkConf類(lèi)對(duì)象創(chuàng)建SparkContext對(duì)象
sc=SparkContext(conf=conf)
#用textFile方法,讀取文件數(shù)據(jù)加載到Spark中,成為RDD對(duì)象
rdd=sc.textFile("D:/game.txt")
print(rdd.collect())
#停止SparkContext對(duì)象的運(yùn)行(停止PySpark程序)
sc.stop()

結(jié)果是

到此這篇關(guān)于PySpark和RDD對(duì)象詳解的文章就介紹到這了,更多相關(guān)PySpark和RDD對(duì)象內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 基于python-opencv3實(shí)現(xiàn)圖像顯示和保存操作

    基于python-opencv3實(shí)現(xiàn)圖像顯示和保存操作

    這篇文章主要介紹了基于python opencv3的圖像顯示和保存操作方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值 ,需要的朋友可以參考下
    2019-06-06
  • Python?isdigit()函數(shù)使用詳解

    Python?isdigit()函數(shù)使用詳解

    這篇文章主要介紹了Python?isdigit()函數(shù)使用方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-07-07
  • Windows下Python3.6安裝第三方模塊的方法

    Windows下Python3.6安裝第三方模塊的方法

    這篇文章主要介紹了Windows下Python3.6安裝第三方模塊的方法,需要的朋友可以參考下
    2018-11-11
  • Python配置文件解析模塊ConfigParser使用實(shí)例

    Python配置文件解析模塊ConfigParser使用實(shí)例

    這篇文章主要介紹了Python配置文件解析模塊ConfigParser使用實(shí)例,本文講解了figParser簡(jiǎn)介、ConfigParser 初始工作、ConfigParser 常用方法、ConfigParser使用實(shí)例等內(nèi)容,需要的朋友可以參考下
    2015-04-04
  • 基于PyTorch實(shí)現(xiàn)EdgeCNN的實(shí)戰(zhàn)教程

    基于PyTorch實(shí)現(xiàn)EdgeCNN的實(shí)戰(zhàn)教程

    本文我們將使用PyTorch來(lái)簡(jiǎn)易實(shí)現(xiàn)一個(gè)EdgeCNN,不使用PyG庫(kù),讓新手可以理解如何PyTorch來(lái)搭建一個(gè)簡(jiǎn)易的圖網(wǎng)絡(luò)實(shí)例demo,感興趣的朋友跟隨小編一起看看吧
    2023-02-02
  • Python Locals變量管理新嘗試引領(lǐng)代碼風(fēng)潮

    Python Locals變量管理新嘗試引領(lǐng)代碼風(fēng)潮

    在Python中,locals()函數(shù)是一個(gè)強(qiáng)大的工具,它使程序員能夠訪問(wèn)和操作當(dāng)前作用域內(nèi)的局部變量,本文將深入探討locals()函數(shù)的功能、應(yīng)用和重要性
    2024-01-01
  • Python?Pandas多種添加行列數(shù)據(jù)方法總結(jié)

    Python?Pandas多種添加行列數(shù)據(jù)方法總結(jié)

    在進(jìn)行數(shù)據(jù)分析時(shí)經(jīng)常需要按照一定條件創(chuàng)建新的數(shù)據(jù)列,然后進(jìn)行進(jìn)一步分析,下面這篇文章主要給大家介紹了關(guān)于Python?Pandas多種添加行列數(shù)據(jù)方法的相關(guān)資料,需要的朋友可以參考下
    2022-07-07
  • 從多個(gè)tfrecord文件中無(wú)限讀取文件的例子

    從多個(gè)tfrecord文件中無(wú)限讀取文件的例子

    今天小編就為大家分享一篇從多個(gè)tfrecord文件中無(wú)限讀取文件的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-02-02
  • python游戲庫(kù)pygame經(jīng)典教程(推薦!)

    python游戲庫(kù)pygame經(jīng)典教程(推薦!)

    Python Pygame是一款專(zhuān)門(mén)為開(kāi)發(fā)和設(shè)計(jì) 2D 電子游戲而生的軟件包,是入門(mén)級(jí)游戲開(kāi)發(fā)庫(kù),下面這篇文章主要給大家介紹了python游戲庫(kù)pygame經(jīng)典教程的相關(guān)資料,需要的朋友可以參考下
    2022-12-12
  • pip安裝路徑修改的詳細(xì)方法步驟

    pip安裝路徑修改的詳細(xì)方法步驟

    在實(shí)際使用安裝python的pip安裝依賴(lài)庫(kù)是非常的便捷的,下面這篇文章主要給大家介紹了關(guān)于pip安裝路徑修改的詳細(xì)方法步驟,文中通過(guò)圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2022-06-06

最新評(píng)論