pycharm連接spark教程
1.解壓Hadoop
解壓到任意盤,路徑不要帶中文路徑
進(jìn)入保存后的bin目錄,查看,是否解壓成功
2.解壓spark
到任意位置,路徑不要帶有中文
3. 打開pycharm
把Hadoop,spark環(huán)境變量配置到pycharm中。
3.1新建項(xiàng)目
3.2在項(xiàng)目中創(chuàng)建一個(gè)python文件
3.3把Hadoop_home
python_home,pythonpath添加到Pycharm中.
- 1.HADOOP_HOME
- 2.SPARK_HOME
- 3.PYTHONPATH
注意!??!
PYTHONPATH路徑要添加到D:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下
3.4 檢查是否有以下軟件包
3.4.1 如果沒有請按照以下教程下載,后期需要
3.4.2安裝py4j
3.4.3安裝pyspark推薦2.4.6版本
3.4.4安裝pip
3.5安裝findspark
4.把winutils.exe插件
放到Hadoop解壓后的/bin目錄下面
5.把以下代碼
復(fù)制到4.2步驟中,新建的python文件中
#添加此代碼 import findspark findspark.init() #在spark前,添加此代碼 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("WordCount").getOrCreate() spark.sparkContext.textFile("file:///D:/Hadoop/hadoop-2.7.7/README.txt")\ .flatMap(lambda x: x.split(' '))\ .map(lambda x: (x, 1))\ .reduceByKey(lambda x, y: x + y)\ .foreach(print)
必須要有這句話在spark前面!?。?/p>
6.測試
出現(xiàn)以上內(nèi)容,表示pycharm連接spark成功。
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- pycharm利用pyspark遠(yuǎn)程連接spark集群的實(shí)現(xiàn)
- Win10搭建Pyspark2.4.4+Pycharm開發(fā)環(huán)境的圖文教程(親測)
- windows下pycharm搭建spark環(huán)境并成功運(yùn)行 附源碼
- PyCharm搭建Spark開發(fā)環(huán)境的實(shí)現(xiàn)步驟
- pycharm編寫spark程序,導(dǎo)入pyspark包的3中實(shí)現(xiàn)方法
- PyCharm搭建Spark開發(fā)環(huán)境實(shí)現(xiàn)第一個(gè)pyspark程序
- PyCharm+PySpark遠(yuǎn)程調(diào)試的環(huán)境配置的方法
相關(guān)文章
python 根據(jù)excel中顏色區(qū)分讀取的操作
這篇文章主要介紹了python 根據(jù)excel中顏色區(qū)分讀取的操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03Python強(qiáng)化練習(xí)之Tensorflow2 opp算法實(shí)現(xiàn)月球登陸器
在面向?qū)ο蟪霈F(xiàn)之前,我們采用的開發(fā)方法都是面向過程的編程(OPP)。面向過程的編程中最常用的一個(gè)分析方法是“功能分解”。我們會(huì)把用戶需求先分解成模塊,然后把模塊分解成大的功能,再把大的功能分解成小的功能,整個(gè)需求就是按照這樣的方式,最終分解成一個(gè)一個(gè)的函數(shù)2021-10-10使用PyTorch/TensorFlow搭建簡單全連接神經(jīng)網(wǎng)絡(luò)
在本篇博客中,我們將介紹如何使用兩大深度學(xué)習(xí)框架——PyTorch 和 TensorFlow,構(gòu)建一個(gè)簡單的全連接神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含輸入層、一個(gè)隱藏層和輸出層,適合初學(xué)者理解神經(jīng)網(wǎng)絡(luò)的基本構(gòu)建模塊及訓(xùn)練流程,需要的朋友可以參考下2025-02-02Python使用MapReduce編程模型統(tǒng)計(jì)銷量
MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái),是一種計(jì)算引擎,可以把我們對大批量數(shù)據(jù)的計(jì)算通過抽象成map與reduce兩個(gè)子任務(wù)進(jìn)行計(jì)算從而更快的得到想要的結(jié)果2022-04-04使用Python Pandas處理億級數(shù)據(jù)的方法
這篇文章主要介紹了使用Python Pandas處理億級數(shù)據(jù)的方法,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2019-06-06django manage.py擴(kuò)展自定義命令方法
今天小編就為大家分享一篇django manage.py擴(kuò)展自定義命令方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05基于Python爬蟲采集天氣網(wǎng)實(shí)時(shí)信息
這篇文章主要介紹了基于Python爬蟲采集天氣網(wǎng)實(shí)時(shí)信息,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06