pycharm連接spark教程
1.解壓Hadoop
解壓到任意盤,路徑不要帶中文路徑
進入保存后的bin目錄,查看,是否解壓成功
2.解壓spark
到任意位置,路徑不要帶有中文
3. 打開pycharm
把Hadoop,spark環(huán)境變量配置到pycharm中。
3.1新建項目
3.2在項目中創(chuàng)建一個python文件
3.3把Hadoop_home
python_home,pythonpath添加到Pycharm中.
- 1.HADOOP_HOME
- 2.SPARK_HOME
- 3.PYTHONPATH
注意?。。?/strong>
PYTHONPATH路徑要添加到D:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下
3.4 檢查是否有以下軟件包
3.4.1 如果沒有請按照以下教程下載,后期需要
3.4.2安裝py4j
3.4.3安裝pyspark推薦2.4.6版本
3.4.4安裝pip
3.5安裝findspark
4.把winutils.exe插件
放到Hadoop解壓后的/bin目錄下面
5.把以下代碼
復(fù)制到4.2步驟中,新建的python文件中
#添加此代碼 import findspark findspark.init() #在spark前,添加此代碼 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("WordCount").getOrCreate() spark.sparkContext.textFile("file:///D:/Hadoop/hadoop-2.7.7/README.txt")\ .flatMap(lambda x: x.split(' '))\ .map(lambda x: (x, 1))\ .reduceByKey(lambda x, y: x + y)\ .foreach(print)
必須要有這句話在spark前面?。?!
6.測試
出現(xiàn)以上內(nèi)容,表示pycharm連接spark成功。
總結(jié)
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
python 根據(jù)excel中顏色區(qū)分讀取的操作
這篇文章主要介紹了python 根據(jù)excel中顏色區(qū)分讀取的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03Python強化練習(xí)之Tensorflow2 opp算法實現(xiàn)月球登陸器
在面向?qū)ο蟪霈F(xiàn)之前,我們采用的開發(fā)方法都是面向過程的編程(OPP)。面向過程的編程中最常用的一個分析方法是“功能分解”。我們會把用戶需求先分解成模塊,然后把模塊分解成大的功能,再把大的功能分解成小的功能,整個需求就是按照這樣的方式,最終分解成一個一個的函數(shù)2021-10-10使用PyTorch/TensorFlow搭建簡單全連接神經(jīng)網(wǎng)絡(luò)
在本篇博客中,我們將介紹如何使用兩大深度學(xué)習(xí)框架——PyTorch 和 TensorFlow,構(gòu)建一個簡單的全連接神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含輸入層、一個隱藏層和輸出層,適合初學(xué)者理解神經(jīng)網(wǎng)絡(luò)的基本構(gòu)建模塊及訓(xùn)練流程,需要的朋友可以參考下2025-02-02Python使用MapReduce編程模型統(tǒng)計銷量
MapReduce是面向大數(shù)據(jù)并行處理的計算模型、框架和平臺,是一種計算引擎,可以把我們對大批量數(shù)據(jù)的計算通過抽象成map與reduce兩個子任務(wù)進行計算從而更快的得到想要的結(jié)果2022-04-04使用Python Pandas處理億級數(shù)據(jù)的方法
這篇文章主要介紹了使用Python Pandas處理億級數(shù)據(jù)的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2019-06-06