腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

pycharm連接spark教程

更新時(shí)間：2025年01月13日 15:07:47 作者：多學(xué)多看多練

這篇文章詳細(xì)介紹了如何在PyCharm中配置Hadoop和Spark環(huán)境,并提供了一個(gè)Python代碼示例來測(cè)試連接

1.解壓Hadoop

解壓到任意盤，路徑不要帶中文路徑

進(jìn)入保存后的bin目錄，查看，是否解壓成功

2.解壓spark

到任意位置，路徑不要帶有中文

3. 打開pycharm

把Hadoop，spark環(huán)境變量配置到pycharm中。

3.1新建項(xiàng)目

3.2在項(xiàng)目中創(chuàng)建一個(gè)python文件

3.3把Hadoop_home

python_home,pythonpath添加到Pycharm中.

1.HADOOP_HOME
2.SPARK_HOME
3.PYTHONPATH

注意?。?！

PYTHONPATH路徑要添加到D:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下

3.4 檢查是否有以下軟件包

3.4.1 如果沒有請(qǐng)按照以下教程下載，后期需要

3.4.2安裝py4j

3.4.3安裝pyspark推薦2.4.6版本

3.4.4安裝pip

3.5安裝findspark

4.把winutils.exe插件

放到Hadoop解壓后的/bin目錄下面

5.把以下代碼

復(fù)制到4.2步驟中，新建的python文件中

#添加此代碼
import findspark
findspark.init()
#在spark前，添加此代碼
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.sparkContext.textFile("file:///D:/Hadoop/hadoop-2.7.7/README.txt")\
        .flatMap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda x, y: x + y)\
        .foreach(print)

必須要有這句話在spark前面！??！

6.測(cè)試

出現(xiàn)以上內(nèi)容，表示pycharm連接spark成功。

總結(jié)

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

看看如何用Python繪制小米新版天價(jià)logo
這篇文章主要介紹了看看如何用Python繪制小米新版天價(jià)logo，幫助大家更好的理解和學(xué)習(xí)使用python，感興趣的朋友可以了解下
2021-04-04
python 根據(jù)excel中顏色區(qū)分讀取的操作
這篇文章主要介紹了python 根據(jù)excel中顏色區(qū)分讀取的操作，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2021-03-03
Python強(qiáng)化練習(xí)之Tensorflow2 opp算法實(shí)現(xiàn)月球登陸器
在面向?qū)ο蟪霈F(xiàn)之前，我們采用的開發(fā)方法都是面向過程的編程(OPP)。面向過程的編程中最常用的一個(gè)分析方法是“功能分解”。我們會(huì)把用戶需求先分解成模塊，然后把模塊分解成大的功能，再把大的功能分解成小的功能，整個(gè)需求就是按照這樣的方式，最終分解成一個(gè)一個(gè)的函數(shù)
2021-10-10
Python讀取MRI并顯示為灰度圖像實(shí)例代碼
這篇文章主要介紹了Python讀取MRI并顯示為灰度圖像實(shí)例代碼，具有一定借鑒價(jià)值,需要的朋友可以參考下
2018-01-01
使用PyTorch/TensorFlow搭建簡單全連接神經(jīng)網(wǎng)絡(luò)
在本篇博客中,我們將介紹如何使用兩大深度學(xué)習(xí)框架——PyTorch 和 TensorFlow,構(gòu)建一個(gè)簡單的全連接神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含輸入層、一個(gè)隱藏層和輸出層,適合初學(xué)者理解神經(jīng)網(wǎng)絡(luò)的基本構(gòu)建模塊及訓(xùn)練流程,需要的朋友可以參考下
2025-02-02
Python常用工具之音頻調(diào)整音量
這篇文章主要介紹一個(gè)可以將音頻提升音量的python常用工具，代碼具有一定的學(xué)習(xí)價(jià)值，感興趣的小伙伴可以了解一下
2021-11-11
Python使用MapReduce編程模型統(tǒng)計(jì)銷量
MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái)，是一種計(jì)算引擎，可以把我們對(duì)大批量數(shù)據(jù)的計(jì)算通過抽象成map與reduce兩個(gè)子任務(wù)進(jìn)行計(jì)算從而更快的得到想要的結(jié)果
2022-04-04
使用Python Pandas處理億級(jí)數(shù)據(jù)的方法
這篇文章主要介紹了使用Python Pandas處理億級(jí)數(shù)據(jù)的方法，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2019-06-06
django manage.py擴(kuò)展自定義命令方法
今天小編就為大家分享一篇django manage.py擴(kuò)展自定義命令方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2018-05-05
基于Python爬蟲采集天氣網(wǎng)實(shí)時(shí)信息
這篇文章主要介紹了基于Python爬蟲采集天氣網(wǎng)實(shí)時(shí)信息,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-06-06