快捷導(dǎo)航

基于Jupyter notebook搭建Spark集群開(kāi)發(fā)環(huán)境的詳細(xì)過(guò)程

更新時(shí)間：2021年10月12日 11:38:59 作者：apr鵬鵬

Jupyter Notebook是一個(gè)開(kāi)源并且使用很廣泛項(xiàng)目，本文介紹如何基于Jupyter notebook搭建Spark集群開(kāi)發(fā)環(huán)境，通過(guò)實(shí)例截圖相結(jié)合給大家介紹的非常詳細(xì)，需要的朋友參考下吧

一、概念介紹：

1、Sparkmagic：它是一個(gè)在Jupyter Notebook中的通過(guò)Livy服務(wù)器 Spark REST與遠(yuǎn)程Spark群集交互工作工具。Sparkmagic項(xiàng)目包括一組以多種語(yǔ)言交互運(yùn)行Spark代碼的框架和一些內(nèi)核，可以使用這些內(nèi)核將Jupyter Notebook中的代碼轉(zhuǎn)換在Spark環(huán)境運(yùn)行。

2、Livy：它是一個(gè)基于Spark的開(kāi)源REST服務(wù)，它能夠通過(guò)REST的方式將代碼片段或是序列化的二進(jìn)制代碼提交到Spark集群中去執(zhí)行。它提供了以下這些基本功能：提交Scala、Python或是R代碼片段到遠(yuǎn)端的Spark集群上執(zhí)行，提交Java、Scala、Python所編寫的Spark作業(yè)到遠(yuǎn)端的Spark集群上執(zhí)行和提交批處理應(yīng)用在集群中運(yùn)行

二、基本框架

為下圖所示：

三、準(zhǔn)備工作：

具備提供Saprk集群，自己可以搭建或者直接使用華為云上服務(wù)，如MRS，并且在集群上安裝Spark客戶端。同節(jié)點(diǎn)（可以是docker容器或者虛擬機(jī)）安裝Jupyter Notebook和Livy，安裝包的路徑為：https://livy.incubator.apache.org/download/

四、配置并啟動(dòng)Livy：

修改livy.conf參考：https://enterprise-docs.anaconda.com/en/latest/admin/advanced/config-livy-server.html

添加如下配置：

livy.spark.master = yarn
livy.spark.deploy-mode = cluster
livy.impersonation.enabled = false
livy.server.csrf-protection.enabled = false
livy.server.launch.kerberos.keytab=/opt/workspace/keytabs/user.keytab
livy.server.launch.kerberos.principal=miner
livy.superusers=miner

修改livy-env.sh, 配置SPARK_HOME、HADOOP_CONF_DIR等環(huán)境變量

export JAVA_HOME=/opt/Bigdata/client/JDK/jdk
export HADOOP_CONF_DIR=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop
export SPARK_HOME=/opt/Bigdata/client/Spark2x/spark
export SPARK_CONF_DIR=/opt/Bigdata/client/Spark2x/spark/conf
export LIVY_LOG_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/logs
export LIVY_PID_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/pids
export LIVY_SERVER_JAVA_OPTS="-Djava.security.krb5.conf=/opt/Bigdata/client/KrbClient/kerberos/var/krb5kdc/krb5.conf -Dzookeeper.server.principal=zookeeper/hadoop.hadoop.com -Djava.security.auth.login.config=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop/jaas.conf -Xmx128m"

啟動(dòng)Livy：

./bin/livy-server start

五、安裝Jupyter Notebook和sparkmagic

Jupyter Notebook是一個(gè)開(kāi)源并且使用很廣泛項(xiàng)目，安裝流程不在此贅述

sparkmagic可以理解為在Jupyter Notebook中的一種kernel，直接pip install sparkmagic。注意安裝前系統(tǒng)必須具備gcc python-dev libkrb5-dev工具，如果沒(méi)有，apt-get install或者yum install安裝。安裝完以后會(huì)生成$HOME/.sparkmagic/config.json文件，此文件為sparkmagic的關(guān)鍵配置文件，兼容spark的配置。關(guān)鍵配置如圖所示

其中url為L(zhǎng)ivy服務(wù)的ip和端口，支持http和https兩種協(xié)議

六、添加sparkmagic kernel

PYTHON3_KERNEL_DIR="$(jupyter kernelspec list | grep -w "python3" | awk '{print $2}')"
KERNELS_FOLDER="$(dirname "${PYTHON3_KERNEL_DIR}")"
SITE_PACKAGES="$(pip show sparkmagic|grep -w "Location" | awk '{print $2}')"
cp -r ${SITE_PACKAGES}/sparkmagic/kernels/pysparkkernel ${KERNELS_FOLDER}

七、在Jupyter Notebook中運(yùn)行spark代碼驗(yàn)證：

八、訪問(wèn)Livy查看當(dāng)前session日志：

到此這篇關(guān)于基于Jupyter notebook搭建Spark集群開(kāi)發(fā)環(huán)境的詳細(xì)過(guò)程的文章就介紹到這了,更多相關(guān)基于Jupyter notebook搭建Spark集群開(kāi)發(fā)環(huán)境內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

基于Jupyter notebook搭建Spark集群開(kāi)發(fā)環(huán)境的詳細(xì)過(guò)程

一、概念介紹：

二、基本框架

三、準(zhǔn)備工作：

四、配置并啟動(dòng)Livy：

五、安裝Jupyter Notebook和sparkmagic

六、添加sparkmagic kernel

七、在Jupyter Notebook中運(yùn)行spark代碼驗(yàn)證：

八、訪問(wèn)Livy查看當(dāng)前session日志：

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

基于Jupyter notebook搭建Spark集群開(kāi)發(fā)環(huán)境的詳細(xì)過(guò)程

一、概念介紹：

二、基本框架

三、準(zhǔn)備工作：

四、配置并啟動(dòng)Livy：

五、安裝Jupyter Notebook和sparkmagic

六、添加sparkmagic kernel

七、在Jupyter Notebook中運(yùn)行spark代碼驗(yàn)證：

八、訪問(wèn)Livy查看當(dāng)前session日志：

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、概念介紹：

二、基本框架

三、準(zhǔn)備工作：

四、配置并啟動(dòng)Livy：

六、添加sparkmagic kernel

七、在Jupyter Notebook中運(yùn)行spark代碼驗(yàn)證：