欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Spark集群框架的搭建與入門

 更新時間:2021年06月18日 11:27:05   作者:知了一笑  
Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的,基于內(nèi)存快速通用,可擴展的集群計算引擎,實現(xiàn)了高效的DAG執(zhí)行引擎,可以通過基于內(nèi)存來高效處理數(shù)據(jù)流,運算速度相比于MapReduce得到了顯著的提高。

一、Spark概述

運行結(jié)構(gòu)

Driver

運行Spark的Applicaion中main()函數(shù),會創(chuàng)建SparkContext,SparkContext負責和Cluster-Manager進行通信,并負責申請資源、任務(wù)分配和監(jiān)控等。

ClusterManager

負責申請和管理在WorkerNode上運行應(yīng)用所需的資源,可以高效地在一個計算節(jié)點到數(shù)千個計算節(jié)點之間伸縮計算,目前包括Spark原生的ClusterManager、ApacheMesos和HadoopYARN。

Executor

Application運行在WorkerNode上的一個進程,作為工作節(jié)點負責運行Task任務(wù),并且負責將數(shù)據(jù)存在內(nèi)存或者磁盤上,每個 Application都有各自獨立的一批Executor,任務(wù)間相互獨立。

二、環(huán)境部署

1、Scala環(huán)境

安裝包管理

[root@hop01 opt]# tar -zxvf scala-2.12.2.tgz
[root@hop01 opt]# mv scala-2.12.2 scala2.12

配置變量

[root@hop01 opt]# vim /etc/profile

export SCALA_HOME=/opt/scala2.12
export PATH=$PATH:$SCALA_HOME/bin

[root@hop01 opt]# source /etc/profile

版本查看

[root@hop01 opt]# scala -version

Scala環(huán)境需要部署在Spark運行的相關(guān)服務(wù)節(jié)點上。

2、Spark基礎(chǔ)環(huán)境

安裝包管理

[root@hop01 opt]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz
[root@hop01 opt]# mv spark-2.1.1-bin-hadoop2.7 spark2.1

配置變量

[root@hop01 opt]# vim /etc/profile

export SPARK_HOME=/opt/spark2.1
export PATH=$PATH:$SPARK_HOME/bin

[root@hop01 opt]# source /etc/profile

版本查看

[root@hop01 opt]# spark-shell

3、Spark集群配置

服務(wù)節(jié)點

[root@hop01 opt]# cd /opt/spark2.1/conf/
[root@hop01 conf]# cp slaves.template slaves
[root@hop01 conf]# vim slaves

hop01
hop02
hop03

環(huán)境配置

[root@hop01 conf]# cp spark-env.sh.template spark-env.sh
[root@hop01 conf]# vim spark-env.sh

export JAVA_HOME=/opt/jdk1.8
export SCALA_HOME=/opt/scala2.12
export SPARK_MASTER_IP=hop01
export SPARK_LOCAL_IP=安裝節(jié)點IP
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop2.7/etc/hadoop

注意SPARK_LOCAL_IP的配置。

4、Spark啟動

依賴Hadoop相關(guān)環(huán)境,所以要先啟動。

啟動:/opt/spark2.1/sbin/start-all.sh
停止:/opt/spark2.1/sbin/stop-all.sh

這里在主節(jié)點會啟動兩個進程:Master和Worker,其他節(jié)點只啟動一個Worker進程。

5、訪問Spark集群

默認端口是:8080。

http://hop01:8080/

運行基礎(chǔ)案例:

[root@hop01 spark2.1]# cd /opt/spark2.1/
[root@hop01 spark2.1]# bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.1.1.jar

運行結(jié)果:Pi is roughly 3.1455357276786384

三、開發(fā)案例

1、核心依賴

依賴Spark2.1.1版本:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

引入Scala編譯插件:

<plugin>
    <groupId>net.alchim31.maven</groupId>
    <artifactId>scala-maven-plugin</artifactId>
    <version>3.2.2</version>
    <executions>
        <execution>
            <goals>
                <goal>compile</goal>
                <goal>testCompile</goal>
            </goals>
        </execution>
    </executions>
</plugin>

2、案例代碼開發(fā)

讀取指定位置的文件,并輸出文件內(nèi)容單詞統(tǒng)計結(jié)果。

@RestController
public class WordWeb implements Serializable {

    @GetMapping("/word/web")
    public String getWeb (){
        // 1、創(chuàng)建Spark的配置對象
        SparkConf sparkConf = new SparkConf().setAppName("LocalCount")
                                             .setMaster("local[*]");

        // 2、創(chuàng)建SparkContext對象
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        sc.setLogLevel("WARN");

        // 3、讀取測試文件
        JavaRDD lineRdd = sc.textFile("/var/spark/test/word.txt");

        // 4、行內(nèi)容進行切分
        JavaRDD wordsRdd = lineRdd.flatMap(new FlatMapFunction() {
            @Override
            public Iterator call(Object obj) throws Exception {
                String value = String.valueOf(obj);
                String[] words = value.split(",");
                return Arrays.asList(words).iterator();
            }
        });

        // 5、切分的單詞進行標注
        JavaPairRDD wordAndOneRdd = wordsRdd.mapToPair(new PairFunction() {
            @Override
            public Tuple2 call(Object obj) throws Exception {
                //將單詞進行標記:
                return new Tuple2(String.valueOf(obj), 1);
            }
        });

        // 6、統(tǒng)計單詞出現(xiàn)次數(shù)
        JavaPairRDD wordAndCountRdd = wordAndOneRdd.reduceByKey(new Function2() {
            @Override
            public Object call(Object obj1, Object obj2) throws Exception {
                return Integer.parseInt(obj1.toString()) + Integer.parseInt(obj2.toString());
            }
        });

        // 7、排序
        JavaPairRDD sortedRdd = wordAndCountRdd.sortByKey();
        List<Tuple2> finalResult = sortedRdd.collect();

        // 8、結(jié)果打印
        for (Tuple2 tuple2 : finalResult) {
            System.out.println(tuple2._1 + " ===> " + tuple2._2);
        }

        // 9、保存統(tǒng)計結(jié)果
        sortedRdd.saveAsTextFile("/var/spark/output");
        sc.stop();
        return "success" ;
    }
}

打包執(zhí)行結(jié)果:

四、源代碼地址

GitHub·地址
https://github.com/cicadasmile/big-data-parent
GitEE·地址
https://gitee.com/cicadasmile/big-data-parent

以上就是Spark集群框架的搭建與入門的詳細內(nèi)容,更多關(guān)于Spark集群框架的搭建的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • java.Net.UnknownHostException異常處理問題解決

    java.Net.UnknownHostException異常處理問題解決

    這篇文章主要介紹了java.Net.UnknownHostException異常處理方法,問題原因是在系統(tǒng)的?/etc/Hostname中配置了主機名,而在/etc/hosts文件中沒有相應(yīng)的配置,本文給大家詳細講解,需要的朋友可以參考下
    2023-03-03
  • spring啟動加載程序的幾種方法介紹

    spring啟動加載程序的幾種方法介紹

    本篇文章主要介紹了spring啟動加載程序的幾種方法介紹,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-04-04
  • Java并發(fā)編程之線程安全性

    Java并發(fā)編程之線程安全性

    這篇文章主要介紹了Java并發(fā)編程之線程安全性,文章基于Java的相關(guān)內(nèi)容詳細的展開詳細介紹,需要的小伙伴可以參考一下
    2022-04-04
  • java Future 接口使用方法詳解

    java Future 接口使用方法詳解

    這篇文章主要介紹了java Future 接口使用方法詳解,F(xiàn)uture接口是Java線程Future模式的實現(xiàn),可以來進行異步計算的相關(guān)資料,需要的朋友可以參考下
    2017-03-03
  • JAVA各種加密與解密方式總結(jié)大全

    JAVA各種加密與解密方式總結(jié)大全

    這篇文章主要給大家介紹了關(guān)于JAVA各種加密與解密方式總結(jié)的相關(guān)資料,加密是指對原來為明文的文件或數(shù)據(jù)按某種算法進行處理,使其成為不可讀的一段代碼,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2023-07-07
  • Java實現(xiàn)讀取SFTP服務(wù)器指定目錄文件的方法

    Java實現(xiàn)讀取SFTP服務(wù)器指定目錄文件的方法

    SFTP是一種在安全通道上傳輸文件的協(xié)議,它是基于SSH(Secure Shell)協(xié)議的擴展,用于在客戶端和服務(wù)器之間進行加密的文件傳輸,這篇文章主要介紹了Java實現(xiàn)讀取SFTP服務(wù)器指定目錄文件,感興趣的朋友跟隨小編一起看看吧
    2023-08-08
  • springboot項目實現(xiàn)斷點續(xù)傳功能

    springboot項目實現(xiàn)斷點續(xù)傳功能

    這篇文章主要介紹了springboot項目實現(xiàn)斷點續(xù)傳,本文通過示例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-08-08
  • 詳解Spring?@Lazy注解為什么能破解死循環(huán)

    詳解Spring?@Lazy注解為什么能破解死循環(huán)

    這篇文章主要來和大家探討一下Spring中的@Lazy注解為什么能破解死循環(huán),文中的示例代碼講解詳細,具有一定的參考價值,需要的可以了解一下
    2023-07-07
  • Java利用遞歸實現(xiàn)樹形結(jié)構(gòu)的工具類

    Java利用遞歸實現(xiàn)樹形結(jié)構(gòu)的工具類

    有時候,我們的數(shù)據(jù)是帶有層級的,比如常見的省市區(qū)三級聯(lián)動,就是一層套著一層。而我們在數(shù)據(jù)庫存放數(shù)據(jù)的時候,往往是列表形式的,這個時候可能就需要遞歸處理為樹形結(jié)構(gòu)了。本文就為大家介紹了Java利用遞歸實現(xiàn)樹形結(jié)構(gòu)的工具類,希望對大家有所幫助
    2023-03-03
  • 如何使用BufferedReader循環(huán)讀文件

    如何使用BufferedReader循環(huán)讀文件

    這篇文章主要介紹了如何使用BufferedReader循環(huán)讀文件的操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-07-07

最新評論