欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Spark-Sql入門程序示例詳解

 更新時間:2021年12月03日 11:49:24   作者:山不在高水不在深  
Spark?SQL?作為?Spark?四大核心組件之一,主要用于處理結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),它支持在Spark?中使用?SQL?對數(shù)據(jù)進行查詢,本文給大家介紹Spark-Sql入門程序,感興趣的朋友跟隨小編一起看看吧

SparkSQL運行架構(gòu)

Spark SQL對SQL語句的處理,首先會將SQL語句進行解析(Parse),然后形成一個Tree,在后續(xù)的如綁定、優(yōu)化等處理過程都是對Tree的操作,而操作的方法是采用Rule,通過模式匹配,對不同類型的節(jié)點采用不同的操作。

spark-sql是用來處理結(jié)構(gòu)化數(shù)據(jù)的模塊,是入門spark的首要模塊。

技術(shù)的學(xué)習(xí)無非就是去了解它的API,但是Spark有點難,因為它的例子和網(wǎng)上能搜到的基本都是Scala寫的。我們這里使用Java。

入門例子

數(shù)據(jù)處理的第一個例子通常都是word count,就是統(tǒng)計一個文件里每個單詞出現(xiàn)了幾次。我們也來試一下。

> 這個例子網(wǎng)上有很多,即使是通過spark實現(xiàn)的也不少;這里面大部分都是使用Scala寫的,我沒有試過;少部分是通過Java寫的;

Java里面的例子有一些是使用RDD實現(xiàn)的,只有極個別是通過DataSet來做的。但即使這一小撮例子,我也跑不通。

所以我自己來嘗試完成這個例子,看到別人用Scala寫三五行就完成了,而我嘗試了一整天幾無進展。在網(wǎng)上東拼西湊熟悉Spark的Java?

還是以我們前面的例子來改:

String logFile = "words";
SparkSession spark = SparkSession.builder().appName("Simple Application").master("local").getOrCreate();
Dataset<String> logData = spark.read().textFile(logFile).cache();

System.out.println("行數(shù):" + logData.count());這里我不再使用之前的README文件,自己創(chuàng)建了一個words文件,內(nèi)容隨意寫了一堆單詞。

執(zhí)行程序,可以正常打印出來:

接下來我們需要把句子分割成一個個單詞合在一起,然后統(tǒng)計每個單詞出現(xiàn)的次數(shù)。

> 可能有人會說,這個簡單,我用Java8的流一下就處理好了:

把行集合通過flatMap處理,每一行通過split(" ")分割成一個獨立的單詞集合,再把結(jié)果通過自身groupBy一下就拿到終止數(shù)據(jù)結(jié)構(gòu)Map了。

最后把map的key和value的大小拿到就好了。

的確,使用Java就是這樣實現(xiàn)。但是Spark提供了一套和Java的流API名字和效果類似的工具,區(qū)別是Spark的是分布式API

我們通過Spark的flatMap先來處理一下:

Dataset<String> words = logData.flatMap((FlatMapFunction<String, String>) k -> Arrays.asList(k.split("\\s")).iterator(), Encoders.STRING());
System.out.println("單詞數(shù):" + words.count());
words.foreach(k -> {
System.out.println("W:" + k);
});

不同于Java的流,spark這個flatMap的返回值是可以直接訪問結(jié)果的:

> 可能有人留意到spark中函數(shù)式方法的參數(shù)定義和Java差距較大。他們的參數(shù)不太一樣,還多了個編碼器。目前來講我還不清楚為啥這樣定義,不過印象中編碼器也是spark3的重要優(yōu)化內(nèi)容。

再Java中使用Scala的方法總是有些怪異,Lambda表達式前面總是需要強制類型轉(zhuǎn)換,只是為了指明參數(shù)類型,否則需要new一個匿名類。

這個也花了我不少時間,后來找到一個網(wǎng)頁org.apache.spark.sql.Dataset.flatMap java code examples | Tabnine

再往后我迷茫了:

KeyValueGroupedDataset<String, String> group = words.groupByKey((Function1<String, String>) k -> k, Encoders.STRING());

這樣我已經(jīng)group好了,但是返回的不是DataSet,我也不知道這個返回有啥用,怎么拿到里面的內(nèi)容呢?我費了好大勁沒搞定。

比如我發(fā)現(xiàn)count方法會返回一個DataSet:

看起來正是我想要的,但是當(dāng)我想把它輸出竟然執(zhí)行報錯:

ount.foreach(t -> {
    System.out.println(t);
});

別說foreach了,就算想看看里面的數(shù)量(就像一開始我們查看了文件有幾行那樣)都會報錯,錯誤內(nèi)容一樣

count.count();

查了很多資料,大意是說spark的計算方法都是分布式的,各個任務(wù)之間需要通信,通信時需要序列化來傳遞信息。所以上面我們能看文件行數(shù)因為類型是String,有序列化標(biāo)志;現(xiàn)在生成的是元組,不能序列化。我嘗試了各種方法,甚至自己創(chuàng)建新類模擬了計算過程還是不行

查了好久資料,比如Job aborted due to stage failure: Task not serializable: | Databricks Spark Knowledge Base (gitbooks.io)依然沒有解決。偶然的機會找到一個令人激動的網(wǎng)站Spark Groupby Example with DataFrame — SparkByExamples終于解決了我的問題。

使用DataFrame

DataFrame雖然是spark提供的重要工具,但是再Java上并沒有對應(yīng)的類,只是把DataSet的泛型對象改成Row而已。注意這個Row沒有泛型定義,所以里面有哪些列不知道

可以從一開始就把DataSet轉(zhuǎn)成DataFrame:

但是可以看到要從Row里面拿數(shù)據(jù)比較麻煩。所以目前我只在需要序列化的地方轉(zhuǎn):

到此這篇關(guān)于Spark-Sql入門程序的文章就介紹到這了,更多相關(guān)Spark-Sql入門內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 淺談java中六大時間類的使用和區(qū)別

    淺談java中六大時間類的使用和區(qū)別

    下面小編就為大家?guī)硪黄獪\談java中六大時間類的使用和區(qū)別。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-01-01
  • Springboot自動配置與@Configuration配置類詳解

    Springboot自動配置與@Configuration配置類詳解

    這篇文章主要介紹了SpringBoot中的@Configuration與自動配置,在進行項目編寫前,我們還需要知道一個東西,就是SpringBoot對我們的SpringMVC還做了哪些配置,包括如何擴展,如何定制,只有把這些都搞清楚了,我們在之后使用才會更加得心應(yīng)手
    2022-07-07
  • 你什么是Elastic Stack(ELK)

    你什么是Elastic Stack(ELK)

    這篇文章主要介紹了你什么是Elastic Stack(ELK),ELK是三款軟件的簡稱,分別是Elasticsearch、Logstash、Kibana組成,需要的朋友可以參考下
    2023-04-04
  • SpringBoot3集成SLF4J+logback進行日志記錄的實現(xiàn)

    SpringBoot3集成SLF4J+logback進行日志記錄的實現(xiàn)

    本文主要介紹了SpringBoot3集成SLF4J+logback進行日志記錄的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-01-01
  • 淺談Java中注解Annotation的定義、使用、解析

    淺談Java中注解Annotation的定義、使用、解析

    下面小編就為大家?guī)硪黄獪\談Java中注解Annotation的定義、使用、解析。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-04-04
  • 使用SkyWalking監(jiān)控Java服務(wù)的過程

    使用SkyWalking監(jiān)控Java服務(wù)的過程

    這篇文章主要介紹了使用SkyWalking監(jiān)控Java服務(wù),介紹一個對源碼0入侵的Java服務(wù)監(jiān)控方式,SkyWalking Agent,只需要啟動Java程序的時候加幾個參數(shù),就能對Java服務(wù)進行可視化監(jiān)控,需要的朋友可以參考下
    2023-08-08
  • Java synchronized偏向鎖的概念與使用

    Java synchronized偏向鎖的概念與使用

    因為在我們寫的程序當(dāng)中可能會經(jīng)常使用到synchronized關(guān)鍵字,因此JVM對synchronized做出了很多優(yōu)化,而在本篇文章當(dāng)中我們將仔細(xì)介紹JVM對synchronized的偏向鎖的細(xì)節(jié)
    2023-02-02
  • Java畢業(yè)設(shè)計實戰(zhàn)之醫(yī)院心理咨詢問診系統(tǒng)的實現(xiàn)

    Java畢業(yè)設(shè)計實戰(zhàn)之醫(yī)院心理咨詢問診系統(tǒng)的實現(xiàn)

    這是一個使用了java+Spring+Maven+mybatis+Vue+mysql開發(fā)的醫(yī)院心理咨詢問診系統(tǒng),是一個畢業(yè)設(shè)計的實戰(zhàn)練習(xí),具有心理咨詢問診該有的所有功能,感興趣的朋友快來看看吧
    2022-01-01
  • java 計算中位數(shù)的實現(xiàn)方法

    java 計算中位數(shù)的實現(xiàn)方法

    這篇文章主要介紹了java 計算中位數(shù)的實現(xiàn)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-08-08
  • java數(shù)據(jù)庫唯一id生成工具類

    java數(shù)據(jù)庫唯一id生成工具類

    這篇文章主要為大家詳細(xì)介紹了java數(shù)據(jù)庫唯一id生成工具類,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-04-04

最新評論