欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

java-spark中各種常用算子的寫法示例

 更新時間:2018年06月20日 08:42:31   作者:horseman  
這篇文章主要給大家介紹了關(guān)于java-spark中各種常用算子的寫法的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

Spark的算子的分類

從大方向來說,Spark 算子大致可以分為以下兩類:

1)Transformation 變換/轉(zhuǎn)換算子:這種變換并不觸發(fā)提交作業(yè),完成作業(yè)中間過程處理。

Transformation 操作是延遲計算的,也就是說從一個RDD 轉(zhuǎn)換生成另一個 RDD 的轉(zhuǎn)換操作不是馬上執(zhí)行,需要等到有 Action 操作的時候才會真正觸發(fā)運(yùn)算。

2)Action 行動算子:這類算子會觸發(fā) SparkContext 提交 Job 作業(yè)。

Action 算子會觸發(fā) Spark 提交作業(yè)(Job),并將數(shù)據(jù)輸出 Spark系統(tǒng)。

從小方向來說,Spark 算子大致可以分為以下三類:

1)Value數(shù)據(jù)類型的Transformation算子,這種變換并不觸發(fā)提交作業(yè),針對處理的數(shù)據(jù)項(xiàng)是Value型的數(shù)據(jù)。

2)Key-Value數(shù)據(jù)類型的Transfromation算子,這種變換并不觸發(fā)提交作業(yè),針對處理的數(shù)據(jù)項(xiàng)是Key-Value型的數(shù)據(jù)對。

3)Action算子,這類算子會觸發(fā)SparkContext提交Job作業(yè)。

引言

通常寫spark的程序用scala比較方便,畢竟spark的源碼就是用scala寫的。然而,目前java開發(fā)者特別多,尤其進(jìn)行數(shù)據(jù)對接、上線服務(wù)的時候,這時候,就需要掌握一些spark在java中的使用方法了

一、map

map在進(jìn)行數(shù)據(jù)處理、轉(zhuǎn)換的時候,不能更常用了

在使用map之前 首先要定義一個轉(zhuǎn)換的函數(shù) 格式如下:

Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的輸入類型 LabeledPoint是轉(zhuǎn)換后的輸出類型
 @Override
 public LabeledPoint call(String row) throws Exception {//重寫call方法
 String[] rowArr = row.split(",");
 int rowSize = rowArr.length;
 
 double[] doubleArr = new double[rowSize-1];
 
 //除了第一位的lable外 其余的部分解析成double 然后放到數(shù)組中
 for (int i = 1; i < rowSize; i++) {
  String each = rowArr[i];
  doubleArr[i] = Double.parseDouble(each);
 }
 
 //用剛才得到的數(shù)據(jù) 轉(zhuǎn)成向量
 Vector feature = Vectors.dense(doubleArr);
 double label = Double.parseDouble(rowArr[0]);
 //構(gòu)造用于分類訓(xùn)練的數(shù)據(jù)格式 LabelPoint
 LabeledPoint point = new LabeledPoint(label, feature);
 return point;
 }
 };

需要特別注意的是:

1、call方法的輸入應(yīng)該是轉(zhuǎn)換之前的數(shù)據(jù)行的類型  返回值應(yīng)是處理之后的數(shù)據(jù)行類型

2、如果轉(zhuǎn)換方法中調(diào)用了自定義的類,注意該類名必須實(shí)現(xiàn)序列化 比如

public class TreeEnsemble implements Serializable {
}

3、轉(zhuǎn)換函數(shù)中如果調(diào)用了某些類的對象,比如該方法需要調(diào)用外部的一個參數(shù),或者數(shù)值處理模型(標(biāo)準(zhǔn)化,歸一化等),則該對象需要聲明是final

然后就是在合適的時候調(diào)用該轉(zhuǎn)換函數(shù)了

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);

這種方式是需要將普通的rdd轉(zhuǎn)成javaRDD才能使用的,轉(zhuǎn)成javaRDD的這一步操作不耗時,不用擔(dān)心

二、filter

在避免數(shù)據(jù)出現(xiàn)空值、0等場景中也非常常用,可以滿足sql中where的功能

這里首先也是要定義一個函數(shù),該函數(shù)給定數(shù)據(jù)行 返回布爾值 實(shí)際效果是將返回為true的數(shù)據(jù)保留

Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的輸入類型 Boolean是對應(yīng)的輸出類型 用于判斷數(shù)據(jù)是否保留
 @Override
 public Boolean call(String row) throws Exception {//重寫call方法
 boolean flag = row!=null;
 return flag;
 }
 };

通常該函數(shù)實(shí)際使用中需要修改的僅僅是row的類型 也就是數(shù)據(jù)行的輸入類型,和上面的轉(zhuǎn)換函數(shù)不同,此call方法的返回值應(yīng)是固定為Boolean

然后是調(diào)用方式

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);

三、mapToPair

該方法和map方法有一些類似,也是對數(shù)據(jù)進(jìn)行一些轉(zhuǎn)換。不過此函數(shù)輸入一行 輸出的是一個元組,最常用的方法是用來做交叉驗(yàn)證 或者統(tǒng)計錯誤率 召回率 計算AUC等等

同樣,需要先定義一個轉(zhuǎn)換函數(shù)

Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是輸入類型 后面的兩個Object不要改動
 @Override
 public Tuple2 call(LabeledPoint row) throws Exception {//重寫call方法 通常只改動輸入?yún)?shù) 輸出不要改動
 double predicton = thismodel.predict(row.features());
 double label = row.label();
 return new Tuple2(predicton, label);
 }
 });

關(guān)于調(diào)用的類、類的對象,要求和之前的一致,類需要實(shí)現(xiàn)序列化,類的對象需要聲明成final類型

相應(yīng)的調(diào)用如下:

JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);

然后對該predictionsAndLabels的使用,計算準(zhǔn)確率、召回率、精準(zhǔn)率、AUC,接下來的博客中會有,敬請期待

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

  • SpringCloud消息總線Bus配置中心實(shí)現(xiàn)過程解析

    SpringCloud消息總線Bus配置中心實(shí)現(xiàn)過程解析

    這篇文章主要介紹了SpringCloud消息總線Bus配置中心實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-03-03
  • Java封裝好的mail包發(fā)送電子郵件的類

    Java封裝好的mail包發(fā)送電子郵件的類

    本文給大家分享了2個java封裝好的mail包發(fā)送電子郵件的類,并附上使用方法,小伙伴們可以根據(jù)自己的需求自由選擇。
    2016-01-01
  • java垃圾回收原理之GC算法基礎(chǔ)

    java垃圾回收原理之GC算法基礎(chǔ)

    本章簡要介紹GC的基本原理和相關(guān)技術(shù), 下一章節(jié)再詳細(xì)講解GC算法的具體實(shí)現(xiàn)。各種垃圾收集器的實(shí)現(xiàn)細(xì)節(jié)雖然并不相同,但總體而言,垃圾收集器都專注于兩件事情:查找所有存活對象,拋棄其他的部分,即死對象,不再使用的對象
    2022-01-01
  • 詳解Spring DI依賴注入的方式和類型

    詳解Spring DI依賴注入的方式和類型

    這篇文章主要介紹了詳解Spring DI依賴注入的方式和類型,DI是由容器動態(tài)的將某個依賴關(guān)系注入到組件之中。依賴注入的目的并非為軟件系統(tǒng)帶來更多功能,而是為了提升組件重用的頻率,并為系統(tǒng)搭建一個靈活、可擴(kuò)展的平臺,需要的朋友可以參考下
    2023-05-05
  • Java實(shí)現(xiàn)獲取控制臺輸出結(jié)果轉(zhuǎn)換為變量的詳細(xì)操作

    Java實(shí)現(xiàn)獲取控制臺輸出結(jié)果轉(zhuǎn)換為變量的詳細(xì)操作

    在Java編程中,有時需將控制臺的輸出捕獲為字符串,以便于后續(xù)的處理或測試,這種需求在日志記錄、單元測試或調(diào)試時尤為常見,下面,將通過詳細(xì)步驟來介紹如何使用ByteArrayOutputStream和PrintStream來實(shí)現(xiàn)這一功能,需要的朋友可以參考下
    2024-06-06
  • java 畫pdf用itext調(diào)整表格寬度、自定義各個列寬的方法

    java 畫pdf用itext調(diào)整表格寬度、自定義各個列寬的方法

    這篇文章主要介紹了java 畫pdf用itext調(diào)整表格寬度、自定義各個列寬的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-01-01
  • java.net.MalformedURLException異常的解決方法

    java.net.MalformedURLException異常的解決方法

    下面小編就為大家?guī)硪黄猨ava.net.MalformedURLException異常的解決方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-05-05
  • Mybatis中 SQL語句復(fù)用

    Mybatis中 SQL語句復(fù)用

    這篇文章主要介紹了Mybatis中 SQL語句復(fù)用,需要的朋友可以參考下
    2017-03-03
  • @ComponentScan注解用法之包路徑占位符解析

    @ComponentScan注解用法之包路徑占位符解析

    這篇文章主要介紹了@ComponentScan注解用法之包路徑占位符解析,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-08-08
  • Java并發(fā)編程之LongAdder執(zhí)行情況解析

    Java并發(fā)編程之LongAdder執(zhí)行情況解析

    這篇文章主要為大家介紹了Java并發(fā)編程之LongAdder執(zhí)行情況解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-04-04

最新評論