欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

SparkStreaming整合Kafka過(guò)程詳解

 更新時(shí)間:2023年01月27日 10:48:24   作者:健鑫.  
這篇文章主要介紹了SparkStreaming整合Kafka過(guò)程,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧

Spark Streaming連接kafka 的兩種方式

Receiver based Approah

  • KafkaUtils.createDstream基于接收器方式,消費(fèi)Kafka數(shù)據(jù),已淘汰
  • Receiver作為Task運(yùn)行在Executor等待數(shù)據(jù),一個(gè)Receiver效率低,需要開啟多個(gè),再手動(dòng)合并數(shù)據(jù),很麻煩
  • Receiver掛了,可能丟失數(shù)據(jù),需要開啟WAL(預(yù)寫日志)保證數(shù)據(jù)安全,效率低
  • 通過(guò)Zookeeper來(lái)連接kafka,offset存儲(chǔ)再zookeeper中
  • spark消費(fèi)的時(shí)候?yàn)榱吮WC數(shù)據(jù)不丟也會(huì)保存一份offset,可能出現(xiàn)數(shù)據(jù)不一致

Direct Approach

  • KafkaUtils.createDirectStream直連方式,streaming中每個(gè)批次的job直接調(diào)用Simple Consumer API獲取對(duì)應(yīng)Topic數(shù)據(jù)
  • Direct方式直接連接kafka分區(qū)獲取數(shù)據(jù),提高了并行能力
  • Direct方式調(diào)用kafka低階API,offset自己存儲(chǔ)和維護(hù),默認(rèn)由spark維護(hù)在checkpoint中
  • offset也可以自己手動(dòng)維護(hù),保存在mysql/redis中
// 從kafka加載數(shù)據(jù)
val kafkaParams = Map[String, Object](
  "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址
  "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規(guī)則
  "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規(guī)則
  "group.id" -> "sparkdemo",//消費(fèi)者組名稱
  //earliest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最早的消息開始消費(fèi)
  //latest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最后/最新的消息開始消費(fèi)
  //none:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有就報(bào)錯(cuò)
  "auto.offset.reset" -> "latest",
  "auto.commit.interval.ms"->"1000",//自動(dòng)提交的時(shí)間間隔
  "enable.auto.commit" -> (true: java.lang.Boolean)//是否自動(dòng)提交
)
val topics = Array("spark_kafka")//要訂閱的主題
//使用工具類從Kafka中消費(fèi)消息
val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
  ssc,
  LocationStrategies.PreferConsistent, //位置策略,使用源碼中推薦的
  ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費(fèi)策略,使用源碼中推薦的
)

代碼展示

自動(dòng)提交偏移量

object kafka_Demo01 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))
    ssc.checkpoint("data/ckp")
    // 從kafka加載數(shù)據(jù)
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址
      "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規(guī)則
      "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規(guī)則
      "group.id" -> "sparkdemo",//消費(fèi)者組名稱
      //earliest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最早的消息開始消費(fèi)
      //latest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最后/最新的消息開始消費(fèi)
      //none:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有就報(bào)錯(cuò)
      "auto.offset.reset" -> "latest",
      "auto.commit.interval.ms"->"1000",//自動(dòng)提交的時(shí)間間隔
      "enable.auto.commit" -> (true: java.lang.Boolean)//是否自動(dòng)提交
    )
    val topics = Array("spark_kafka")//要訂閱的主題
    //使用工具類從Kafka中消費(fèi)消息
    val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent, //位置策略,使用源碼中推薦的
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費(fèi)策略,使用源碼中推薦的
    )
    // 處理消息
    val infoDS = kafkaDS.map(record => {
      val topic = record.topic()
      val partition = record.partition()
      val offset = record.offset()
      val key = record.key()
      val value = record.value()
      val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
      info
    })
    // 輸出
    infoDS.print()
    ssc.start()
    ssc.awaitTermination()
    ssc.stop(true, true)
  }
}

手動(dòng)提交

提交代碼

// 處理消息
//注意提交的時(shí)機(jī):應(yīng)該是消費(fèi)完一小批就該提交一次offset,而在DStream一小批的體現(xiàn)是RDD
kafkaDS.foreachRDD(rdd => {
  rdd.foreach(record => {
    val topic = record.topic()
    val partition = record.partition()
    val offset = record.offset()
    val key = record.key()
    val value = record.value()
    val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
    info
    println("消費(fèi)" + info)
  })
  //獲取rdd中offset相關(guān)的信息:offsetRanges里面就包含了該批次各個(gè)分區(qū)的offset信息
  val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
  //提交
  kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
  println("當(dāng)前批次的數(shù)據(jù)已消費(fèi)并手動(dòng)提交")
})

完整代碼

object kafka_Demo02 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))
    ssc.checkpoint("data/ckp")
    // 從kafka加載數(shù)據(jù)
    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址
      "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規(guī)則
      "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規(guī)則
      "group.id" -> "sparkdemo",//消費(fèi)者組名稱
      //earliest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最早的消息開始消費(fèi)
      //latest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最后/最新的消息開始消費(fèi)
      //none:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有就報(bào)錯(cuò)
      "auto.offset.reset" -> "latest",
//      "auto.commit.interval.ms"->"1000",//自動(dòng)提交的時(shí)間間隔
      "enable.auto.commit" -> (false: java.lang.Boolean)//是否自動(dòng)提交
    )
    val topics = Array("spark_kafka")//要訂閱的主題
    //使用工具類從Kafka中消費(fèi)消息
    val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent, //位置策略,使用源碼中推薦的
      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費(fèi)策略,使用源碼中推薦的
    )
    // 處理消息
    //注意提交的時(shí)機(jī):應(yīng)該是消費(fèi)完一小批就該提交一次offset,而在DStream一小批的體現(xiàn)是RDD
    kafkaDS.foreachRDD(rdd => {
      rdd.foreach(record => {
        val topic = record.topic()
        val partition = record.partition()
        val offset = record.offset()
        val key = record.key()
        val value = record.value()
        val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}"""
        info
        println("消費(fèi)" + info)
      })
      //獲取rdd中offset相關(guān)的信息:offsetRanges里面就包含了該批次各個(gè)分區(qū)的offset信息
      val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      //提交
      kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      println("當(dāng)前批次的數(shù)據(jù)已消費(fèi)并手動(dòng)提交")
    })
    // 輸出
    kafkaDS.print()
    ssc.start()
    ssc.awaitTermination()
    ssc.stop(true, true)
  }
}

到此這篇關(guān)于SparkStreaming整合Kafka過(guò)程詳解的文章就介紹到這了,更多相關(guān)SparkStreaming整合Kafka內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • java @Data布爾值boolean的坑及解決

    java @Data布爾值boolean的坑及解決

    本文介紹了在使用Spring框架時(shí),遇到的一個(gè)屬性命名規(guī)則問(wèn)題,在Spring框架中,如果類的屬性名稱第一個(gè)字母小寫,第二個(gè)字母大寫,那么在調(diào)用set方法時(shí),Spring會(huì)將屬性的后面的字母轉(zhuǎn)換為小寫,這種情況下,如果下游消費(fèi)端調(diào)用得到的返回json串
    2024-10-10
  • Java中Lambda表達(dá)式用法介紹

    Java中Lambda表達(dá)式用法介紹

    本文詳細(xì)講解了Java中Lambda表達(dá)式的用法,文中通過(guò)示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-12-12
  • JAVA設(shè)計(jì)模式之責(zé)任鏈模式詳解

    JAVA設(shè)計(jì)模式之責(zé)任鏈模式詳解

    這篇文章主要介紹了JAVA設(shè)計(jì)模式之責(zé)任鏈模式詳解,需要的朋友可以參考下
    2015-04-04
  • Mac電腦安裝多個(gè)JDK版本的詳細(xì)圖文教程

    Mac電腦安裝多個(gè)JDK版本的詳細(xì)圖文教程

    目前使用的主流版本還是JDK 8,但偶爾會(huì)想體驗(yàn)下新版本(或者舊版本),如果能裝多個(gè)版本的JDK,而且很方便的切換就好了,這篇文章主要給大家介紹了關(guān)于Mac電腦安裝多個(gè)JDK版本的相關(guān)資料,需要的朋友可以參考下
    2024-03-03
  • 從SpringMVC遷移到Springboot的方法步驟

    從SpringMVC遷移到Springboot的方法步驟

    本篇文章主要介紹了從SpringMVC遷移到Springboot的方法步驟,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-01-01
  • 淺談Java解釋器模式

    淺談Java解釋器模式

    這篇文章主要介紹了Java基于解釋器模式實(shí)現(xiàn)定義一種簡(jiǎn)單的語(yǔ)言功能,簡(jiǎn)單描述了解釋器模式的概念、功能及Java使用解釋器模式定義一種簡(jiǎn)單語(yǔ)言的相關(guān)實(shí)現(xiàn)與使用技巧,需要的朋友可以參考下
    2021-10-10
  • Mybatis常用注解中的SQL注入實(shí)例詳解

    Mybatis常用注解中的SQL注入實(shí)例詳解

    MyBatis是一款優(yōu)秀的持久層框架,它支持定制化 SQL(靈活)、存儲(chǔ)過(guò)程(PLSQL模塊化的組件,數(shù)據(jù)庫(kù)的一部分)以及高級(jí)映射(表映射為Bean也可以將Bean映射為表),下面這篇文章主要給大家介紹了關(guān)于Mybatis常用注解中的SQL注入的相關(guān)資料,需要的朋友可以參考下
    2022-02-02
  • Java日常練習(xí)題,每天進(jìn)步一點(diǎn)點(diǎn)(59)

    Java日常練習(xí)題,每天進(jìn)步一點(diǎn)點(diǎn)(59)

    下面小編就為大家?guī)?lái)一篇Java基礎(chǔ)的幾道練習(xí)題(分享)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧,希望可以幫到你
    2021-08-08
  • Mybatis參數(shù)傳遞示例代碼

    Mybatis參數(shù)傳遞示例代碼

    這篇文章主要給大家介紹了關(guān)于Mybatis參數(shù)傳遞的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2018-08-08
  • @CacheEvict中的allEntries與beforeInvocation的區(qū)別說(shuō)明

    @CacheEvict中的allEntries與beforeInvocation的區(qū)別說(shuō)明

    這篇文章主要介紹了@CacheEvict中的allEntries與beforeInvocation的區(qū)別說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-12-12

最新評(píng)論