SparkStreaming整合Kafka過(guò)程詳解
更新時(shí)間:2023年01月27日 10:48:24 作者:健鑫.
這篇文章主要介紹了SparkStreaming整合Kafka過(guò)程,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧
Spark Streaming連接kafka 的兩種方式
Receiver based Approah
- KafkaUtils.createDstream基于接收器方式,消費(fèi)Kafka數(shù)據(jù),已淘汰
- Receiver作為Task運(yùn)行在Executor等待數(shù)據(jù),一個(gè)Receiver效率低,需要開啟多個(gè),再手動(dòng)合并數(shù)據(jù),很麻煩
- Receiver掛了,可能丟失數(shù)據(jù),需要開啟WAL(預(yù)寫日志)保證數(shù)據(jù)安全,效率低
- 通過(guò)Zookeeper來(lái)連接kafka,offset存儲(chǔ)再zookeeper中
- spark消費(fèi)的時(shí)候?yàn)榱吮WC數(shù)據(jù)不丟也會(huì)保存一份offset,可能出現(xiàn)數(shù)據(jù)不一致
Direct Approach
- KafkaUtils.createDirectStream直連方式,streaming中每個(gè)批次的job直接調(diào)用Simple Consumer API獲取對(duì)應(yīng)Topic數(shù)據(jù)
- Direct方式直接連接kafka分區(qū)獲取數(shù)據(jù),提高了并行能力
- Direct方式調(diào)用kafka低階API,offset自己存儲(chǔ)和維護(hù),默認(rèn)由spark維護(hù)在checkpoint中
- offset也可以自己手動(dòng)維護(hù),保存在mysql/redis中
// 從kafka加載數(shù)據(jù) val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址 "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規(guī)則 "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規(guī)則 "group.id" -> "sparkdemo",//消費(fèi)者組名稱 //earliest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最早的消息開始消費(fèi) //latest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最后/最新的消息開始消費(fèi) //none:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有就報(bào)錯(cuò) "auto.offset.reset" -> "latest", "auto.commit.interval.ms"->"1000",//自動(dòng)提交的時(shí)間間隔 "enable.auto.commit" -> (true: java.lang.Boolean)//是否自動(dòng)提交 ) val topics = Array("spark_kafka")//要訂閱的主題 //使用工具類從Kafka中消費(fèi)消息 val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, //位置策略,使用源碼中推薦的 ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費(fèi)策略,使用源碼中推薦的 )
代碼展示
自動(dòng)提交偏移量
object kafka_Demo01 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01") val sc = new SparkContext(conf) val ssc = new StreamingContext(sc, Seconds(5)) ssc.checkpoint("data/ckp") // 從kafka加載數(shù)據(jù) val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址 "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規(guī)則 "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規(guī)則 "group.id" -> "sparkdemo",//消費(fèi)者組名稱 //earliest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最早的消息開始消費(fèi) //latest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最后/最新的消息開始消費(fèi) //none:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有就報(bào)錯(cuò) "auto.offset.reset" -> "latest", "auto.commit.interval.ms"->"1000",//自動(dòng)提交的時(shí)間間隔 "enable.auto.commit" -> (true: java.lang.Boolean)//是否自動(dòng)提交 ) val topics = Array("spark_kafka")//要訂閱的主題 //使用工具類從Kafka中消費(fèi)消息 val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, //位置策略,使用源碼中推薦的 ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費(fèi)策略,使用源碼中推薦的 ) // 處理消息 val infoDS = kafkaDS.map(record => { val topic = record.topic() val partition = record.partition() val offset = record.offset() val key = record.key() val value = record.value() val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}""" info }) // 輸出 infoDS.print() ssc.start() ssc.awaitTermination() ssc.stop(true, true) } }
手動(dòng)提交
提交代碼
// 處理消息 //注意提交的時(shí)機(jī):應(yīng)該是消費(fèi)完一小批就該提交一次offset,而在DStream一小批的體現(xiàn)是RDD kafkaDS.foreachRDD(rdd => { rdd.foreach(record => { val topic = record.topic() val partition = record.partition() val offset = record.offset() val key = record.key() val value = record.value() val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}""" info println("消費(fèi)" + info) }) //獲取rdd中offset相關(guān)的信息:offsetRanges里面就包含了該批次各個(gè)分區(qū)的offset信息 val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges //提交 kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges) println("當(dāng)前批次的數(shù)據(jù)已消費(fèi)并手動(dòng)提交") })
完整代碼
object kafka_Demo02 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("kafka_Demo01") val sc = new SparkContext(conf) val ssc = new StreamingContext(sc, Seconds(5)) ssc.checkpoint("data/ckp") // 從kafka加載數(shù)據(jù) val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop102:9092",//kafka集群地址 "key.deserializer" -> classOf[StringDeserializer],//key的反序列化規(guī)則 "value.deserializer" -> classOf[StringDeserializer],//value的反序列化規(guī)則 "group.id" -> "sparkdemo",//消費(fèi)者組名稱 //earliest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最早的消息開始消費(fèi) //latest:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有從最后/最新的消息開始消費(fèi) //none:表示如果有offset記錄從offset記錄開始消費(fèi),如果沒(méi)有就報(bào)錯(cuò) "auto.offset.reset" -> "latest", // "auto.commit.interval.ms"->"1000",//自動(dòng)提交的時(shí)間間隔 "enable.auto.commit" -> (false: java.lang.Boolean)//是否自動(dòng)提交 ) val topics = Array("spark_kafka")//要訂閱的主題 //使用工具類從Kafka中消費(fèi)消息 val kafkaDS: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String]( ssc, LocationStrategies.PreferConsistent, //位置策略,使用源碼中推薦的 ConsumerStrategies.Subscribe[String, String](topics, kafkaParams) //消費(fèi)策略,使用源碼中推薦的 ) // 處理消息 //注意提交的時(shí)機(jī):應(yīng)該是消費(fèi)完一小批就該提交一次offset,而在DStream一小批的體現(xiàn)是RDD kafkaDS.foreachRDD(rdd => { rdd.foreach(record => { val topic = record.topic() val partition = record.partition() val offset = record.offset() val key = record.key() val value = record.value() val info: String = s"""topic:${topic}, partition:${partition}, offset:${offset}, key:${key}, value:${value}""" info println("消費(fèi)" + info) }) //獲取rdd中offset相關(guān)的信息:offsetRanges里面就包含了該批次各個(gè)分區(qū)的offset信息 val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges //提交 kafkaDS.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges) println("當(dāng)前批次的數(shù)據(jù)已消費(fèi)并手動(dòng)提交") }) // 輸出 kafkaDS.print() ssc.start() ssc.awaitTermination() ssc.stop(true, true) } }
到此這篇關(guān)于SparkStreaming整合Kafka過(guò)程詳解的文章就介紹到這了,更多相關(guān)SparkStreaming整合Kafka內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Java日常練習(xí)題,每天進(jìn)步一點(diǎn)點(diǎn)(59)
下面小編就為大家?guī)?lái)一篇Java基礎(chǔ)的幾道練習(xí)題(分享)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧,希望可以幫到你2021-08-08@CacheEvict中的allEntries與beforeInvocation的區(qū)別說(shuō)明
這篇文章主要介紹了@CacheEvict中的allEntries與beforeInvocation的區(qū)別說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-12-12