欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java將CSV的數(shù)據(jù)發(fā)送到kafka的示例

 更新時間:2020年11月16日 09:54:10   作者:zq2599  
這篇文章主要介紹了Java將CSV的數(shù)據(jù)發(fā)送到kafka得示例,幫助大家更好得理解和使用Java,感興趣的朋友可以了解下

為什么將CSV的數(shù)據(jù)發(fā)到kafka

  • flink做流式計算時,選用kafka消息作為數(shù)據(jù)源是常用手段,因此在學習和開發(fā)flink過程中,也會將數(shù)據(jù)集文件中的記錄發(fā)送到kafka,來模擬不間斷數(shù)據(jù);
  • 整個流程如下:

  • 您可能會覺得這樣做多此一舉:flink直接讀取CSV不就行了嗎?這樣做的原因如下:
  • 首先,這是學習和開發(fā)時的做法,數(shù)據(jù)集是CSV文件,而生產(chǎn)環(huán)境的實時數(shù)據(jù)卻是kafka數(shù)據(jù)源;
  • 其次,Java應用中可以加入一些特殊邏輯,例如數(shù)據(jù)處理,匯總統(tǒng)計(用來和flink結果對比驗證);
  • 另外,如果兩條記錄實際的間隔時間如果是1分鐘,那么Java應用在發(fā)送消息時也可以間隔一分鐘再發(fā)送,這個邏輯在flink社區(qū)的demo中有具體的實現(xiàn),此demo也是將數(shù)據(jù)集發(fā)送到kafka,再由flink消費kafka,地址是:https://github.com/ververica/sql-training

如何將CSV的數(shù)據(jù)發(fā)送到kafka

前面的圖可以看出,讀取CSV再發(fā)送消息到kafka的操作是Java應用所為,因此今天的主要工作就是開發(fā)這個Java應用,并驗證;

版本信息

  • JDK:1.8.0_181
  • 開發(fā)工具:IntelliJ IDEA 2019.2.1 (Ultimate Edition)
  • 開發(fā)環(huán)境:Win10
  • Zookeeper:3.4.13
  • Kafka:2.4.0(scala:2.12)

關于數(shù)據(jù)集

  1. 本次實戰(zhàn)用到的數(shù)據(jù)集是CSV文件,里面是一百零四萬條淘寶用戶行為數(shù)據(jù),該數(shù)據(jù)來源是阿里云天池公開數(shù)據(jù)集,我對此數(shù)據(jù)做了少量調(diào)整;
  2. 此CSV文件可以在CSDN下載,地址:https://download.csdn.net/download/boling_cavalry/12381698
  3. 也可以在我的Github下載,地址:https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z
  4. 該CSV文件的內(nèi)容,一共有六列,每列的含義如下表:

列名稱 說明
用戶ID 整數(shù)類型,序列化后的用戶ID
商品ID 整數(shù)類型,序列化后的商品ID
商品類目ID 整數(shù)類型,序列化后的商品所屬類目ID
行為類型 字符串,枚舉類型,包括('pv', 'buy', 'cart', 'fav')
時間戳 行為發(fā)生的時間戳
時間字符串 根據(jù)時間戳字段生成的時間字符串

Java應用簡介

編碼前,先把具體內(nèi)容列出來,然后再挨個實現(xiàn):

  1. 從CSV讀取記錄的工具類:UserBehaviorCsvFileReader
  2. 每條記錄對應的Bean類:UserBehavior
  3. Java對象序列化成JSON的序列化類:JsonSerializer
  4. 向kafka發(fā)送消息的工具類:KafkaProducer
  5. 應用類,程序入口:SendMessageApplication

上述五個類即可完成Java應用的工作,接下來開始編碼吧;

直接下載源碼

如果您不想寫代碼,您可以直接從GitHub下載這個工程的源碼,地址和鏈接信息如下表所示:

名稱 鏈接 備注
項目主頁 https://github.com/zq2599/blog_demos 該項目在GitHub上的主頁
git倉庫地址(https) https://github.com/zq2599/blog_demos.git 該項目源碼的倉庫地址,https協(xié)議
git倉庫地址(ssh) git@github.com:zq2599/blog_demos.git 該項目源碼的倉庫地址,ssh協(xié)議

這個git項目中有多個文件夾,本章源碼在flinksql這個文件夾下,如下圖紅框所示:

編碼

創(chuàng)建maven工程,pom.xml如下,比較重要的jackson和javacsv的依賴:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
   xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 <modelVersion>4.0.0</modelVersion>

 <groupId>com.bolingcavalry</groupId>
 <artifactId>flinksql</artifactId>
 <version>1.0-SNAPSHOT</version>

 <properties>
  <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  <flink.version>1.10.0</flink.version>
  <kafka.version>2.2.0</kafka.version>
  <java.version>1.8</java.version>
  <scala.binary.version>2.11</scala.binary.version>
  <maven.compiler.source>${java.version}</maven.compiler.source>
  <maven.compiler.target>${java.version}</maven.compiler.target>
 </properties>

 <dependencies>
  <dependency>
   <groupId>org.apache.kafka</groupId>
   <artifactId>kafka-clients</artifactId>
   <version>${kafka.version}</version>
  </dependency>

  <dependency>
   <groupId>com.fasterxml.jackson.core</groupId>
   <artifactId>jackson-databind</artifactId>
   <version>2.9.10.1</version>
  </dependency>

  <!-- Logging dependencies -->
  <dependency>
   <groupId>org.slf4j</groupId>
   <artifactId>slf4j-log4j12</artifactId>
   <version>1.7.7</version>
   <scope>runtime</scope>
  </dependency>
  <dependency>
   <groupId>log4j</groupId>
   <artifactId>log4j</artifactId>
   <version>1.2.17</version>
   <scope>runtime</scope>
  </dependency>
  <dependency>
   <groupId>net.sourceforge.javacsv</groupId>
   <artifactId>javacsv</artifactId>
   <version>2.0</version>
  </dependency>

 </dependencies>

 <build>
  <plugins>
   <!-- Java Compiler -->
   <plugin>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-compiler-plugin</artifactId>
    <version>3.1</version>
    <configuration>
     <source>${java.version}</source>
     <target>${java.version}</target>
    </configuration>
   </plugin>

   <!-- Shade plugin to include all dependencies -->
   <plugin>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-shade-plugin</artifactId>
    <version>3.0.0</version>
    <executions>
     <!-- Run shade goal on package phase -->
     <execution>
      <phase>package</phase>
      <goals>
       <goal>shade</goal>
      </goals>
      <configuration>
       <artifactSet>
        <excludes>
        </excludes>
       </artifactSet>
       <filters>
        <filter>
         <!-- Do not copy the signatures in the META-INF folder.
         Otherwise, this might cause SecurityExceptions when using the JAR. -->
         <artifact>*:*</artifact>
         <excludes>
          <exclude>META-INF/*.SF</exclude>
          <exclude>META-INF/*.DSA</exclude>
          <exclude>META-INF/*.RSA</exclude>
         </excludes>
        </filter>
       </filters>
      </configuration>
     </execution>
    </executions>
   </plugin>
  </plugins>
 </build>
</project>

從CSV讀取記錄的工具類:UserBehaviorCsvFileReader,后面在主程序中會用到java8的Steam API來處理集合,所以UserBehaviorCsvFileReader實現(xiàn)了Supplier接口:

public class UserBehaviorCsvFileReader implements Supplier<UserBehavior> {

 private final String filePath;
 private CsvReader csvReader;

 public UserBehaviorCsvFileReader(String filePath) throws IOException {

  this.filePath = filePath;
  try {
   csvReader = new CsvReader(filePath);
   csvReader.readHeaders();
  } catch (IOException e) {
   throw new IOException("Error reading TaxiRecords from file: " + filePath, e);
  }
 }

 @Override
 public UserBehavior get() {
  UserBehavior userBehavior = null;
  try{
   if(csvReader.readRecord()) {
    csvReader.getRawRecord();
    userBehavior = new UserBehavior(
      Long.valueOf(csvReader.get(0)),
      Long.valueOf(csvReader.get(1)),
      Long.valueOf(csvReader.get(2)),
      csvReader.get(3),
      new Date(Long.valueOf(csvReader.get(4))*1000L));
   }
  } catch (IOException e) {
   throw new NoSuchElementException("IOException from " + filePath);
  }

  if (null==userBehavior) {
   throw new NoSuchElementException("All records read from " + filePath);
  }

  return userBehavior;
 }
}

每條記錄對應的Bean類:UserBehavior,和CSV記錄格式保持一致即可,表示時間的ts字段,使用了JsonFormat注解,在序列化的時候以此來控制格式:

public class UserBehavior {

 @JsonFormat
 private long user_id;

 @JsonFormat
 private long item_id;

 @JsonFormat
 private long category_id;

 @JsonFormat
 private String behavior;

 @JsonFormat(shape = JsonFormat.Shape.STRING, pattern = "yyyy-MM-dd'T'HH:mm:ss'Z'")
 private Date ts;

 public UserBehavior() {
 }

 public UserBehavior(long user_id, long item_id, long category_id, String behavior, Date ts) {
  this.user_id = user_id;
  this.item_id = item_id;
  this.category_id = category_id;
  this.behavior = behavior;
  this.ts = ts;
 }
}

Java對象序列化成JSON的序列化類:JsonSerializer

public class JsonSerializer<T> {

 private final ObjectMapper jsonMapper = new ObjectMapper();

 public String toJSONString(T r) {
  try {
   return jsonMapper.writeValueAsString(r);
  } catch (JsonProcessingException e) {
   throw new IllegalArgumentException("Could not serialize record: " + r, e);
  }
 }

 public byte[] toJSONBytes(T r) {
  try {
   return jsonMapper.writeValueAsBytes(r);
  } catch (JsonProcessingException e) {
   throw new IllegalArgumentException("Could not serialize record: " + r, e);
  }
 }
}

向kafka發(fā)送消息的工具類:KafkaProducer:

public class KafkaProducer implements Consumer<UserBehavior> {

 private final String topic;
 private final org.apache.kafka.clients.producer.KafkaProducer<byte[], byte[]> producer;
 private final JsonSerializer<UserBehavior> serializer;

 public KafkaProducer(String kafkaTopic, String kafkaBrokers) {
  this.topic = kafkaTopic;
  this.producer = new org.apache.kafka.clients.producer.KafkaProducer<>(createKafkaProperties(kafkaBrokers));
  this.serializer = new JsonSerializer<>();
 }

 @Override
 public void accept(UserBehavior record) {
  // 將對象序列化成byte數(shù)組
  byte[] data = serializer.toJSONBytes(record);
  // 封裝
  ProducerRecord<byte[], byte[]> kafkaRecord = new ProducerRecord<>(topic, data);
  // 發(fā)送
  producer.send(kafkaRecord);

  // 通過sleep控制消息的速度,請依據(jù)自身kafka配置以及flink服務器配置來調(diào)整
  try {
   Thread.sleep(500);
  }catch(InterruptedException e){
   e.printStackTrace();
  }
 }

 /**
  * kafka配置
  * @param brokers The brokers to connect to.
  * @return A Kafka producer configuration.
  */
 private static Properties createKafkaProperties(String brokers) {
  Properties kafkaProps = new Properties();
  kafkaProps.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
  kafkaProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getCanonicalName());
  kafkaProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getCanonicalName());
  return kafkaProps;
 }
}

最后是應用類SendMessageApplication,CSV文件路徑、kafka的topic和borker地址都在此設置,另外借助java8的Stream API,只需少量代碼即可完成所有工作:

public class SendMessageApplication {

 public static void main(String[] args) throws Exception {
  // 文件地址
  String filePath = "D:\\temp\\202005\\02\\UserBehavior.csv";
  // kafka topic
  String topic = "user_behavior";
  // kafka borker地址
  String broker = "192.168.50.43:9092";

  Stream.generate(new UserBehaviorCsvFileReader(filePath))
    .sequential()
    .forEachOrdered(new KafkaProducer(topic, broker));
 }
}

驗證

  1. 請確保kafka已經(jīng)就緒,并且名為user_behavior的topic已經(jīng)創(chuàng)建;
  2. 請將CSV文件準備好;
  3. 確認SendMessageApplication.java中的文件地址、kafka topic、kafka broker三個參數(shù)準確無誤;
  4. 運行SendMessageApplication.java;
  5. 開啟一個 控制臺消息kafka消息,參考命令如下:
./kafka-console-consumer.sh \
--bootstrap-server 127.0.0.1:9092 \
--topic user_behavior \
--consumer-property group.id=old-consumer-test \
--consumer-property consumer.id=old-consumer-cl \
--from-beginning
  • 正常情況下可以立即見到消息,如下圖:

至此,通過Java應用模擬用戶行為消息流的操作就完成了,接下來的flink實戰(zhàn)就用這個作為數(shù)據(jù)源;

以上就是Java將CSV的數(shù)據(jù)發(fā)送到kafka得示例的詳細內(nèi)容,更多關于Java CSV的數(shù)據(jù)發(fā)送到kafka的資料請關注腳本之家其它相關文章!

相關文章

  • SpringBoot如何讀取配置文件參數(shù)并全局使用

    SpringBoot如何讀取配置文件參數(shù)并全局使用

    這篇文章主要介紹了SpringBoot如何讀取配置文件參數(shù)并全局使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-12-12
  • Java中的異常處理(try,catch,finally,throw,throws)

    Java中的異常處理(try,catch,finally,throw,throws)

    本文主要介紹了Java中的異常處理,文章主要介紹的異常處理包括5個關鍵字try,catch,finally,throw,throws,更多詳細內(nèi)容需要的朋友可以參考一下
    2022-06-06
  • Java文件快速copy復制實例代碼

    Java文件快速copy復制實例代碼

    這篇文章主要給大家介紹了關于Java文件快速copy復制的相關資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-01-01
  • Mybatis的TypeHandler實現(xiàn)數(shù)據(jù)加解密詳解

    Mybatis的TypeHandler實現(xiàn)數(shù)據(jù)加解密詳解

    這篇文章主要介紹了Mybatis基于TypeHandler實現(xiàn)敏感數(shù)據(jù)加密詳解,Typehandler是mybatis提供的一個接口,通過實現(xiàn)這個接口,可以實現(xiàn)jdbc類型數(shù)據(jù)和java類型數(shù)據(jù)的轉(zhuǎn)換,需要的朋友可以參考下
    2024-01-01
  • maven的生命周期及常用命令介紹

    maven的生命周期及常用命令介紹

    maven是一個項目構建和管理的工具,提供了幫助管理 構建、文檔、報告、依賴、scms、發(fā)布、分發(fā)的方法。下面通過本文給大家分享maven的生命周期及常用命令介紹,需要的朋友參考下吧
    2017-11-11
  • SpringMVC前端和后端數(shù)據(jù)交互總結

    SpringMVC前端和后端數(shù)據(jù)交互總結

    本篇文章主要介紹了SpringMVC前端和后端數(shù)據(jù)交互總結,具有一定的參考價值,感興趣的小伙伴們可以參考一下。
    2017-03-03
  • Java字節(jié)緩沖流原理與用法詳解

    Java字節(jié)緩沖流原理與用法詳解

    這篇文章主要介紹了Java字節(jié)緩沖流原理與用法,結合實例形式總結分析了java字節(jié)流與緩沖區(qū)相關原理與操作技巧,需要的朋友可以參考下
    2019-09-09
  • java實現(xiàn)給第三方接口推送加密數(shù)據(jù)

    java實現(xiàn)給第三方接口推送加密數(shù)據(jù)

    這篇文章主要介紹了java實現(xiàn)給第三方接口推送加密數(shù)據(jù)方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-12-12
  • Java單例模式實現(xiàn)的幾種方式

    Java單例模式實現(xiàn)的幾種方式

    這篇文章主要介紹了Java單例模式實現(xiàn)的幾種方式的相關資料,需要的朋友可以參考下
    2016-09-09
  • SpringBoot部署到外部Tomcat無法注冊到Nacos服務端的解決思路

    SpringBoot部署到外部Tomcat無法注冊到Nacos服務端的解決思路

    這篇文章主要介紹了SpringBoot部署到外部Tomcat無法注冊到Nacos服務端,本文給大家分享完美解決思路,結合實例代碼給大家講解的非常詳細,需要的朋友可以參考下
    2023-03-03

最新評論