快捷導(dǎo)航

Vertica集成Apache Hudi重磅使用指南

更新時(shí)間：2022年03月30日 13:27:02 作者：leesf

這篇文章主要為大家介紹了Vertica集成Apache Hudi的重磅使用指南，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步早日升職加薪

1. 摘要

本文演示了使用外部表集成 Vertica 和 Apache Hudi。在演示中我們使用 Spark 上的 Apache Hudi 將數(shù)據(jù)攝取到 S3 中，并使用 Vertica 外部表訪問這些數(shù)據(jù)。

2. Apache Hudi介紹

Apache Hudi 是一種變更數(shù)據(jù)捕獲 (CDC) 工具，可在不同時(shí)間線將事務(wù)記錄在表中。 Hudi 代表 Hadoop Upserts Deletes and Incrementals，是一個(gè)開源框架。 Hudi 提供 ACID 事務(wù)、可擴(kuò)展的元數(shù)據(jù)處理，并統(tǒng)一流和批處理數(shù)據(jù)處理。
以下流程圖說明了該過程。使用安裝在 Apache Spark 上的 Hudi 將數(shù)據(jù)處理到 S3，并從 Vertica 外部表中讀取 S3 中的數(shù)據(jù)更改。

3. 環(huán)境準(zhǔn)備

Apache Spark 環(huán)境。使用具有 1 個(gè) Master 和 3 個(gè) Worker 的 4 節(jié)點(diǎn)集群進(jìn)行了測試。按照在多節(jié)點(diǎn)集群上設(shè)置 Apache Spark 中的說明安裝 Spark 集群環(huán)境。啟動(dòng) Spark 多節(jié)點(diǎn)集群。

Vertica 分析數(shù)據(jù)庫。使用 Vertica Enterprise 11.0.0 進(jìn)行了測試。

AWS S3 或 S3 兼容對(duì)象存儲(chǔ)。使用 MinIO 作為 S3 存儲(chǔ)桶進(jìn)行了測試。

需要以下 jar 文件。將 jar 復(fù)制到 Spark 機(jī)器上任何需要的位置，將這些 jar 文件放在 /opt/spark/jars 中。

Hadoop - hadoop-aws-2.7.3.jar

AWS - aws-java-sdk-1.7.4.jar

在 Vertica 數(shù)據(jù)庫中運(yùn)行以下命令來設(shè)置訪問存儲(chǔ)桶的 S3 參數(shù)：

SELECT SET_CONFIG_PARAMETER('AWSAuth', 'accesskey:secretkey');
SELECT SET_CONFIG_PARAMETER('AWSRegion','us-east-1');
SELECT SET_CONFIG_PARAMETER('AWSEndpoint','<S3_IP>:9000');
SELECT SET_CONFIG_PARAMETER('AWSEnableHttps','0');

endpoint可能會(huì)有所不同，具體取決于 S3 存儲(chǔ)桶位置選擇的 S3 對(duì)象存儲(chǔ)。

4. Vertica和Apache Hudi集成

要將 Vertica 與 Apache Hudi 集成，首先需要將 Apache Spark 與 Apache Hudi 集成，配置 jars，以及訪問 AWS S3 的連接。其次，將 Vertica 連接到 Apache Hudi。然后對(duì) S3 存儲(chǔ)桶執(zhí)行 Insert、Append、Update 等操作。
按照以下部分中的步驟將數(shù)據(jù)寫入 Vertica。
在 Apache Spark 上配置 Apache Hudi 和 AWS S3
配置 Vertica 和 Apache Hudi 集成

4.1 在 Apache Spark 上配置 Apache Hudi 和 AWS S3

在 Apache Spark 機(jī)器中運(yùn)行以下命令。
這會(huì)下載 Apache Hudi 包，配置 jar 文件，以及 AWS S3

/opt/spark/bin/spark-shell \
--conf "spark.serializer=org.apache.spark.serializer.KryoSerializer"\--packages org.apache.hudi:hudi-spark3-bundle_2.12:0.9.0,org.apache.spark:spark-avro_2.12:3.0.1

導(dǎo)入Hudi的讀、寫等所需的包：

import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._

使用以下命令根據(jù)需要配置 Minio 訪問密鑰、Secret key、Endpoint 和其他 S3A 算法和路徑。

spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", "*****")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.secret.key", "*****")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", "http://XXXX.9000")
spark.sparkContext.hadoopConfiguration.set("fs.s3a.path.style.access", "true")
sc.hadoopConfiguration.set("fs.s3a.signing-algorithm","S3SignerType")

創(chuàng)建變量來存儲(chǔ) MinIO 的表名和 S3 路徑。

val tableName = “Trips”
val basepath = “s3a://apachehudi/vertica/”

準(zhǔn)備數(shù)據(jù)，使用 Scala 在 Apache spark 中創(chuàng)建示例數(shù)據(jù)

val df = Seq(
("aaa","r1","d1",10,"US","20211001"),
("bbb","r2","d2",20,"Europe","20211002"),
("ccc","r3","d3",30,"India","20211003"),
("ddd","r4","d4",40,"Europe","20211004"),
("eee","r5","d5",50,"India","20211005"),
).toDF("uuid", "rider", "driver","fare","partitionpath","ts")

將數(shù)據(jù)寫入 AWS S3 并驗(yàn)證此數(shù)據(jù)

df.write.format("org.apache.hudi").
options(getQuickstartWriteConfigs).
option(PRECOMBINE_FIELD_OPT_KEY, "ts").
option(RECORDKEY_FIELD_OPT_KEY, "uuid").
option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
option(TABLE_NAME, tableName).
mode(Overwrite).
save(basePath)

使用 Scala 運(yùn)行以下命令以驗(yàn)證是否從 S3 存儲(chǔ)桶中正確讀取數(shù)據(jù)。

spark.read.format("hudi").load(basePath).createOrReplaceTempView("dta")
spark.sql("select _hoodie_commit_time, uuid, rider, driver, fare,ts, partitionpath from  dta order by uuid").show()

4.2 配置 Vertica 和 Apache HUDI 集成

在 vertica 中創(chuàng)建一個(gè)外部表，其中包含來自 S3 上 Hudi 表的數(shù)據(jù)。我們創(chuàng)建了“旅行”表。

CREATE EXTERNAL TABLE Trips
(
_hoodie_commit_time TimestampTz,
uuid varchar,
rider varchar,
driver varchar,
fare int,
ts varchar,
partitionpath varchar
)
AS COPY FROM
's3a://apachehudi/parquet/vertica/*/*.parquet' PARQUET;

運(yùn)行以下命令以驗(yàn)證正在讀取外部表：

4.3 如何讓 Vertica 查看更改的數(shù)據(jù)

以下部分包含為查看 Vertica 中更改的數(shù)據(jù)而執(zhí)行的一些操作的示例。

4.3.1 寫入數(shù)據(jù)

在這個(gè)例子中，我們使用 Scala 在 Apache spark 中運(yùn)行了以下命令并附加了一些數(shù)據(jù)：

val df2 = Seq(
("fff","r6","d6",50,"India","20211005")
).toDF("uuid", "rider", "driver","fare","partitionpath","ts")

運(yùn)行以下命令將此數(shù)據(jù)附加到 S3 上的 Hudi 表中：

df2.write.format("org.apache.hudi").
options(getQuickstartWriteConfigs).
option(PRECOMBINE_FIELD_OPT_KEY, "ts").
option(RECORDKEY_FIELD_OPT_KEY, "uuid").
option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
option(TABLE_NAME, tableName).
mode(Append).
save(basePath)

4.3.2 更新數(shù)據(jù)

在這個(gè)例子中，我們更新了一條 Hudi 表的記錄。需要導(dǎo)入數(shù)據(jù)以觸發(fā)并更新數(shù)據(jù)：

val df3 = Seq(
("aaa","r1","d1",100,"US","20211001"),
("eee","r5","d5",500,"India","20211001")
).toDF("uuid", "rider", "driver","fare","partitionpath","ts")

運(yùn)行以下命令將數(shù)據(jù)更新到 S3 上的 HUDI 表：

df3.write.format("org.apache.hudi").
options(getQuickstartWriteConfigs).
option(PRECOMBINE_FIELD_OPT_KEY, "ts").
option(RECORDKEY_FIELD_OPT_KEY, "uuid").
option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
option(TABLE_NAME, tableName).
mode(Append).
save(basePath)

以下是 spark.sql 的輸出：

以下是 Vertica 輸出：

4.3.3 創(chuàng)建和查看數(shù)據(jù)的歷史快照

執(zhí)行以下指向特定時(shí)間戳的 spark 命令：

val dd = spark.read
.format("hudi")
.option("as.of.instant", "20211007092600")
.load(basePath)

使用以下命令將數(shù)據(jù)寫入 S3 中的 parquet：

dd.write.parquet("s3a://apachehudi/parquet/p2")

在此示例中，我們正在讀取截至“20211007092600”日期的 Hudi 表快照。

dd.show

通過在 parquet 文件上創(chuàng)建外部表從 Vertica 執(zhí)行命令。

以上就是Vertica集成Apache Hudi重磅使用指南的詳細(xì)內(nèi)容，更多關(guān)于Vertica集成Apache Hudi的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Vertica集成Apache Hudi重磅使用指南

目錄

1. 摘要

2. Apache Hudi介紹

3. 環(huán)境準(zhǔn)備

4. Vertica和Apache Hudi集成

4.1 在 Apache Spark 上配置 Apache Hudi 和 AWS S3

4.2 配置 Vertica 和 Apache HUDI 集成

4.3 如何讓 Vertica 查看更改的數(shù)據(jù)

4.3.1 寫入數(shù)據(jù)

4.3.2 更新數(shù)據(jù)

4.3.3 創(chuàng)建和查看數(shù)據(jù)的歷史快照

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具