Apache教程Hudi與Hive集成手冊(cè)
1. Hudi表對(duì)應(yīng)的Hive外部表介紹
Hudi源表對(duì)應(yīng)一份HDFS數(shù)據(jù),可以通過Spark,F(xiàn)link 組件或者Hudi客戶端將Hudi表的數(shù)據(jù)映射為Hive外部表,基于該外部表, Hive可以方便的進(jìn)行實(shí)時(shí)視圖,讀優(yōu)化視圖以及增量視圖的查詢。
2. Hive對(duì)Hudi的集成
這里以Hive3.1.1、 Hudi 0.9.0為例, 其他版本類似
將hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar 放到hiveserver 節(jié)點(diǎn)的lib目錄下
修改hive-site.xml找到hive.default.aux.jars.path 以及hive.aux.jars.path 這兩個(gè)配置項(xiàng),將第一步中的jar包全路徑給配置上去: 配置后如下
<name>hive.default.aux.jars.path</name> <value>xxxx,jar,xxxx,jar,file:///mypath/hudi-hadoop-mr-bundle-0.9.0xxx.jar,file:///mypath/hudi-hive-sync-bundle-0.9.0xx.jar</value>
配置完后重啟hive-server
對(duì)于Hudi的bootstrap表(tez查詢),除了要添加hudi-hadoop-mr-bundle-0.9.0xxx.jar , hudi-hive-sync-bundle-0.9.0xx.jar這兩個(gè)jar包,還需把hbase-shaded-miscellaneous-xxx.jar, hbase-metric-api-xxx.jar,hbase-metrics-xxx.jar, hbase-protocol-shaded-xx.jar,hbase-shaded-protobuf-xxx.jar,htrce-core4-4.2.0xxxx.jar按上述步驟添加進(jìn)去。
3. 創(chuàng)建Hudi表對(duì)應(yīng)的hive外部表
一般來說Hudi表在用Spark或者Flink寫入數(shù)據(jù)時(shí)會(huì)自動(dòng)同步到Hive外部表, 此時(shí)可以直接通過beeline查詢同步的外部表, 若寫入引擎沒有開啟自動(dòng)同步,則需要手動(dòng)利用hudi客戶端工具run_hive_sync_tool.sh 進(jìn)行同步具體可以參考官網(wǎng)查看相關(guān)參數(shù)。
4. 查詢Hudi表對(duì)應(yīng)的Hive外部表
4.1 操作前提
使用Hive查詢Hudi表前,需要通過set命令設(shè)置hive.input.format,否則會(huì)出現(xiàn)數(shù)據(jù)重復(fù),查詢異常等錯(cuò)誤,如下面這個(gè)報(bào)錯(cuò)就是典型的沒有設(shè)置hive.input.format 導(dǎo)致的
java.lang.IllegalArgumentException: HoodieRealtimeReader can oly work on RealTimeSplit and not with xxxxxxxxxx
除此之外對(duì)于增量查詢,還需要set命令額外設(shè)置3個(gè)參數(shù)
set hoodie.mytableName.consume.mode=INCREMENTAL; set hoodie.mytableName.consume.max.commits=3; set hoodie.mytableName.consume.start.timestamp=commitTime;
注意這3個(gè)參數(shù)是表級(jí)別參數(shù)
參數(shù)名 | 描述 |
---|---|
hoodie.mytableName.consume.mode | Hudi表的查詢模式。 增量查詢 :INCREMENTAL非增量查詢:不設(shè)置或者設(shè)為SNAPSHOT |
hoodie.mytableName.consume.start.timestamp | Hudi表增量查詢起始時(shí)間 |
hoodie. mytableName.consume.max.commits | Hudi表基于hoodie.mytableName.consume.start.timestamp 之后要查詢的增量commit次數(shù)。提交次數(shù),如設(shè)置為3時(shí),代表增量查詢從指定的起始時(shí)間之后commit 3次的數(shù)據(jù),設(shè)為-1時(shí),增量查詢從指定的起始時(shí)間之后提交的所有數(shù)據(jù) |
4.2 COW類型Hudi表的查詢
例如Hudi原表表名為hudicow,同步給hive之后hive表名hudicow
4.2.1 COW表實(shí)時(shí)視圖查詢
設(shè)置hive.input.format 為org.apache.hadoop.hive.ql.io.HiveInputFormat或者org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat后,像普通的hive表一樣查詢即可
set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat; select count(*) from hudicow;
4.2.2 COW表增量查詢
除了要設(shè)置hive.input.format,還需要設(shè)置上述的3個(gè)增量查詢參數(shù),且增量查詢語句中的必須添加where 關(guān)鍵字并將_hoodie_commit_time
> 'startCommitTime'作為過濾條件(這地方主要是hudi的小文件合并會(huì)把新舊commit的數(shù)據(jù)合并成新數(shù)據(jù),hive是沒法直接從parquet文件知道哪些是新數(shù)據(jù)哪些是老數(shù)據(jù))
set hive.input.format = org.apache.hadoop.hive.ql.io.HiveInputFormat; set hoodie.hudicow.consume.mode = INCREMENTAL; set hoodie.hudicow.consume.max.commits = 3; set hoodie.hudicow.consume.start.timestamp = xxxx; select count(*) from hudicow where `_hoodie_commit_time` > 'xxxx'
注意_hoodie_commit_time
的引號(hào)是反引號(hào)(tab鍵上面那個(gè))不是單引號(hào), 'xxxx'是單引號(hào)
4.3 MOR類型Hudi表的查詢
例如mor類型Hudi源表的表名為hudimor,映射為兩張Hive外部表hudimor_ro(ro表)和hudimor_rt(rt表)
4.3.1 MOR表讀優(yōu)化視圖
實(shí)際上就是讀 ro表,和cow表類似設(shè)置完hiveInputFormat 之后 和普通的hive表一樣查詢即可。
4.3.2 MOR表實(shí)時(shí)視圖
設(shè)置了hive.input.format之后,即可查詢到Hudi源表的最新數(shù)據(jù)
set hive.input.format = org.apache.hadoop.hive.ql.io.HiveInputFormat; select * from hudicow_rt;
4.3.3 MOR表增量查詢
這個(gè)增量查詢針對(duì)的rt表,不是ro表。通COW表的增量查詢類似
set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat; // 這地方指定為HoodieCombineHiveInputFormat set hoodie.hudimor.consume.mode = INCREMENTAL;set hoodie.hudimor.consume.max.commits = -1; set hoodie.hudimor.consume.start.timestamp = xxxx; select * from hudimor_rt where `_hoodie_commit_time` > 'xxxx'; // 這個(gè)表名要是rt表
說明如下
set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;
最好只用于rt表的增量查詢,當(dāng)然其他種類的查詢也可以設(shè)置為這個(gè),這個(gè)參數(shù)會(huì)影響到普通的hive表查詢,因此在rt表增量查詢完成后,應(yīng)該設(shè)置
set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
或者改為默認(rèn)值
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
用于其他表的查詢。
set hoodie.mytableName.consume.mode=INCREMENTAL;
僅用于該表的增量查詢模式,若要對(duì)該表切換為其他查詢模式,應(yīng)設(shè)置
set hoodie.hudisourcetablename.consume.mode=SNAPSHOT;
當(dāng)前Hudi(0.9.0)對(duì)接Hive的一些問題,請(qǐng)使用master分支或即將發(fā)布的0.10.0版本
hive讀hudi表會(huì)將所有的數(shù)據(jù)給打印出來有嚴(yán)重的性能問題和數(shù)據(jù)安全問題。
MOR表的實(shí)時(shí)視圖讀取 請(qǐng)按需設(shè)置mapreduce.input.fileinputformat.split.maxsize的大小 禁止hive取切分讀取的文件,否則會(huì)出現(xiàn)數(shù)據(jù)重復(fù)。這個(gè)問題當(dāng)前是無解的,spark讀hudi實(shí)時(shí)視圖的時(shí)候代碼直接寫死不會(huì)切分文件,hive需要手動(dòng)設(shè)置。
如果碰到classNotFound, noSuchMethod等錯(cuò)誤請(qǐng)檢查hive lib庫下面的jar包是否出現(xiàn)沖突。
5. Hive側(cè)源碼修改
為支持Hive查詢Hudi的純log文件需要對(duì)Hive側(cè)源碼進(jìn)行修改。
具體修改org.apache.hadoop.hive.common.FileUtils 如下函數(shù)
public static final PathFilter HIDDEN_FILES_PATH_FILTER = new PathFilter() {? ? @Override? ? public boolean accept(Path p) {? ? ? String name = p.getName();? ? ? boolean isHudiMeta = name.startsWith(".hoodie");? ? ? boolean isHudiLog = false;? ? ? Pattern LOG_FILE_PATTERN = Pattern.compile("\\.(.*)_(.*)\\.(.*)\\.([0-9]*)(_(([0-9]*)-([0-9]*)-([0-9]*)))?");? ? ? Matcher matcher = LOG_FILE_PATTERN.matcher(name);? ? ? if (matcher.find()) {? ? ? ? isHudiLog = true;? ? ? }? ? ? boolean isHudiFile = isHudiLog || isHudiMeta;? ? ? return (!name.startsWith("_") && !name.startsWith(".")) || isHudiFile;? ? }? };
重新編譯hive, 把新編譯的hive-common-xxx.jar
, hive-exec-xxx.jar
替換到hive server的lib目錄下注意權(quán)限和名字和原來的jar包保持一致。
最后重啟hive-server即可。
以上就是Apache教程Hudi與Hive集成手冊(cè) 的詳細(xì)內(nèi)容,更多關(guān)于Apache Hudi與Hive集成手冊(cè) 的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
DELL DOSA 6.X 服務(wù)器引導(dǎo)光盤Dell Systems Build and Update Utility I
戴爾系統(tǒng)構(gòu)建和更新實(shí)用程序是可引導(dǎo)的實(shí)用程序,適用于單一服務(wù)器操作系統(tǒng)安裝、預(yù)加載操作系統(tǒng)固件更新和預(yù)加載操作系統(tǒng)系統(tǒng)配置2016-04-04N點(diǎn)主機(jī)管理系統(tǒng)重置密碼方法(在線修改密碼)
這篇文章主要介紹了N點(diǎn)主機(jī)管理系統(tǒng)重置密碼方法(在線修改密碼),需要的朋友可以參考下2015-10-10win2008 r2 服務(wù)器環(huán)境配置(FTP/ASP/ASP.Net/PHP)
這篇文章主要想介紹websitepanel環(huán)境配置之FTP/ASP/ASP.Net/PHP運(yùn)行環(huán)境的搭建,需要的朋友可以參考下2013-12-12妙用.htaccess隱藏網(wǎng)頁文件擴(kuò)展名
我總固執(zhí)地認(rèn)為網(wǎng)頁鏈接后拖著一個(gè).php讓人看著心煩,一心想要找到辦法把它給去掉。雖然網(wǎng)上有對(duì)WordPress、Discuz等系統(tǒng)關(guān)于這方面的介紹,但是對(duì)于自己設(shè)計(jì)的網(wǎng)站就不太好使了2013-12-12什么是WebsitePanel(基于windows虛擬主機(jī)管理系統(tǒng))
一套比較容易上手的Windows系統(tǒng)中的虛擬主機(jī)管理系統(tǒng)。他可以同時(shí)管理多臺(tái)服務(wù)器,并且擁有一個(gè)簡潔的、穩(wěn)定的統(tǒng)一管理界面2013-12-12解決JMail無法安裝的方法(帳戶名與安全標(biāo)識(shí)間無任何映射完成)
今日在遠(yuǎn)程服務(wù)器上安裝Jmail,結(jié)果提示錯(cuò)誤“帳戶名與安全標(biāo)識(shí)間無任何映射完成”2010-04-04