欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

hive函數(shù)簡(jiǎn)介

 更新時(shí)間:2017年09月29日 10:45:34   投稿:mrr  
hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析

首先我們要知道hive到底是做什么的。下面這幾段文字很好的描述了hive的特性: 

 1.hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。

  2.Hive是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡(jiǎn)單的類 SQL 查詢語(yǔ)言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語(yǔ)言也允許熟悉 MapReduce 開(kāi)發(fā)者的開(kāi)發(fā)自定義的 mapper 和 reducer 來(lái)處理內(nèi)建的 mapper 和 reducer 無(wú)法完成的復(fù)雜的分析工作。

  要理解hive,必須先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。

  使用hive的命令行接口,感覺(jué)很像操作關(guān)系數(shù)據(jù)庫(kù),但是hive和關(guān)系數(shù)據(jù)庫(kù)還是有很大的不同,下面我就比較下hive與關(guān)系數(shù)據(jù)庫(kù)的區(qū)別,具體如下:

1.hive和關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)文件的系統(tǒng)不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系統(tǒng)),關(guān)系數(shù)據(jù)庫(kù)則是服務(wù)器本地的文件系統(tǒng);

2.hive使用的計(jì)算模型是mapreduce,而關(guān)系數(shù)據(jù)庫(kù)則是自己設(shè)計(jì)的計(jì)算模型;

3.關(guān)系數(shù)據(jù)庫(kù)都是為實(shí)時(shí)查詢的業(yè)務(wù)進(jìn)行設(shè)計(jì)的,而hive則是為海量數(shù)據(jù)做數(shù)據(jù)挖掘設(shè)計(jì)的,實(shí)時(shí)性很差;實(shí)時(shí)性的區(qū)別導(dǎo)致hive的應(yīng)用場(chǎng)景和關(guān)系數(shù)據(jù)庫(kù)有很大的不同;

4.Hive很容易擴(kuò)展自己的存儲(chǔ)能力和計(jì)算能力,這個(gè)是繼承hadoop的,而關(guān)系數(shù)據(jù)庫(kù)在這個(gè)方面要比數(shù)據(jù)庫(kù)差很多。

  以上都是從宏觀的角度比較hive和關(guān)系數(shù)據(jù)庫(kù)的區(qū)別,hive和關(guān)系數(shù)據(jù)庫(kù)的異同還有很多,我在文章的后面會(huì)一一描述。

  下面我來(lái)講講hive的技術(shù)架構(gòu),大家先看下面的架構(gòu)圖: 

  由上圖可知,hadoop和mapreduce是hive架構(gòu)的根基。Hive架構(gòu)包括如下組件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),這些組件我可以分為兩大類:服務(wù)端組件和客戶端組件。

   首先講講服務(wù)端組件:

  Driver組件:該組件包括Complier、Optimizer和Executor,它的作用是將我們寫(xiě)的HiveQL(類SQL)語(yǔ)句進(jìn)行解析、編譯優(yōu)化,生成執(zhí)行計(jì)劃,然后調(diào)用底層的mapreduce計(jì)算框架。

  Metastore組件:元數(shù)據(jù)服務(wù)組件,這個(gè)組件存儲(chǔ)hive的元數(shù)據(jù),hive的元數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)里,hive支持的關(guān)系數(shù)據(jù)庫(kù)有derby、mysql。元數(shù)據(jù)對(duì)于hive十分重要,因此hive支持把metastore服務(wù)獨(dú)立出來(lái),安裝到遠(yuǎn)程的服務(wù)器集群里,從而解耦hive服務(wù)和metastore服務(wù),保證hive運(yùn)行的健壯性,這個(gè)方面的知識(shí),我會(huì)在后面的metastore小節(jié)里做詳細(xì)的講解。

  Thrift服務(wù):thrift是facebook開(kāi)發(fā)的一個(gè)軟件框架,它用來(lái)進(jìn)行可擴(kuò)展且跨語(yǔ)言的服務(wù)的開(kāi)發(fā),hive集成了該服務(wù),能讓不同的編程語(yǔ)言調(diào)用hive的接口。

  客戶端組件:

  CLI:command line interface,命令行接口。

  Thrift客戶端:上面的架構(gòu)圖里沒(méi)有寫(xiě)上Thrift客戶端,但是hive架構(gòu)的許多客戶端接口是建立在thrift客戶端之上,包括JDBC和ODBC接口。

  WEBGUI:hive客戶端提供了一種通過(guò)網(wǎng)頁(yè)的方式訪問(wèn)hive所提供的服務(wù)。這個(gè)接口對(duì)應(yīng)hive的hwi組件(hive web interface),使用前要啟動(dòng)hwi服務(wù)。

  下面我著重講講metastore組件,具體如下:

  Hive的metastore組件是hive元數(shù)據(jù)集中存放地。Metastore組件包括兩個(gè)部分:metastore服務(wù)和后臺(tái)數(shù)據(jù)的存儲(chǔ)。后臺(tái)數(shù)據(jù)存儲(chǔ)的介質(zhì)就是關(guān)系數(shù)據(jù)庫(kù),例如hive默認(rèn)的嵌入式磁盤數(shù)據(jù)庫(kù)derby,還有mysql數(shù)據(jù)庫(kù)。Metastore服務(wù)是建立在后臺(tái)數(shù)據(jù)存儲(chǔ)介質(zhì)之上,并且可以和hive服務(wù)進(jìn)行交互的服務(wù)組件,默認(rèn)情況下,metastore服務(wù)和hive服務(wù)是安裝在一起的,運(yùn)行在同一個(gè)進(jìn)程當(dāng)中。我也可以把metastore服務(wù)從hive服務(wù)里剝離出來(lái),metastore獨(dú)立安裝在一個(gè)集群里,hive遠(yuǎn)程調(diào)用metastore服務(wù),這樣我們可以把元數(shù)據(jù)這一層放到防火墻之后,客戶端訪問(wèn)hive服務(wù),就可以連接到元數(shù)據(jù)這一層,從而提供了更好的管理性和安全保障。使用遠(yuǎn)程的metastore服務(wù),可以讓metastore服務(wù)和hive服務(wù)運(yùn)行在不同的進(jìn)程里,這樣也保證了hive的穩(wěn)定性,提升了hive服務(wù)的效率。

  Hive的執(zhí)行流程如下圖所示:

圖描述的很清晰了,我這里就不在累述了。

下面我給大家展示一個(gè)簡(jiǎn)單的例子,看看hive是怎么操作的。

首先我們創(chuàng)建一個(gè)普通的文本文件,里面只有一行數(shù)據(jù),該行也只存儲(chǔ)一個(gè)字符串,命令如下:

echo ‘sharpxiajun' > /home/hadoop/test.txt

然后我們建一張hive的表:

hive –e “create table test (value string);

接下來(lái)加載數(shù)據(jù):

Load data local inpath ‘home/hadoop/test.txt' overwrite into table test

最后我們查詢下表:

hive –e ‘select * from test';

  大家看到了吧,hive十分簡(jiǎn)單,很好入門,操作和sql很像,下面我就要深入分析下hive與關(guān)系數(shù)據(jù)庫(kù)的區(qū)別,這部分可能有些人看的不是很明白,但是很有必要提前提出,以后我的文章里將進(jìn)一步講述hive,那時(shí)不太明白的童鞋在看看這部分,很多問(wèn)題就會(huì)清晰很多,具體如下:

1.關(guān)系數(shù)據(jù)庫(kù)里,表的加載模式是在數(shù)據(jù)加載時(shí)候強(qiáng)制確定的(表的加載模式是指數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)的文件格式),如果加載數(shù)據(jù)時(shí)候發(fā)現(xiàn)加載的數(shù)據(jù)不符合模式,關(guān)系數(shù)據(jù)庫(kù)則會(huì)拒絕加載數(shù)據(jù),這個(gè)就叫“寫(xiě)時(shí)模式”,寫(xiě)時(shí)模式會(huì)在數(shù)據(jù)加載時(shí)候?qū)?shù)據(jù)模式進(jìn)行檢查校驗(yàn)的操作。Hive在加載數(shù)據(jù)時(shí)候和關(guān)系數(shù)據(jù)庫(kù)不同,hive在加載數(shù)據(jù)時(shí)候不會(huì)對(duì)數(shù)據(jù)進(jìn)行檢查,也不會(huì)更改被加載的數(shù)據(jù)文件,而檢查數(shù)據(jù)格式的操作是在查詢操作時(shí)候執(zhí)行,這種模式叫“讀時(shí)模式”。在實(shí)際應(yīng)用中,寫(xiě)時(shí)模式在加載數(shù)據(jù)時(shí)候會(huì)對(duì)列進(jìn)行索引,對(duì)數(shù)據(jù)進(jìn)行壓縮,因此加載數(shù)據(jù)的速度很慢,但是當(dāng)數(shù)據(jù)加載好了,我們?nèi)ゲ樵償?shù)據(jù)的時(shí)候,速度很快。但是當(dāng)我們的數(shù)據(jù)是非結(jié)構(gòu)化,存儲(chǔ)模式也是未知時(shí)候,關(guān)系數(shù)據(jù)操作這種場(chǎng)景就麻煩多了,這時(shí)候hive就會(huì)發(fā)揮它的優(yōu)勢(shì)。

2.關(guān)系數(shù)據(jù)庫(kù)一個(gè)重要的特點(diǎn)是可以對(duì)某一行或某些行的數(shù)據(jù)進(jìn)行更新、刪除操作,hive不支持對(duì)某個(gè)具體行的操作,hive對(duì)數(shù)據(jù)的操作只支持覆蓋原數(shù)據(jù)和追加數(shù)據(jù)。Hive也不支持事務(wù)和索引。更新、事務(wù)和索引都是關(guān)系數(shù)據(jù)庫(kù)的特征,這些hive都不支持,也不打算支持,原因是hive的設(shè)計(jì)是海量數(shù)據(jù)進(jìn)行處理,全數(shù)據(jù)的掃描時(shí)常態(tài),針對(duì)某些具體數(shù)據(jù)進(jìn)行操作的效率是很差的,對(duì)于更新操作,hive是通過(guò)查詢將原表的數(shù)據(jù)進(jìn)行轉(zhuǎn)化最后存儲(chǔ)在新表里,這和傳統(tǒng)數(shù)據(jù)庫(kù)的更新操作有很大不同。

3.Hive也可以在hadoop做實(shí)時(shí)查詢上做一份自己的貢獻(xiàn),那就是和hbase集成,hbase可以進(jìn)行快速查詢,但是hbase不支持類SQL的語(yǔ)句,那么此時(shí)hive可以給hbase提供sql語(yǔ)法解析的外殼,可以用類sql語(yǔ)句操作hbase數(shù)據(jù)庫(kù)

相關(guān)文章

  • 大數(shù)據(jù)Spark Sql中日期轉(zhuǎn)換FROM_UNIXTIME和UNIX_TIMESTAMP的使用

    大數(shù)據(jù)Spark Sql中日期轉(zhuǎn)換FROM_UNIXTIME和UNIX_TIMESTAMP的使用

    本文主要介紹了大數(shù)據(jù)Spark Sql中日期轉(zhuǎn)換FROM_UNIXTIME和UNIX_TIMESTAMP的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-02-02
  • 識(shí)別 MS SQL 各個(gè)版本的版本號(hào)的方法

    識(shí)別 MS SQL 各個(gè)版本的版本號(hào)的方法

    識(shí)別 MS SQL 各個(gè)版本的版本號(hào)的方法...
    2007-10-10
  • SQL注入技巧之顯注與盲注中過(guò)濾逗號(hào)繞過(guò)詳析

    SQL注入技巧之顯注與盲注中過(guò)濾逗號(hào)繞過(guò)詳析

    SQL注入的繞過(guò)技巧有很多,下面這篇文章主要給大家介紹了關(guān)于SQL注入技巧之顯注與盲注中過(guò)濾逗號(hào)繞過(guò)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2018-08-08
  • hive函數(shù)簡(jiǎn)介

    hive函數(shù)簡(jiǎn)介

    hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析
    2017-09-09
  • 使用 Navicat 創(chuàng)建數(shù)據(jù)庫(kù)并用JDBC連接的操作方法

    使用 Navicat 創(chuàng)建數(shù)據(jù)庫(kù)并用JDBC連接的操作方法

    這篇文章主要介紹了使用 Navicat 創(chuàng)建數(shù)據(jù)庫(kù)并用JDBC連接的操作方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-11-11
  • 關(guān)于Hive中的NULL空值處理問(wèn)題

    關(guān)于Hive中的NULL空值處理問(wèn)題

    這篇文章主要介紹了關(guān)于Hive中的NULL空值處理問(wèn)題,Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,并提供類SQL查詢功能,需要的朋友可以參考下
    2023-07-07
  • sql語(yǔ)句實(shí)現(xiàn)行轉(zhuǎn)列的3種方法實(shí)例

    sql語(yǔ)句實(shí)現(xiàn)行轉(zhuǎn)列的3種方法實(shí)例

    將列值旋轉(zhuǎn)為列名(即行轉(zhuǎn)列)是我們?cè)陂_(kāi)發(fā)中經(jīng)常會(huì)遇到的一個(gè)需要,下面這篇文章主要給大家介紹了關(guān)于sql語(yǔ)句實(shí)現(xiàn)行轉(zhuǎn)列的3種方法,分別給出了詳細(xì)的示例代碼,需要的朋友可以參考借鑒,下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。
    2018-02-02
  • 在windows上用docker?desktop安裝部署StoneDB

    在windows上用docker?desktop安裝部署StoneDB

    這篇文章主要介紹了在windows上用docker?desktop安裝部署StoneDB的相關(guān)資料,整個(gè)過(guò)程記錄的十分詳細(xì),推薦給大家,需要的朋友可以參考下
    2022-08-08
  • 詳解數(shù)據(jù)庫(kù)中跨庫(kù)數(shù)據(jù)表的運(yùn)算

    詳解數(shù)據(jù)庫(kù)中跨庫(kù)數(shù)據(jù)表的運(yùn)算

    跨庫(kù)數(shù)據(jù)表,是指邏輯上同一張數(shù)據(jù)表被分別存儲(chǔ)在不同數(shù)據(jù)庫(kù)中。接下來(lái)通過(guò)本文給大家介紹數(shù)據(jù)庫(kù)中跨庫(kù)數(shù)據(jù)表的運(yùn)算方法,感興趣的朋友跟隨小編一起看看吧
    2018-11-11
  • CentOS 8.2部署CouchDB 3.3數(shù)據(jù)庫(kù)的方法

    CentOS 8.2部署CouchDB 3.3數(shù)據(jù)庫(kù)的方法

    這篇文章主要介紹了CentOS 8.2部署CouchDB 3.3數(shù)據(jù)庫(kù),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-12-12

最新評(píng)論