欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Hbase列式存儲入門教程

 更新時(shí)間:2021年07月12日 10:23:38   作者:yestolife123  
HBase是一種分布式、可擴(kuò)展、支持海量數(shù)據(jù)存儲的NoSQL數(shù)據(jù)庫。本文通過應(yīng)用場景,性質(zhì)特點(diǎn)給大家介紹Hbase列式存儲入門教程,感興趣的朋友一起看看吧

HBase是一種分布式、可擴(kuò)展、支持海量數(shù)據(jù)存儲的NoSQL數(shù)據(jù)庫。分布式是因?yàn)镠Base底層使用HDFS存儲數(shù)據(jù),可擴(kuò)展也是基于HDFS的橫向擴(kuò)展能力,作為大數(shù)據(jù)的存儲當(dāng)然支持海量數(shù)據(jù)的存儲,NoSQL非關(guān)系型數(shù)據(jù)庫表結(jié)構(gòu)和關(guān)系型數(shù)據(jù)庫(如Mysql)的邏輯結(jié)構(gòu)、物理結(jié)構(gòu)很不一樣,性質(zhì)特點(diǎn)、應(yīng)用場景也不一樣。

1、邏輯結(jié)構(gòu)

在這里插入圖片描述

1)Name Space

命名空間,類似于關(guān)系型數(shù)據(jù)庫的 DatabBase 概念,每個(gè)命名空間下有多個(gè)表。HBase有兩個(gè)自帶的命名空間,分別是 hbase 和 default,hbase 中存放的是 HBase 內(nèi)置的表,default 表是用戶默認(rèn)使用的命名空間。

2)Region

類似于關(guān)系型數(shù)據(jù)庫的表概念。不同的是,HBase 定義表時(shí)只需要聲明列族即可,不需要聲明具體的列。這意味著,往 HBase 寫入數(shù)據(jù)時(shí),字段可以動(dòng)態(tài)、按需指定。因此,和關(guān)系型數(shù)據(jù)庫相比,HBase 能夠輕松應(yīng)對字段變更的場景。

3)Row

HBase 表中的每行數(shù)據(jù)都由一個(gè) RowKey 和多個(gè) Column(列)組成,數(shù)據(jù)是按照 RowKey的字典順序存儲的,并且查詢數(shù)據(jù)時(shí)只能根據(jù) RowKey 進(jìn)行檢索,所以 RowKey 的設(shè)計(jì)十分重要。

4)Column

HBase 中的每個(gè)列都由 Column Family(列族)和 Column Qualifier(列限定符)進(jìn)行限定,例如 info:name,info:age。建表時(shí),只需指明列族,而列限定符無需預(yù)先定義。

5)Time Stamp

用于標(biāo)識數(shù)據(jù)的不同版本(version),每條數(shù)據(jù)寫入時(shí),如果不指定時(shí)間戳,系統(tǒng)會自動(dòng)為其加上該字段,其值為寫入 HBase 的時(shí)間。

6)Cell

由{rowkey, column Family:column Qualifier, time Stamp} 唯一確定的單元。cell 中的數(shù)據(jù)是沒有類型的,全部是字節(jié)碼形式存貯。

2、物理結(jié)構(gòu)

在這里插入圖片描述

1)Region Server

Region Server 為 Region 的管理者,其實(shí)現(xiàn)類為 HRegionServer,主要作用如下:對于數(shù)據(jù)的操作:get, put, delete;對于 Region 的操作:splitRegion、compactRegion。

2)Master

Master 是所有 Region Server 的管理者,其實(shí)現(xiàn)類為 HMaster,主要作用如下:對于表的操作:create, delete, alter對于 RegionServer的操作:分配 regions到每個(gè)RegionServer,監(jiān)控每個(gè) RegionServer的狀態(tài),負(fù)載均衡和故障轉(zhuǎn)移。

3)Zookeeper

HBase 通過 Zookeeper 來做 Master 的高可用、RegionServer 的監(jiān)控、元數(shù)據(jù)的入口以及集群配置的維護(hù)等工作。

4)HDFS

HDFS 為 HBase 提供最終的底層數(shù)據(jù)存儲服務(wù),同時(shí)為 HBase 提供高可用的支持。

3、增刪改查

初學(xué)或者測試階段對HBase操作可以使用HBase shell。增刪改查等基本命令如下:

(1)創(chuàng)建表

create 'test','cf'

test是表名,cf是列族名,你會發(fā)現(xiàn)HBase的表在新建的時(shí)候并沒有地方讓你定義列(和關(guān)系型數(shù)據(jù)庫很不一樣吧)。這是因?yàn)镠Base中的列全部都是靈活的,可以隨便定義的。列只有在你插入第一條數(shù)據(jù)的時(shí)候才會生成。那么表的屬性在哪里定義呢?其實(shí)HBase的所有數(shù)據(jù)屬性都是定義在列族上的。

(2)查看表屬性

describe 'test'

輸出:

hbase(main):002:0> desc 'test'
Table test is ENABLED
test, {TABLE_ATTRIBUTES => {DURABILITY => 'USE_DEFAULT', METADATA => {'IS_ROOT'
=> 'false', 'LINDORM_TABLE_ATTRS' => '\x00\x08\x00\x00\x00\x16WAL_EDIT_WITH_FULL
_ROW\x05false\x00\x00\x00\x0BCONSISTENCY\x08eventual\x00\x00\x00\x16LEADER_BALAN
CE_ENABLED\x01\xFF\x00\x00\x00\x1FFULL_ROW_EDIT_CARRY_LATEST_DATA\x04true\x00\x0
0\x00\x0FDYNAMIC_COLUMNS\x04true\x00\x00\x00\x0FALLOW_FILTERING\x01\x00\x00\x00\
x00\x13LEADER_BALANCE_TYPE\x06single\x00\x00\x00\x12DEFERRED_LOG_FLUSH\x05false'
, 'TABLEMETAVERSION' => '`\xE4n\x0F'}}
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BE
HAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE => 'false'
, DATA_BLOCK_ENCODING => 'DIFF', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICAT
ION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'false', IN_MEMO
RY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPEN => 'fal
se', COMPRESSION => 'ZSTD', BLOCKCACHE => 'true', BLOCKSIZE => '65536', METADATA
 => {'STORAGE_POLICY' => 'DEFAULT', 'COMPRESS_TAGS' => 'true', 'DFS_REPLICATION'
 => '2', 'CHS_PROMOTE_ON_MAJOR' => 'true'}}
1 row(s)
Took 0.2150 seconds

可以看出對表的描述不多,大量的是對列族的描述,列族更像是傳統(tǒng)關(guān)系數(shù)據(jù)庫中的表,而表本身反倒變成只是存放列族的空殼了。

(3)查看表

list

輸出:

hbase(main):001:0> list
TABLE
test
test1
test2
test_ls
4 row(s)
Took 0.6370 seconds
=> ["test", "test1", "test2", "test_ls"]

(4)插入數(shù)據(jù)

put 'test','row1','cf:name','jack'

這條語句的意思就是:往test表插入一個(gè)單元格。這個(gè)單元格的rowkey為row1,也就是說它是屬于row1這個(gè)行中的一個(gè)列。該單元格的列族為cf。該單元格的列名為name。數(shù)據(jù)值為jack??梢娏惺窃诓迦霐?shù)據(jù)的時(shí)候產(chǎn)生的,Hbase中列可以自由擴(kuò)展。表的結(jié)構(gòu)中某一行可能沒有某個(gè)列,但數(shù)據(jù)并不以NULL替代,而是壓根沒有該單元格。這樣以稀疏k-v方式存儲數(shù)據(jù)可以大大壓縮數(shù)據(jù)存儲容量。

在這里插入圖片描述

(5)掃描數(shù)據(jù)

scan 'test'

輸出:

hbase(main):011:0> scan 'test'
ROW                   COLUMN+CELL
 row1                 column=cf:name, timestamp=1625911358767, value=jack
1 row(s)
Took 0.5670 seconds

scan命令類似于Mysql中的select * from test。

(6)查看數(shù)據(jù)

scan命令是批量讀取數(shù)據(jù),查詢某個(gè)單元格的數(shù)據(jù)可以用get命令,

get 'test','row1','cf:name'

由于HBase底層使用鍵值對存儲數(shù)據(jù),查詢一個(gè)單元格的數(shù)據(jù)非???,這和Mysql也完全不同。

(7)刪除數(shù)據(jù)

delete 'test','row1','cf:name'

HBase刪除記錄并不是真的刪除了數(shù)據(jù),而是放置了一個(gè)墓碑標(biāo)記(tombstone marker),把這個(gè)版本連同之前的版本都標(biāo)記為不可見了。

(8)停用表

disable 'test'

表刪除之前要停用表

(9)刪除表

drop 'test'

4、應(yīng)用場景

HBase采用的是Key/Value的存儲方式,這意味著,即使隨著數(shù)據(jù)量增大,也幾乎不會導(dǎo)致查詢的性能下降。凡事都不可能只有優(yōu)點(diǎn)而沒有缺點(diǎn)。數(shù)據(jù)分析是HBase的弱項(xiàng),因?yàn)閷τ贖Base乃至整個(gè)NoSQL生態(tài)圈來說,基本上都是不支持表關(guān)聯(lián)的。

不適用的場景:主要需求是數(shù)據(jù)分析,比如做報(bào)表。單表數(shù)據(jù)量不超過千萬。建議使用MySQL或者Oracle數(shù)據(jù)庫。

適用的場景:單表數(shù)據(jù)量超千萬,而且并發(fā)還挺高。數(shù)據(jù)分析需求較弱,或者不需要那么靈活或者實(shí)時(shí)。

5、參考資料

《HBase不睡覺書》

《HBase原理與實(shí)踐》

B站視頻《尚硅谷HBase教程(hbase框架快速入門)》

到此這篇關(guān)于Hbase列式存儲入門的文章就介紹到這了,更多相關(guān)Hbase列式存儲內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 在CRUD操作中與業(yè)務(wù)無關(guān)的SQL字段賦值的方法

    在CRUD操作中與業(yè)務(wù)無關(guān)的SQL字段賦值的方法

    這篇文章主要介紹了在CRUD操作中與業(yè)務(wù)無關(guān)的SQL字段賦值的方法的相關(guān)資料,需要的朋友可以參考下
    2016-04-04
  • 使用Dbeaver遠(yuǎn)程連接Hive的詳細(xì)方法

    使用Dbeaver遠(yuǎn)程連接Hive的詳細(xì)方法

    這篇文章主要介紹了使用Dbeaver遠(yuǎn)程鏈接Hive的詳細(xì)方法,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-03-03
  • Navicat圖形化界面之Navicat?Premium?12?安裝與使用教程

    Navicat圖形化界面之Navicat?Premium?12?安裝與使用教程

    Navicat?premium?是一款數(shù)據(jù)庫管理工具,它可以讓你以單一程式同時(shí)連線到?MySQL、SQLite、Oracle?及?PostgreSQL?資料庫,讓管理不同類型的資料庫更加的方便,下面通過本文給大家介紹Navicat?Premium?12?安裝使用教程,需要的朋友參考下吧
    2021-12-12
  • 本機(jī)上實(shí)現(xiàn)neo4j遠(yuǎn)程連接方式

    本機(jī)上實(shí)現(xiàn)neo4j遠(yuǎn)程連接方式

    這篇文章主要介紹了本機(jī)上實(shí)現(xiàn)neo4j遠(yuǎn)程連接方式,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • 詳解hive常見表結(jié)構(gòu)

    詳解hive常見表結(jié)構(gòu)

    hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制,這篇文章主要介紹了hive常見表結(jié)構(gòu),需要的朋友可以參考下
    2022-08-08
  • 最近關(guān)于Navicat到期的完美解決辦法(親測有效)

    最近關(guān)于Navicat到期的完美解決辦法(親測有效)

    這篇文章主要介紹了最近關(guān)于Navicat到期的完美解決辦法(親測有效),本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2023-02-02
  • IntellJ Idea 2020版添加sqlite數(shù)據(jù)庫的方法

    IntellJ Idea 2020版添加sqlite數(shù)據(jù)庫的方法

    這篇文章主要介紹了IntellJ Idea 2020版添加sqlite數(shù)據(jù)庫的方法,本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-11-11
  • SQL注入詳解(掃盲篇)

    SQL注入詳解(掃盲篇)

    剛進(jìn)公司的時(shí)候,研究的主要是SQL注入,因?yàn)橹皼]有搞過安全,所有費(fèi)了好長一段時(shí)間對SQL注入基本知識進(jìn)行了解。所以這篇文章并不是什么很深入的技術(shù)博客,或許應(yīng)該叫它‘ SQL注入掃盲 ’有需要的朋友可以參考學(xué)習(xí),下面來一起看看吧。
    2017-01-01
  • Navicat中修改MySQL的編碼格式

    Navicat中修改MySQL的編碼格式

    打開?Navicat?for?MySQL?并連接到您的數(shù)據(jù)庫服務(wù)器,在左側(cè)的連接列表中,展開數(shù)據(jù)庫,然后展開要更改字符集的表,選中要更改字符集的表,右鍵點(diǎn)擊并選擇?"設(shè)計(jì)表",在?"設(shè)計(jì)表"?窗口中,您將看到表的列表
    2023-10-10
  • Hive數(shù)據(jù)導(dǎo)出詳解

    Hive數(shù)據(jù)導(dǎo)出詳解

    hive是一個(gè)依賴Hadoop集群的數(shù)據(jù)處理平臺,我們不僅需要對數(shù)據(jù)進(jìn)行篩選處理,更需要進(jìn)行導(dǎo)出,供我們多次重復(fù)使用,本文主要介紹了hive如何導(dǎo)出數(shù)據(jù),感興趣的小伙伴歡迎閱讀
    2023-04-04

最新評論