Hadoop源碼分析五hdfs架構(gòu)原理剖析
1、 hdfs架構(gòu)
在本系列文章三中出現(xiàn)了與hdfs
相關的數(shù)個服務。
如果在hadoop配置時寫的配置文件不同,啟動的服務也有所區(qū)別
按照本系列文章二中的配置,會啟動以下服務:namenode
、journalnode
、datanode
、zkfc
。其關系如圖:
從圖中可以看出namenode是絕對的中心節(jié)點,所有的節(jié)點都會和它進行交互。圖中namenode有兩臺,一臺為active,另一臺為standby。其中active是正常提供namenode服務,standby不對外提供服務,它負責及時同步active的數(shù)據(jù),并在active故障的時候轉(zhuǎn)換為active繼續(xù)提供服務。
namenode的下方是三臺datanode。
datanode負責存儲集群中的數(shù)據(jù),并向namenode匯報其存儲數(shù)據(jù)的情況。
namenode左右兩邊的是兩個zkfc。
它負責的是namenode的故障轉(zhuǎn)移,在active的namenode故障的時候,由zkfc將standby的namenode轉(zhuǎn)換為active。zkfc上方連接的是zookeeper,它對namenode的故障轉(zhuǎn)移是依靠zookeeper來實現(xiàn)的。
namenode的上方是三臺journalnode集群。
journalnode負責存儲namenode的日志文件,由active的namenode向journalnode寫入,standby的namenode不會向journalnode寫日志,standby主要會從其中讀取日志文件。
注意,這里的日志文件不是普通的運行日志,而是namenode的操作日志。例如,客戶端向hdfs上傳了一個文件,這時namenode會執(zhí)行一系列操作來完成這次上傳,而這些操作連同操作方式與操作內(nèi)容一起寫到操作日志中(journalnode中),通過這些操作日志可以還原這次上傳操作。
2、 namenode介紹
namenode作為hdfs的核心,它主要的作用是管理文件的元數(shù)據(jù)
元數(shù)據(jù)主要包括三類:文件的命名空間、文件與塊的對應關系、塊的存儲位置。
文件與塊的對應關系中的塊
是由于hdfs在存儲文件的時候并不是將整個文件將存儲在某一臺datanode上,而是將文件按照指定的大小切割成一定數(shù)量的塊。
namenode負責管理hdfs的元數(shù)據(jù)
這意味著所有與hdfs相關的操作都需要與namenode進行交互。這樣namenode的速度就不能太慢,所以namenode將元數(shù)據(jù)存儲在內(nèi)存中。但是數(shù)據(jù)不能只存儲在內(nèi)存中,所以這時需要將數(shù)據(jù)持久化到硬盤中。
namenode的數(shù)據(jù)持久化,采用了一種日志加快照的方式
日志即上文提到的操作日志,快照即將內(nèi)存中的數(shù)據(jù)狀態(tài)直接序列化到硬盤。在安裝集群的時候會先格式化namenode,這時便會創(chuàng)建一個快照文件,名為fsimage。然后在namenode運行的時候它會將操作日志寫入到fsimage文件所在的文件夾中。這里根據(jù)配置的不同寫入的路徑有所不同。如果使用本系列文章二中的配置,這個日志文件還會被寫到journalnode中。
最后還會有一個程序讀取這個快照文件和日志文件
將數(shù)據(jù)恢復到最新的狀態(tài),然后再更新原來的快照文件。下一次再讀取快照和日志文件的時候就只讀最新的文件。這里的程序會根據(jù)配置的不同有所區(qū)別,按照本系列文章二中的配置來說,是standby的namenode。這里為什么不直接使用active的namenode執(zhí)行更新fsimage文件,而是使用standby的namenode先讀取active的日志,然后再重演一遍操作日志恢復數(shù)據(jù)再由standby的namenode更新fsimage文件。這是因為更新fsimage操作很費時間,由active的namenode執(zhí)行會導致整個集群不可用。
以上就是Hadoop源碼分析五hdfs架構(gòu)原理剖析的詳細內(nèi)容,本系列下一篇文章傳送門Hadoop源碼分析六啟動文件namenode原理詳解更多關于Hadoop源碼分析的資料請持續(xù)關注腳本之家更新!
相關文章
基于常用json框架介紹和Jackson返回結(jié)果處理方式
這篇文章主要介紹了基于常用json框架介紹和Jackson返回結(jié)果處理方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-09-09使用BufferedReader讀取TXT文件中數(shù)值,并輸出最大值
這篇文章主要介紹了使用BufferedReader讀取TXT文件中數(shù)值,并輸出最大值,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-12-12Java?處理樹形結(jié)構(gòu)數(shù)據(jù)的過程
這篇文章主要介紹了Java?處理樹形結(jié)構(gòu)數(shù)據(jù)的過程,本文給大家分析具體實現(xiàn)過程,結(jié)合實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-08-08Java Hibernate中使用HQL語句進行數(shù)據(jù)庫查詢的要點解析
HQL是Hibernate框架中提供的關系型數(shù)據(jù)庫操作腳本,當然我們也可以使用原生的SQL語句,這里我們來看一下在Java Hibernate中使用HQL語句進行數(shù)據(jù)庫查詢的要點解析:2016-06-06Java 實戰(zhàn)項目之小說在線閱讀系統(tǒng)的實現(xiàn)流程
讀萬卷書不如行萬里路,只學書上的理論是遠遠不夠的,只有在實戰(zhàn)中才能獲得能力的提升,本篇文章手把手帶你用java+SSM+jsp+mysql+maven實現(xiàn)前臺閱讀后臺管理的小說在線閱讀系統(tǒng),大家可以在過程中查缺補漏,提升水平2021-11-11