欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

MapReduce2框架的原理解析

 更新時(shí)間:2023年04月24日 10:01:28   作者:爆發(fā)的~小宇宙  
這篇文章主要圍繞MapReduce2框架原理介紹的,文中有詳細(xì)的代碼示例,對學(xué)習(xí)有一定的幫助,需要的朋友可以借鑒參考

1 MapReduce2產(chǎn)生的原因

1.1 在hadoop1.X的時(shí)代,MapReduce做了很多的事情,其核心是JobTracker。

1.2 初探MapReduce1架構(gòu)

  • 首先客戶端要編寫好mapreduce程序,然后提交作業(yè)也就是job,job的信息會(huì)發(fā)送到JobTracker上,并為該job分配一個(gè)ID值,接下來做檢查操作,確認(rèn)輸入目錄是否存在,如果不存在,則會(huì)拋錯(cuò),如果存在繼續(xù)檢查輸出目錄是否存在,如果存在則會(huì)拋錯(cuò),否則繼續(xù)運(yùn)行;當(dāng)檢查工作都做好了JobTracker就會(huì)配置Job需要的資源了。
  • JobTracker: 主要負(fù)責(zé)資源監(jiān)控管理和作業(yè)調(diào)度
    • (a)監(jiān)控所有TaskTracker 與job的健康狀況,一旦發(fā)現(xiàn)失敗,就將相應(yīng)的任務(wù)轉(zhuǎn)移到其他節(jié)點(diǎn);
    • (b)同時(shí)JobTracker會(huì)跟蹤任務(wù)的執(zhí)行進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)調(diào)度器,而調(diào)度器會(huì)在資源出現(xiàn)空閑時(shí),選擇合適的任務(wù)使用這些資源。
  • TaskTracker:是JobTracker與Task之前的橋梁
    • (a)從JobTracker接收并執(zhí)行各種命令:運(yùn)行任務(wù)、提交任務(wù)、Kill任務(wù)、重新初始化任務(wù);
    • (b)周期性地通過心跳機(jī)制,將節(jié)點(diǎn)健康情況和資源使用情況、各個(gè)任務(wù)的進(jìn)度和狀態(tài)等匯報(bào)給JobTracker。
  • Task Scheduler: 任務(wù)調(diào)度器(默認(rèn)FIFO,先按照作業(yè)的優(yōu)先級高低,再按照到達(dá)時(shí)間的先后選擇被執(zhí)行的作業(yè))

1.3MapReduce1缺陷

  • Hadoop1.x的MapReduce框架的主要局限:
    • (1)JobTracker 是 Map-reduce 的集中處理點(diǎn),存在單點(diǎn)故障,可靠性差;
    • (2)JobTracker 完成了太多的任務(wù),造成了過多的資源消耗,當(dāng) map-reduce job 非常多的時(shí)候,會(huì)造成很大的內(nèi)存開銷,潛在來說,也增加了 JobTracker 失效的風(fēng)險(xiǎn),這也是業(yè)界普遍總結(jié)出老 Hadoop 的 Map-Reduce 只能支持 4000 節(jié)點(diǎn)主機(jī)的上限,擴(kuò)展性能差。
    • (3)可預(yù)測的延遲:這是用戶非常關(guān)心的。小作業(yè)應(yīng)該盡可能快得被調(diào)度,而當(dāng)前基于TaskTracker->JobTracker ping(heartbeat)的通信方式代價(jià)和延遲過大,比較好的方式是JobTracker->TaskTracker ping, 這樣JobTracker可以主動(dòng)掃描有作業(yè)運(yùn)行的TaskTracker。

面對上訴一系列問題mr1已經(jīng)不能滿足我們的需求,因此在hadoop2.x中MapReduce2應(yīng)運(yùn)而生,下面我們一起學(xué)習(xí)MapReduce2。

2 MapReduce2架構(gòu)設(shè)計(jì)

2.1 官網(wǎng)初析MapReduce2

  • 從官網(wǎng)上我們可以看到,在Apache Hadoop 2.x中,我們將資源管理和作業(yè)調(diào)度功能分解為Apache Hadoop YARN來進(jìn)行管理,它一種通用的分布式應(yīng)用程序管理框架,而Apache Hadoop MapReduce(又名MRv2)是一個(gè)純粹的分布式計(jì)算框架。官網(wǎng)地址
  • 之前的MapReduce運(yùn)行時(shí)(又名MRv1)已經(jīng)被重用,沒有進(jìn)行較大的變化。因此,MRv2能夠確保與MRv1應(yīng)用的令人滿意的兼容性。但是,由于一些改進(jìn)和代碼重構(gòu),一些API已經(jīng)向后兼容。
  • 可以看出不同的是資源管理和作業(yè)管理系統(tǒng),MRv1中資源管理和作業(yè)管理均是由JobTracker實(shí)現(xiàn)的,集兩個(gè)功能于一身,而在MRv2中,將這兩部分分開了。

MRv2最基本的設(shè)計(jì)思想是將JobTracker的兩個(gè)主要功能,即資源管理和作業(yè)調(diào)度/監(jiān)控分成兩個(gè)獨(dú)立的進(jìn)程。在該解決方案中包含兩個(gè)組件:全局的ResourceManager(RM)和與每個(gè)應(yīng)用相關(guān)的ApplicationMaster(AM)。這里的“應(yīng)用”指一個(gè)單獨(dú)的MapReduce作業(yè)。RM和與NodeManager(NM,每個(gè)節(jié)點(diǎn)一個(gè))共同組成整個(gè)數(shù)據(jù)計(jì)算框架。RM是系統(tǒng)中將資源分配給各個(gè)應(yīng)用的最終決策者。AM實(shí)際上是一個(gè)具體的框架庫,它的任務(wù)是【與RM協(xié)商獲取應(yīng)用所需資源】和【與NM合作,以完成執(zhí)行和監(jiān)控task的任務(wù)】。

2.2 MapReduce2組成部分

  • ResourceManager(RM)包含兩個(gè)主要的組件:定時(shí)調(diào)用器(Scheduler)以及應(yīng)用管理器(ApplicationManager)
    • (1)調(diào)度器(Scheduler):根據(jù)容量,隊(duì)列等限制條件,將系統(tǒng)中的資源分配給各個(gè)正在運(yùn)行的應(yīng)用。這里的調(diào)度器是一個(gè)“純調(diào)度器”,因?yàn)樗辉儇?fù)責(zé)監(jiān)控或者跟蹤應(yīng)用的執(zhí)行狀態(tài)等,此外,他也不負(fù)責(zé)重新啟動(dòng)因應(yīng)用執(zhí)行失敗或者硬件故障而產(chǎn)生的失敗任務(wù)。調(diào)度器僅根據(jù)各個(gè)應(yīng)用的資源需求進(jìn)行調(diào)度,這是通過抽象概念“資源容器”完成的,資源容器(Resource Container)將內(nèi)存,CPU,磁盤,網(wǎng)絡(luò)等資源封裝在一起,從而限定每個(gè)任務(wù)使用的資源量??偠灾?,定時(shí)調(diào)度器負(fù)責(zé)向應(yīng)用程序分配資源,它不做監(jiān)控以及應(yīng)用程序的狀態(tài)跟蹤,并且它不保證會(huì)重啟由于應(yīng)用程序本身或硬件出錯(cuò)而執(zhí)行失敗的應(yīng)用程序。
    • (2)應(yīng)用管理器(ApplicationsManager,ASM):ASM主要負(fù)責(zé)接收作業(yè),協(xié)商獲取第一個(gè)容器用于執(zhí)行AM和提供重啟失敗AM container的服務(wù)。
  • NodeManager:NM是每個(gè)節(jié)點(diǎn)上的框架代理,主要負(fù)責(zé)啟動(dòng)應(yīng)用所需的容器,監(jiān)控資源(內(nèi)存,CPU,磁盤,網(wǎng)絡(luò)等)的使用情況并將之匯報(bào)給調(diào)度器(Scheduler)。
  • ApplicationMaster:每個(gè)應(yīng)用程序的ApplicationMaster負(fù)責(zé)從Scheduler申請資源,以及跟蹤這些資源的使用情況以及任務(wù)進(jìn)度的監(jiān)控。
  • Container:是YARN中資源的抽象,它將內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等資源封裝在一起。當(dāng)AM向RM申請資源時(shí),RM為AM返回的資源便是用Container表示的。

3 MapReduce2提交應(yīng)用程序的過程分析

  • 在作業(yè)的提交階段,client向RM提交一個(gè)job,這時(shí)RM會(huì)進(jìn)行檢查,如果沒有問題,會(huì)返回作業(yè)文件提交的路徑和jod id;client向HDFS上傳文件,準(zhǔn)備就緒后請求RM運(yùn)行作業(yè);
  • 作業(yè)初始化階段,用戶將應(yīng)用程序提交到ResourceManager后,RM為該作業(yè)分配第一個(gè)Container,并與對應(yīng)的NM通信,在Container中啟動(dòng)作業(yè)的MRAppMaster;
  • MRAppMaster首先向ResourceManager注冊,這樣用戶可以直接通過ResourceManage查看應(yīng)用程序的運(yùn)行狀態(tài),然后它將為各個(gè)任務(wù)申請資源,并監(jiān)控它的運(yùn)行狀態(tài);
  • MRAppMaster采用輪詢的方式式通過RPC協(xié)議向RM申請任務(wù)所需資源;
  • 一旦MRAppMaster申請到資源后,便與對應(yīng)的NodeManager通信,要求它啟動(dòng)任務(wù);
  • NodeManager為任務(wù)設(shè)置好運(yùn)行環(huán)境(包括環(huán)境變量、JAR包、二進(jìn)制程序等)后,將任務(wù)啟動(dòng)命令寫到一個(gè)腳本中,并通過運(yùn)行該腳本啟動(dòng)任務(wù);
  • 各個(gè)任務(wù)通過某個(gè)RPC協(xié)議向MRAppMaster匯報(bào)自己的狀態(tài)和進(jìn)度,以讓MRAppMaster隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài),從而可以在任務(wù)失敗時(shí)重新啟動(dòng)任務(wù)。在應(yīng)用程序運(yùn)行過程中,用戶可隨時(shí)通過RPC向MRAppMaster查詢應(yīng)用程序的當(dāng)前運(yùn)行狀態(tài);
  • 應(yīng)用程序運(yùn)行完成后,ApplicationMaster向ResourceManager注銷并關(guān)閉自己。

當(dāng)用戶向YARN中提交一個(gè)應(yīng)用程序后,YARN將分兩個(gè)階段運(yùn)行該應(yīng)用程序:

a. 第一個(gè)階段是啟動(dòng)ApplicationMaster;
b. 第二個(gè)階段是由ApplicationMaster創(chuàng)建應(yīng)用程序,為它申請資源,并監(jiān)控它的整個(gè)運(yùn)行過程,直到運(yùn)行完

以上就是MapReduce2框架的原理解析的詳細(xì)內(nèi)容,更多關(guān)于MapReduce2框架的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Java Servlet簡單實(shí)例分享(文件上傳下載demo)

    Java Servlet簡單實(shí)例分享(文件上傳下載demo)

    下面小編就為大家?guī)硪黄狫ava Servlet簡單實(shí)例分享(文件上傳下載demo)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-05-05
  • 詳解如何為SpringBoot Web應(yīng)用的日志方便追蹤

    詳解如何為SpringBoot Web應(yīng)用的日志方便追蹤

    在Web應(yīng)用程序領(lǐng)域,有效的請求監(jiān)控和可追溯性對于維護(hù)系統(tǒng)完整性和診斷問題至關(guān)重要,SpringBoot是一種用于構(gòu)建Java應(yīng)用程序的流行框架,在本文中,我們探討了在SpringBoot中向日志添加唯一ID的重要性,需要的朋友可以參考下
    2023-11-11
  • MQ的消息模型及在工作上應(yīng)用場景

    MQ的消息模型及在工作上應(yīng)用場景

    這篇文章主要介紹了MQ的消息模型及在工作上應(yīng)用場景,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-05-05
  • MyBatis中關(guān)于SQL的寫法總結(jié)

    MyBatis中關(guān)于SQL的寫法總結(jié)

    這篇文章主要介紹了MyBatis中關(guān)于SQL的寫法總結(jié),具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-08-08
  • Spring Boot利用Lombok減少Java中樣板代碼的方法示例

    Spring Boot利用Lombok減少Java中樣板代碼的方法示例

    spring Boot是非常高效的開發(fā)框架,lombok是一套代碼模板解決方案,將極大提升開發(fā)的效率,下面這篇文章主要給大家介紹了關(guān)于Spring Boot利用Lombok減少Java中樣板代碼的相關(guān)資料,需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-09-09
  • Java模擬實(shí)現(xiàn)HTTP服務(wù)器項(xiàng)目實(shí)戰(zhàn)

    Java模擬實(shí)現(xiàn)HTTP服務(wù)器項(xiàng)目實(shí)戰(zhàn)

    本文主要介紹了Java模擬實(shí)現(xiàn)HTTP服務(wù)器項(xiàng)目實(shí)戰(zhàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • Gauva使用ListenableFuture介紹說明

    Gauva使用ListenableFuture介紹說明

    并發(fā)是一個(gè)困難問題,但是通過強(qiáng)大和強(qiáng)大的抽象能夠顯著的簡化工作。為了簡化問題,Gauva使用ListenableFuture擴(kuò)展了JDK的Future接口,這篇文章主要介紹了Gauva使用ListenableFuture
    2023-01-01
  • java編程約瑟夫問題實(shí)例分析

    java編程約瑟夫問題實(shí)例分析

    這篇文章主要介紹了java編程約瑟夫問題實(shí)例分析,具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12
  • 使用自定義Json注解實(shí)現(xiàn)輸出日志字段脫敏

    使用自定義Json注解實(shí)現(xiàn)輸出日志字段脫敏

    這篇文章主要介紹了使用自定義Json注解實(shí)現(xiàn)輸出日志字段脫敏,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-12-12
  • idea編譯報(bào)錯(cuò)-代碼沒問題IDEA編譯不通過的處理方案

    idea編譯報(bào)錯(cuò)-代碼沒問題IDEA編譯不通過的處理方案

    這篇文章主要介紹了idea編譯報(bào)錯(cuò)-代碼沒問題IDEA編譯不通過的問題及解決方案,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-12-12

最新評論