快捷導(dǎo)航

Memcached 分布式緩存實(shí)現(xiàn)原理簡(jiǎn)介

更新時(shí)間：2016年06月23日 10:47:18 作者：Float_Luuu

這篇文章主要介紹了Memcached 分布式緩存實(shí)現(xiàn)原理簡(jiǎn)介,具有參考價(jià)值,需要的朋友可以參考下。

摘要

在高并發(fā)環(huán)境下，大量的讀、寫請(qǐng)求涌向數(shù)據(jù)庫(kù)，此時(shí)磁盤IO將成為瓶頸，從而導(dǎo)致過高的響應(yīng)延遲，因此緩存應(yīng)運(yùn)而生。無(wú)論是單機(jī)緩存還是分布式緩存都有其適應(yīng)場(chǎng)景和優(yōu)缺點(diǎn)，當(dāng)今存在的緩存產(chǎn)品也是數(shù)不勝數(shù)，最常見的有redis和memcached等，既然是分布式，那么他們是怎么實(shí)現(xiàn)分布式的呢？本文主要介紹分布式緩存服務(wù)mencached的分布式實(shí)現(xiàn)原理。
緩存本質(zhì)

計(jì)算機(jī)體系緩存

什么是緩存，我們先看看計(jì)算機(jī)體系結(jié)構(gòu)中的存儲(chǔ)體系，根據(jù)馮·諾依曼計(jì)算機(jī)體系結(jié)構(gòu)模型，計(jì)算機(jī)分為五大部分：運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備、輸出設(shè)備。結(jié)合現(xiàn)代計(jì)算機(jī)，CPU包含運(yùn)算器和控制器兩個(gè)部分，CPU負(fù)責(zé)計(jì)算，其需要的數(shù)據(jù)由存儲(chǔ)提供，存儲(chǔ)分為幾個(gè)級(jí)別，就拿我當(dāng)前的PC舉個(gè)例子，我的機(jī)器存儲(chǔ)清單如下：

    1.356G的磁盤
    2.4G的內(nèi)存
    3.3MB三級(jí)緩存
    4.256KB二級(jí)緩存(pre core)

除了上述部分，還有CPU內(nèi)的寄存器，當(dāng)然有的計(jì)算機(jī)還有一級(jí)緩存等。CPU運(yùn)算器工作的時(shí)候需要數(shù)據(jù)，數(shù)據(jù)哪里來？首先從距離CPU最近的二級(jí)緩存去拿，這塊緩存速度最快，通常也是體積最小，因?yàn)閮r(jià)格最貴：

存儲(chǔ)金字塔

如上圖所示，存儲(chǔ)體系就像個(gè)金子塔，最上層最快，價(jià)格最貴，最下層最慢，價(jià)格也最便宜，CPU的數(shù)據(jù)源優(yōu)先級(jí)一層層從上到下去尋找數(shù)據(jù)。

很顯然，除了最慢的那塊存儲(chǔ)，在計(jì)算機(jī)體系中，相對(duì)較快的那些存儲(chǔ)都可以被稱為緩存，他們解決的問題是讓存儲(chǔ)訪問更快。

緩存應(yīng)用系統(tǒng)

計(jì)算機(jī)體系存儲(chǔ)系統(tǒng)模型擴(kuò)展到應(yīng)用也是一樣，應(yīng)用需要數(shù)據(jù)，數(shù)據(jù)哪里來？緩存(更快的存儲(chǔ))->DB（較慢的存儲(chǔ)），他們的工作流程大致如下圖所示：

帶緩存的存儲(chǔ)訪問一般模型

如上圖所示，緩存應(yīng)用系統(tǒng)一般存儲(chǔ)訪問流程：首先訪問緩存較快的存儲(chǔ)介質(zhì)，如果命中且未失效則返回內(nèi)容，如果未命中或失效則訪問較慢的存儲(chǔ)介質(zhì)將內(nèi)容返回同時(shí)更新緩存。

memcached簡(jiǎn)介

什么是memcached

memcached是LiveJournal旗下的Danga Interactive公司的Brad Fitzpatric為首開發(fā)的一款軟件?，F(xiàn)在已經(jīng)成為mixi、hatena、Facebook、Vox、LiveJournal等眾多服務(wù)中提高Web應(yīng)用擴(kuò)展性的重要因素。傳統(tǒng)的Web應(yīng)用都將數(shù)據(jù)保存到RDBMS中，應(yīng)用服務(wù)器從RDBMS中讀取數(shù)據(jù)、處理數(shù)據(jù)并在瀏覽器中顯示。但是隨著數(shù)據(jù)量增大、訪問的集中、就會(huì)出現(xiàn)RDBMS的負(fù)擔(dān)加重、數(shù)據(jù)庫(kù)響應(yīng)變慢、導(dǎo)致整個(gè)系統(tǒng)響應(yīng)延遲增加。

而memcached就是為了解決這個(gè)問題而出現(xiàn)的，memcached是一款高性能的分布式內(nèi)存緩存服務(wù)器，一般目的是為了通過緩存數(shù)據(jù)庫(kù)的查詢命中減少數(shù)據(jù)庫(kù)壓力、提高應(yīng)用響應(yīng)速度、提高可擴(kuò)展性。

memcached緩存應(yīng)用

memcached緩存特點(diǎn)

    1.協(xié)議簡(jiǎn)單
    2.基于libevent的事件處理
    3.內(nèi)置內(nèi)存存儲(chǔ)方式
    4.memcached不相互通信的分布式

memcached分布式原理

今天的內(nèi)容主要涉及memcached特點(diǎn)的第四條，memcached不相互通信，那么memcached是如何實(shí)現(xiàn)分布式的呢？memcached的分布式實(shí)現(xiàn)主要依賴客戶端的實(shí)現(xiàn)：

memcached分布式

如上圖所示，我們看下緩存的存儲(chǔ)的一般流程：

當(dāng)數(shù)據(jù)到達(dá)客戶端，客戶端實(shí)現(xiàn)的算法就會(huì)根據(jù)“鍵”來決定保存的memcached服務(wù)器，服務(wù)器選定后，命令他保存數(shù)據(jù)。取的時(shí)候也一樣，客戶端根據(jù)“鍵”選擇服務(wù)器，使用保存時(shí)候的相同算法就能保證選中和存的時(shí)候相同的服務(wù)器。

余數(shù)計(jì)算分散法

余數(shù)計(jì)算分散法是memcached標(biāo)準(zhǔn)的memcached分布式方法，算法如下：

復(fù)制代碼代碼如下:

CRC($key)%N

該算法下，客戶端首先根據(jù)key來計(jì)算CRC，然后結(jié)果對(duì)服務(wù)器數(shù)進(jìn)行取模得到memcached服務(wù)器節(jié)點(diǎn)，對(duì)于這種方式有兩個(gè)問題值得說明一下：

1.當(dāng)選擇到的服務(wù)器無(wú)法連接的時(shí)候，一種解決辦法是將嘗試的連接次數(shù)加到key后面，然后重新進(jìn)行hash，這種做法也叫rehash。
2.第二個(gè)問題也是這種方法的致命的缺點(diǎn)，盡管余數(shù)計(jì)算分散發(fā)相當(dāng)簡(jiǎn)單，數(shù)據(jù)分散也很優(yōu)秀，當(dāng)添加或者移除服務(wù)器的時(shí)候，緩存重組的代價(jià)相當(dāng)大。

Consistent Hashing算法

Consistent Hashing算法描述如下：首先求出memcached服務(wù)器節(jié)點(diǎn)的哈希值，并將其分配到0~2^32的圓上，這個(gè)圓我們可以把它叫做值域，然后用同樣的方法求出存儲(chǔ)數(shù)據(jù)鍵的哈希值，并映射到圓上。然后從數(shù)據(jù)映射到的位置開始順時(shí)針查找，將數(shù)據(jù)保存到找到的第一個(gè)服務(wù)器上，如果超過0~2^32仍找不到，就會(huì)保存在第一臺(tái)memcached服務(wù)器上：

memcachd基本原理

再拋出上面的問題，如果新添加或移除一臺(tái)機(jī)器，在consistent Hashing算法下會(huì)有什么影響。上圖中假設(shè)有四個(gè)節(jié)點(diǎn)，我們?cè)偬砑右粋€(gè)節(jié)點(diǎn)叫node5:

添加了node節(jié)點(diǎn)之后

node5被放在了node4與node2之間，本來映射到node2和node4之間的區(qū)域都會(huì)找到node4，當(dāng)有node5的時(shí)候，node5和node4之間的還是找到node4，而node5和node2之間的此時(shí)會(huì)找到node5，因此當(dāng)添加一臺(tái)服務(wù)器的時(shí)候受影響的僅僅是node5和node2區(qū)間。

優(yōu)化的Consistent Hashing算法

上面可以看出使用consistent Hashing最大限度的抑制了鍵的重新分配，且有的consistent Hashing的實(shí)現(xiàn)方式還采用了虛擬節(jié)點(diǎn)的思想。問題起源于使用一般hash函數(shù)的話，服務(wù)器的映射地點(diǎn)的分布非常不均勻，從而導(dǎo)致數(shù)據(jù)庫(kù)訪問傾斜，大量的key被映射到同一臺(tái)服務(wù)器上。為了避免這個(gè)問題，引入了虛擬節(jié)點(diǎn)的機(jī)制，為每臺(tái)服務(wù)器計(jì)算出多個(gè)hash值，每個(gè)值對(duì)應(yīng)環(huán)上的一個(gè)節(jié)點(diǎn)位置，這種節(jié)點(diǎn)叫虛擬節(jié)點(diǎn)。而key的映射方式不變，就是多了層從虛擬節(jié)點(diǎn)再映射到物理機(jī)的過程。這種優(yōu)化下盡管物理機(jī)很少的情況下，只要虛擬節(jié)點(diǎn)足夠多，也能夠使用得key分布的相對(duì)均勻。

總結(jié)

本文介在理解緩存基本概念的情況下介紹了memcached的分布式算法實(shí)現(xiàn)原理，memcached的分布式是由客戶端函數(shù)庫(kù)實(shí)現(xiàn)的。

以上就是本文的全部?jī)?nèi)容，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: