Redis Cluster集群主從切換的踩坑與填坑
因?yàn)轫?xiàng)目的原因采用了Redis Cluster,3主3從,每臺主機(jī)1主1從,集群信息如下:
10.135.255.72:20011> cluster nodes
7b662b36489a6240aa21d1cf7b04b84019254b63 10.135.255.74:20012 slave 85c78164a448fb9965e22447429a56cab226c68f 0 1537239581900 43 connected
61c3e1a640e71f4801d850c901dd33f0b4f6876d 10.135.255.73:20012 slave 8e3491125e105333958dd752ee0d0b0a41ed2d90 0 1537239582300 41 connected
85c78164a448fb9965e22447429a56cab226c68f 10.135.255.73:20011 master - 0 1537239581999 43 connected 5461-10922
8e3491125e105333958dd752ee0d0b0a41ed2d90 10.135.255.72:20011 myself,master - 0 0 41 connected 0-5460
92eadfb6acbd0db74a8b8860286a7f63abce140e 10.135.255.74:20011 master - 0 1537239581799 44 connected 10923-16383
7084c1d7950b83abc1e4419500e1c24a9fa108e7 10.135.255.72:20012 slave 92eadfb6acbd0db74a8b8860286a7f63abce140e 0 1537239581499 44 connected
Redis Cluster經(jīng)過運(yùn)行一段時間后,會經(jīng)常發(fā)生主從關(guān)系的自動切換,比如:10.135.255.74:20012變成master,10.135.255.73:20011變成slave,這樣就會導(dǎo)致10.135.255.74:20011和10.135.255.74:20012變成雙master,這樣假如10.135.255.74這臺主機(jī)發(fā)生宕機(jī),就會導(dǎo)致2個master不可用,導(dǎo)致cluster down(ps:redis cluster中一半以上的master故障會導(dǎo)致 cluster down)。此問題困擾項(xiàng)目組很久,一直未找到根本原因。
后來經(jīng)過多次查閱資料,應(yīng)該是redis.conf里的集群節(jié)點(diǎn)的超時時限參數(shù)cluster-node-timeout配置的是2000(2秒),這里簡單講解下該參數(shù)的作用:
一、節(jié)點(diǎn)失效檢測
1.集群中當(dāng)一個節(jié)點(diǎn)向另一個節(jié)點(diǎn)發(fā)送PING命令,但是目標(biāo)節(jié)點(diǎn)未在給定的時限內(nèi)返回PING命令的回復(fù)時,那么發(fā)送命令的節(jié)點(diǎn)會將目標(biāo)節(jié)點(diǎn)標(biāo)記為PFAIL(possible failuer,可能已失效);
等待節(jié)點(diǎn)回復(fù)的時限稱為節(jié)點(diǎn)超時時限(node timeout),是一個節(jié)點(diǎn)選項(xiàng)(node-wise setting);
二、集群狀態(tài)檢測
每當(dāng)集群發(fā)生配置變化時(可能是哈希槽更新,也可能是某個節(jié)點(diǎn)進(jìn)入失效狀態(tài)),集群中的每個節(jié)點(diǎn)都會對它所知道的節(jié)點(diǎn)進(jìn)行掃描(scan);
一旦配置完畢,集群就會進(jìn)入兩種狀態(tài)中的一種:
FAIL:集群不能正常工作,當(dāng)集群中有某個節(jié)點(diǎn)進(jìn)入失效狀態(tài)時,集群不能處理任何命令請求,對于每個命令請求,集群節(jié)點(diǎn)都返回錯誤回復(fù);
OK:集群可以正常工作,負(fù)責(zé)處理全部16384個槽節(jié)點(diǎn)中,沒有一個被標(biāo)記為FAIL狀態(tài);
三、從節(jié)點(diǎn)選舉
一旦某個主節(jié)點(diǎn)進(jìn)入了FAIL狀態(tài),如果這個主節(jié)點(diǎn)有一個或者多個從節(jié)點(diǎn)存在,那么其中一個從節(jié)點(diǎn)會被升級為主節(jié)點(diǎn),而其它從節(jié)點(diǎn)會開始對這個新主節(jié)點(diǎn)進(jìn)行復(fù)制;
在實(shí)際生產(chǎn)使用過程中,由于網(wǎng)絡(luò)順時延遲或者Cluster某些節(jié)點(diǎn)正在進(jìn)行持久化,AOF重寫、Master-slave同步數(shù)據(jù)這些耗時的操作,可能就會產(chǎn)生節(jié)點(diǎn)檢測超時(>2000ms)從而失效,為了避免節(jié)點(diǎn)檢測過于靈敏,經(jīng)過多次調(diào)整實(shí)踐,在該項(xiàng)目的實(shí)際生產(chǎn)環(huán)境中,將cluster-node-timeout調(diào)整為12000ms后,比較穩(wěn)定,既不輕易發(fā)生主從自動切換,也在真正master節(jié)點(diǎn)主機(jī)宕機(jī)后,slave能迅速選舉為主,保證redis cluster可用。
補(bǔ)充:記一次Redis主從切換故障解決
問題描述:
在虛擬機(jī)機(jī)上配置了一主二從三哨兵,主機(jī)宕機(jī)后其中一臺從機(jī)自動切換為主機(jī)成功。重啟之前的主機(jī)卻連不上新的主機(jī)。
解決方法:
經(jīng)過檢查發(fā)現(xiàn),舊的主機(jī)未配置連接新的從機(jī)的密碼
接下里配置好連接密碼,再重啟一下redis服務(wù)
重啟后主機(jī)連接狀態(tài)顯示正常,問題解決
以上為個人經(jīng)驗(yàn),希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
詳解利用redis + lua解決搶紅包高并發(fā)的問題
本篇文章主要介紹了利用redis + lua解決搶紅包高并發(fā)的問題 ,詳細(xì)的講訴了需求分析和方案,有興趣的可以了解一下。2016-11-11Redis為什么默認(rèn)有16個數(shù)據(jù)庫問題
這篇文章主要介紹了Redis為什么默認(rèn)有16個數(shù)據(jù)庫問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-02-02詳解Redis中的List是如何實(shí)現(xiàn)的
List 的 Redis 中的 5 種主要數(shù)據(jù)結(jié)構(gòu)之一,它是一種序列集合,可以存儲一個有序的字符串列表,順序是插入的順序,本文將給大家介紹了一下Redis中的List是如何實(shí)現(xiàn)的,需要的朋友可以參考下2024-05-05在CenOS系統(tǒng)下安裝和配置Redis數(shù)據(jù)庫的教程
這篇文章主要介紹了在CenOS系統(tǒng)下安裝和配置Redis數(shù)據(jù)庫的教程,Redis是一個可基于內(nèi)存的高性能NoSQL數(shù)據(jù)庫,需要的朋友可以參考下2015-11-11淺談Redis位圖(Bitmap)及Redis二進(jìn)制中的問題
這篇文章主要介紹了Redis位圖(Bitmap)及Redis二進(jìn)制中的問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-07-07Redis 哨兵機(jī)制及配置實(shí)現(xiàn)
本文主要介紹了Redis 哨兵機(jī)制及配置實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-03-03