解決MySQL中的Slave延遲問題的基本教程
一、原因分析
一般而言,slave相對(duì)master延遲較大,其根本原因就是slave上的復(fù)制線程沒辦法真正做到并發(fā)。簡單說,在master上是并發(fā)模式(以InnoDB引擎為主)完成事務(wù)提交的,而在slave上,復(fù)制線程只有一個(gè)sql thread用于binlog的apply,所以難怪slave在高并發(fā)時(shí)會(huì)遠(yuǎn)落后master。
ORACLE MySQL 5.6版本開始支持多線程復(fù)制,配置選項(xiàng) slave_parallel_workers 即可實(shí)現(xiàn)在slave上多線程并發(fā)復(fù)制。不過,它只能支持一個(gè)實(shí)例下多個(gè) database 間的并發(fā)復(fù)制,并不能真正做到多表并發(fā)復(fù)制。因此在較大并發(fā)負(fù)載時(shí),slave還是沒有辦法及時(shí)追上master,需要想辦法進(jìn)行優(yōu)化。
另一個(gè)重要原因是,傳統(tǒng)的MySQL復(fù)制是異步(asynchronous)的,也就是說在master提交完后,才在slave上再應(yīng)用一遍,并不是真正意義上的同步。哪怕是后來的Semi-sync Repication(半同步復(fù)制),也不是真同步,因?yàn)樗槐WC事務(wù)傳送到slave,但沒要求等到確認(rèn)事務(wù)提交成功。既然是異步,那肯定多少會(huì)有延遲。因此,嚴(yán)格意義上講,MySQL復(fù)制不能叫做MySQL同步(處女座的面試官有可能會(huì)在面試時(shí)把說成MySQL同步的一律刷掉哦)。
另外,不少人的觀念里,slave相對(duì)沒那么重要,因此就不會(huì)提供和master相同配置級(jí)別的服務(wù)器。有的甚至不但使用更差的服務(wù)器,而且還在上面跑多實(shí)例。
綜合這兩個(gè)主要原因,slave想要盡可能及時(shí)跟上master的進(jìn)度,可以嘗試采用以下幾種方法:
采用MariaDB發(fā)行版,它實(shí)現(xiàn)了相對(duì)真正意義上的并行復(fù)制,其效果遠(yuǎn)比ORACLE MySQL好的很多。在我的場景中,采用MariaDB作為slave的實(shí)例,幾乎總是能及時(shí)跟上master。每個(gè)表都要顯式指定主鍵,如果沒有指定主鍵的話,會(huì)導(dǎo)致在row模式下,每次修改都要全表掃描,尤其是大表就非常可怕了,延遲會(huì)更嚴(yán)重,甚至導(dǎo)致整個(gè)slave庫都被掛起,可參考案例:mysql主鍵的缺少導(dǎo)致備庫hang;
應(yīng)用程序端多做些事,讓MySQL端少做事,尤其是和IO相關(guān)的活動(dòng),例如:前端通過內(nèi)存CACHE或者本地寫隊(duì)列等,合并多次讀寫為一次,甚至消除一些寫請(qǐng)求;
進(jìn)行合適的分庫、分表策略,減小單庫單表復(fù)制壓力,避免由于單庫單表的的壓力導(dǎo)致整個(gè)實(shí)例的復(fù)制延遲;
其他提高IOPS性能的幾種方法,根據(jù)效果優(yōu)劣,我做了個(gè)簡單排序:
更換成SSD,或者PCIe SSD等IO設(shè)備,其IOPS能力的提升是普通15K SAS盤的數(shù)以百倍、萬倍,甚至幾十萬倍計(jì);
加大物理內(nèi)存,相應(yīng)提高InnoDB Buffer Pool大小,讓更多熱數(shù)據(jù)放在內(nèi)存中,降低發(fā)生物理IO的頻率;
調(diào)整文件系統(tǒng)為 XFS 或 ReiserFS,相比ext3可以極大程度提高IOPS能力。在高IOPS壓力下,相比ext4有更穩(wěn)健的IOPS表現(xiàn)(有人認(rèn)為 XFS 在特別的場景下會(huì)有很大的問題,但我們除了剩余磁盤空間少于10%時(shí)引發(fā)丟數(shù)據(jù)外,其他的尚未遇到);
調(diào)整RAID級(jí)別為raid 1+0,它相比raid1、raid5等更能提高IOPS性能。如果已經(jīng)全部是SSD設(shè)備了,可以2塊盤做成RAID 1,或者多快盤做成RAID 5(并且可以設(shè)置全局熱備盤,提高陣列容錯(cuò)性),甚至有些土豪用戶直接將多塊SSD盤組成RAID 50;
調(diào)整RAID的寫cache策略為WB或FORCE WB,詳情請(qǐng)參考:常用PC服務(wù)器陣列卡、硬盤健康監(jiān)控 以及 PC服務(wù)器陣列卡管理簡易手冊(cè);
調(diào)整內(nèi)核的io scheduler,優(yōu)先使用deadline,如果是SSD,則可以使用noop策略,相比默認(rèn)的cfq,個(gè)別請(qǐng)客下對(duì)IOPS的性能提升至少是數(shù)倍的。
二 、如何解決
平時(shí)接收的比較多關(guān)于主備延時(shí)的報(bào)警:
check_ins_slave_lag (err_cnt:1)critical-slavelag on ins:3306=39438
相信slave 延遲是MySQL dba 遇到的一個(gè)老生長談的問題了。先來分析一下slave延遲帶來的風(fēng)險(xiǎn)
a. 異常情況下,主從HA無法切換。HA 軟件需要檢查數(shù)據(jù)的一致性,延遲時(shí),主備不一致。
b. 備庫復(fù)制hang會(huì)導(dǎo)致備份失敗(flush tables with read lock會(huì)900s超時(shí))
c. 以 slave 為基準(zhǔn)進(jìn)行的備份,數(shù)據(jù)不是最新的,而是延遲。
面對(duì)此類問題我們?nèi)绾谓鉀Q ,如何規(guī)避?分析一下導(dǎo)致備庫延遲的幾種原因
1. ROW模式無主鍵、無索引或索引區(qū)分度不高.
有如下特征
a. show slave status 顯示position一直沒有變
b. show open tables 顯示某個(gè)表一直是 in_use 為 1
c. show create table 查看表結(jié)構(gòu)可以看到無主鍵,或者無任何索引,或者索引區(qū)分度很差。
解決方法:
a. 找到表區(qū)分度比較高的幾個(gè)字段, 可以使用這個(gè)方法判斷:
select count(*) from xx; select count(*) from (select distinct xx from xxx) t;
如果2個(gè)查詢count(*)的結(jié)果差不多,說明可以對(duì)這些字段加索引
b. 備庫stop slave;
可能會(huì)執(zhí)行比較久,因?yàn)樾枰貪L事務(wù)。
c. 備庫
set sql_log_bin=0; alter table xx add key xx(xx);
老的版本slave應(yīng)用binlog時(shí)只會(huì)選擇第一個(gè)索引,需要把新加的索引放在最前面,可以先把老的索引刪掉,建新的索引,再把老的索引建上。可以放到一個(gè)sql中執(zhí)行。
d. 備庫start slave
如果是innodb,可以通過show innodb status來查看 rows_inserted,updated,deleted,selected這幾個(gè)指標(biāo)來判斷。
如果每秒修改的記錄數(shù)比較多,說明復(fù)制正在以比較快的速度執(zhí)行。
2 MIXED模式無索引或SQL慢
在從庫上show full processlist 查看到正在執(zhí)行的SQL。
解決方法:
a. SQL比較簡單, 則檢查是否缺少索引,并添加索引。
b. 另一類是 insert into select from的語句,如果select 里包含group by,多表關(guān)聯(lián),可能效率會(huì)比較低。
這類可以到主庫把binlog_format改成row。
3 主庫上有大事務(wù),導(dǎo)致從庫延時(shí)
現(xiàn)象解析binlog 發(fā)現(xiàn)類似于下圖的情況看
解決方法:
與開發(fā)溝通,增加緩存,異步寫入數(shù)據(jù)庫,減少直接對(duì)db的大量寫入。
4. 主庫寫入頻繁,從庫壓力跟不上導(dǎo)致延時(shí)
此類原因的主要現(xiàn)象是數(shù)據(jù)庫的 IUD 操作非常多,slave由于sql_thread單線程的原因追不上主庫。
解決方法:
a 升級(jí)從庫的硬件配置,比如ssd,fio.
b 使用@丁奇的預(yù)熱工具-relay fetch
在備庫sql線程執(zhí)行更新之前,預(yù)先將相應(yīng)的數(shù)據(jù)加載到內(nèi)存中,并不能提高sql_thread線程執(zhí)行sql的能力,也不能加快io_thread線程讀取日志的速度。
c 使用多線程復(fù)制 阿里MySQL團(tuán)隊(duì)實(shí)現(xiàn)的方案--基于行的并行復(fù)制。
該方案允許對(duì)同一張表進(jìn)行修改的兩個(gè)事務(wù)并行執(zhí)行,只要這兩個(gè)事務(wù)修改了表中的不同的行。這個(gè)方案可以達(dá)到事務(wù)間更高的并發(fā)度,但是局限是必須使用Row格式的binlog。因?yàn)橹挥惺褂?nbsp; Row格式的binlog才可以知道一個(gè)事務(wù)所修改的行的范圍,而使用Statement格式的binlog只能知道修改的表對(duì)象。
5. 數(shù)據(jù)庫中存在大量myisam表,在備份的時(shí)候?qū)е聅lave 延遲
由于xtrabackup 工具備份到最后會(huì)執(zhí)行flash tables with read lock ,對(duì)數(shù)據(jù)庫進(jìn)行鎖表以便進(jìn)行一致性備份,然后對(duì)于myisam表 鎖,會(huì)阻礙salve_sql_thread 停滯運(yùn)行進(jìn)而導(dǎo)致hang
該問題目前的比較好的解決方式是修改表結(jié)構(gòu)為innodb存儲(chǔ)引擎的表。
- mysql同步問題之Slave延遲很大優(yōu)化方法
- MySQL中slave監(jiān)控的延遲情況分析
- mysql 主從數(shù)據(jù)不一致,提示: Slave_SQL_Running: No 的解決方法
- 記一次MySQL Slave庫恢復(fù)實(shí)戰(zhàn)記錄
- Mysql主從數(shù)據(jù)庫(Master/Slave)同步配置與常見錯(cuò)誤
- MySQL中slave_exec_mode參數(shù)詳解
- MySQL5.6 數(shù)據(jù)庫主從同步安裝與配置詳解(Master/Slave)
- MySQL Slave 觸發(fā) oom-killer解決方法
- MySQL slave 延遲一列 外鍵檢查和自增加鎖
相關(guān)文章
MySQL 創(chuàng)建用戶、授權(quán)用戶、撤銷用戶權(quán)限、更改用戶密碼、刪除用戶(實(shí)用技巧)
這篇文章主要介紹了MySQL 創(chuàng)建用戶、授權(quán)用戶、撤銷用戶權(quán)限、更改用戶密碼、刪除用戶(實(shí)用技巧),需要的朋友可以參考下2017-03-03MySQL 視圖 第1349號(hào)錯(cuò)誤解決方法
把下面SQL里的SELECT單獨(dú)執(zhí)行,沒有問題,但是用來CREATE VIEW 就報(bào)錯(cuò)了.2008-03-03使用mysqladmin檢測MySQL運(yùn)行狀態(tài)的教程
這篇文章主要介紹了使用mysqladmin檢測MySQL運(yùn)行狀態(tài)的教程,包括mysqladmin工具簡單的awk使用,需要的朋友可以參考下2015-06-06