快捷導(dǎo)航

解決MySQL中的Slave延遲問題的基本教程

更新時(shí)間：2015年11月25日 10:46:15 作者：葉金榮

這篇文章主要介紹了解決MySQL中的Slave延遲問題的基本教程,文中針對不同情況給出了一些具體的解決方法,需要的朋友可以參考下

20151125104204143.jpg (640×447)

一、原因分析
一般而言，slave相對master延遲較大，其根本原因就是slave上的復(fù)制線程沒辦法真正做到并發(fā)。簡單說，在master上是并發(fā)模式(以InnoDB引擎為主)完成事務(wù)提交的，而在slave上，復(fù)制線程只有一個(gè)sql thread用于binlog的apply，所以難怪slave在高并發(fā)時(shí)會(huì)遠(yuǎn)落后master。

ORACLE MySQL 5.6版本開始支持多線程復(fù)制，配置選項(xiàng) slave_parallel_workers 即可實(shí)現(xiàn)在slave上多線程并發(fā)復(fù)制。不過，它只能支持一個(gè)實(shí)例下多個(gè) database 間的并發(fā)復(fù)制，并不能真正做到多表并發(fā)復(fù)制。因此在較大并發(fā)負(fù)載時(shí)，slave還是沒有辦法及時(shí)追上master，需要想辦法進(jìn)行優(yōu)化。

另一個(gè)重要原因是，傳統(tǒng)的MySQL復(fù)制是異步(asynchronous)的，也就是說在master提交完后，才在slave上再應(yīng)用一遍，并不是真正意義上的同步。哪怕是后來的Semi-sync Repication(半同步復(fù)制)，也不是真同步，因?yàn)樗槐ＷC事務(wù)傳送到slave，但沒要求等到確認(rèn)事務(wù)提交成功。既然是異步，那肯定多少會(huì)有延遲。因此，嚴(yán)格意義上講，MySQL復(fù)制不能叫做MySQL同步(處女座的面試官有可能會(huì)在面試時(shí)把說成MySQL同步的一律刷掉哦)。

另外，不少人的觀念里，slave相對沒那么重要，因此就不會(huì)提供和master相同配置級(jí)別的服務(wù)器。有的甚至不但使用更差的服務(wù)器，而且還在上面跑多實(shí)例。

綜合這兩個(gè)主要原因，slave想要盡可能及時(shí)跟上master的進(jìn)度，可以嘗試采用以下幾種方法：

采用MariaDB發(fā)行版，它實(shí)現(xiàn)了相對真正意義上的并行復(fù)制，其效果遠(yuǎn)比ORACLE MySQL好的很多。在我的場景中，采用MariaDB作為slave的實(shí)例，幾乎總是能及時(shí)跟上master。每個(gè)表都要顯式指定主鍵，如果沒有指定主鍵的話，會(huì)導(dǎo)致在row模式下，每次修改都要全表掃描，尤其是大表就非?？膳铝?，延遲會(huì)更嚴(yán)重，甚至導(dǎo)致整個(gè)slave庫都被掛起，可參考案例：mysql主鍵的缺少導(dǎo)致備庫hang;
應(yīng)用程序端多做些事，讓MySQL端少做事，尤其是和IO相關(guān)的活動(dòng)，例如：前端通過內(nèi)存CACHE或者本地寫隊(duì)列等，合并多次讀寫為一次，甚至消除一些寫請求;
進(jìn)行合適的分庫、分表策略，減小單庫單表復(fù)制壓力，避免由于單庫單表的的壓力導(dǎo)致整個(gè)實(shí)例的復(fù)制延遲;
其他提高IOPS性能的幾種方法，根據(jù)效果優(yōu)劣，我做了個(gè)簡單排序：
更換成SSD，或者PCIe SSD等IO設(shè)備，其IOPS能力的提升是普通15K SAS盤的數(shù)以百倍、萬倍，甚至幾十萬倍計(jì);
加大物理內(nèi)存，相應(yīng)提高InnoDB Buffer Pool大小，讓更多熱數(shù)據(jù)放在內(nèi)存中，降低發(fā)生物理IO的頻率;
調(diào)整文件系統(tǒng)為 XFS 或 ReiserFS，相比ext3可以極大程度提高IOPS能力。在高IOPS壓力下，相比ext4有更穩(wěn)健的IOPS表現(xiàn)(有人認(rèn)為 XFS 在特別的場景下會(huì)有很大的問題，但我們除了剩余磁盤空間少于10%時(shí)引發(fā)丟數(shù)據(jù)外，其他的尚未遇到);
調(diào)整RAID級(jí)別為raid 1+0，它相比raid1、raid5等更能提高IOPS性能。如果已經(jīng)全部是SSD設(shè)備了，可以2塊盤做成RAID 1，或者多快盤做成RAID 5(并且可以設(shè)置全局熱備盤，提高陣列容錯(cuò)性)，甚至有些土豪用戶直接將多塊SSD盤組成RAID 50;
調(diào)整RAID的寫cache策略為WB或FORCE WB，詳情請參考：常用PC服務(wù)器陣列卡、硬盤健康監(jiān)控以及 PC服務(wù)器陣列卡管理簡易手冊;
調(diào)整內(nèi)核的io scheduler，優(yōu)先使用deadline，如果是SSD，則可以使用noop策略，相比默認(rèn)的cfq，個(gè)別請客下對IOPS的性能提升至少是數(shù)倍的。

二、如何解決
平時(shí)接收的比較多關(guān)于主備延時(shí)的報(bào)警:

check_ins_slave_lag (err_cnt:1)critical-slavelag on ins:3306=39438

相信slave 延遲是MySQL dba 遇到的一個(gè)老生長談的問題了。先來分析一下slave延遲帶來的風(fēng)險(xiǎn)
a. 異常情況下,主從HA無法切換。HA 軟件需要檢查數(shù)據(jù)的一致性，延遲時(shí)，主備不一致。
b. 備庫復(fù)制hang會(huì)導(dǎo)致備份失敗(flush tables with read lock會(huì)900s超時(shí)）
c. 以 slave 為基準(zhǔn)進(jìn)行的備份，數(shù)據(jù)不是最新的,而是延遲。
面對此類問題我們?nèi)绾谓鉀Q ，如何規(guī)避？分析一下導(dǎo)致備庫延遲的幾種原因
1. ROW模式無主鍵、無索引或索引區(qū)分度不高.

有如下特征
   a. show slave status 顯示position一直沒有變
   b. show open tables 顯示某個(gè)表一直是 in_use 為 1
   c. show create table 查看表結(jié)構(gòu)可以看到無主鍵，或者無任何索引，或者索引區(qū)分度很差。

解決方法：
a. 找到表區(qū)分度比較高的幾個(gè)字段, 可以使用這個(gè)方法判斷：

select count(*) from xx; 
  select count(*) from (select distinct xx from xxx) t;

    如果2個(gè)查詢count(*)的結(jié)果差不多，說明可以對這些字段加索引
   b. 備庫stop slave;
    可能會(huì)執(zhí)行比較久，因?yàn)樾枰貪L事務(wù)。
   c. 備庫

  set sql_log_bin=0;
  alter table xx add key xx(xx);

   老的版本slave應(yīng)用binlog時(shí)只會(huì)選擇第一個(gè)索引，需要把新加的索引放在最前面，可以先把老的索引刪掉，建新的索引，再把老的索引建上?？梢苑诺揭粋€(gè)sql中執(zhí)行。
d. 備庫start slave
    如果是innodb,可以通過show innodb status來查看 rows_inserted,updated,deleted,selected這幾個(gè)指標(biāo)來判斷。
    如果每秒修改的記錄數(shù)比較多，說明復(fù)制正在以比較快的速度執(zhí)行。

2 MIXED模式無索引或SQL慢
在從庫上show full processlist 查看到正在執(zhí)行的SQL。
解決方法：
a. SQL比較簡單, 則檢查是否缺少索引，并添加索引。
b. 另一類是 insert into select from的語句，如果select 里包含group by，多表關(guān)聯(lián)，可能效率會(huì)比較低。
這類可以到主庫把binlog_format改成row。

3 主庫上有大事務(wù),導(dǎo)致從庫延時(shí)
現(xiàn)象解析binlog 發(fā)現(xiàn)類似于下圖的情況看

20151125104315647.jpg (1164×395)

解決方法：
與開發(fā)溝通,增加緩存,異步寫入數(shù)據(jù)庫,減少直接對db的大量寫入。

4. 主庫寫入頻繁,從庫壓力跟不上導(dǎo)致延時(shí)
此類原因的主要現(xiàn)象是數(shù)據(jù)庫的 IUD 操作非常多，slave由于sql_thread單線程的原因追不上主庫。
解決方法：
a 升級(jí)從庫的硬件配置,比如ssd,fio.
b 使用@丁奇的預(yù)熱工具-relay fetch
在備庫sql線程執(zhí)行更新之前，預(yù)先將相應(yīng)的數(shù)據(jù)加載到內(nèi)存中,并不能提高sql_thread線程執(zhí)行sql的能力，也不能加快io_thread線程讀取日志的速度。
c 使用多線程復(fù)制阿里MySQL團(tuán)隊(duì)實(shí)現(xiàn)的方案--基于行的并行復(fù)制。
該方案允許對同一張表進(jìn)行修改的兩個(gè)事務(wù)并行執(zhí)行，只要這兩個(gè)事務(wù)修改了表中的不同的行。這個(gè)方案可以達(dá)到事務(wù)間更高的并發(fā)度，但是局限是必須使用Row格式的binlog。因?yàn)橹挥惺褂?nbsp; Row格式的binlog才可以知道一個(gè)事務(wù)所修改的行的范圍，而使用Statement格式的binlog只能知道修改的表對象。

5. 數(shù)據(jù)庫中存在大量myisam表，在備份的時(shí)候?qū)е聅lave 延遲

20151125104336433.jpg (1291×231)

由于xtrabackup 工具備份到最后會(huì)執(zhí)行flash tables with read lock ，對數(shù)據(jù)庫進(jìn)行鎖表以便進(jìn)行一致性備份，然后對于myisam表鎖，會(huì)阻礙salve_sql_thread 停滯運(yùn)行進(jìn)而導(dǎo)致hang
該問題目前的比較好的解決方式是修改表結(jié)構(gòu)為innodb存儲(chǔ)引擎的表。

您可能感興趣的文章: