快捷導(dǎo)航

Mysql大表全表update的的實現(xiàn)

更新時間：2024年08月20日 10:07:00 作者：最愛彩虹糖

有些時候在進行一些業(yè)務(wù)迭代時需要我們對Mysql表中數(shù)據(jù)進行全表update,本文主要介紹了Mysql大表update的的實現(xiàn)

前言

有些時候在進行一些業(yè)務(wù)迭代時需要我們對Mysql表中數(shù)據(jù)進行全表update，如果是在數(shù)據(jù)量比較小的情況下（萬級別），可以直接執(zhí)行sql語句，但是如果數(shù)據(jù)量達到一個量級后，就會出現(xiàn)一些問題，比如主從架構(gòu)部署的Mysql，主從同步需要需要binlog來完成，而binlog格式如下，其中使用statement和row格式的主從同步之間binlog在update情況下的展示：

格式	內(nèi)容
statement	記錄同步在主庫上執(zhí)行的每一條sql，日志量較少，減少io，但是部分函數(shù)sql會出現(xiàn)問題比如random
row	記錄每一條數(shù)據(jù)被修改或者刪除的詳情，日志量在特定條件下很大，如批量delete、update
mixed	以上兩種方式混用，一般的語句修改使用statement記錄，其他函數(shù)式使用row

在這里插入圖片描述

我們當(dāng)前線上mysql是使用row格式binlog來進行的主從同步，因此如果在億級數(shù)據(jù)的表中執(zhí)行全表update，必然會在主庫中產(chǎn)生大量的binlog，接著會在進行主從同步時，從庫也需要阻塞執(zhí)行大量sql，風(fēng)險極高，因此直接update是不行的。本文就從我最開始的一個全表update sql開始，到最后上線的分批更新策略，如何優(yōu)化和思考來展開說明。

正文

直接update的問題

我們前段時間需要將用戶的一些基本信息存儲從http轉(zhuǎn)換為https，庫中數(shù)據(jù)大概在幾千w的級別，需要對一些大表進行全表update，最開始我試探性的跟dba同事拋出了一個簡單的update語句，想著流量低的時候執(zhí)行，如下:

update tb_user_info set user_img=replace(user_img,'http://','https://')

深度分頁問題

上面肯定是不合理的會給主庫生成binlog、從庫接收binlog寫數(shù)據(jù)帶來很大的壓力，于是就想使用腳本分批處理如下所示：寫一個這樣的腳本，依次分批替換，limit的游標(biāo)不斷增加。大概一看是沒有問題的，但是仔細(xì)一想mysql的limit游標(biāo)進行的范圍查找原理，是下沉到B+數(shù)的葉子節(jié)點進行的向后遍歷查找，在limit數(shù)據(jù)比較小的情況下還好，limit數(shù)據(jù)量比較大的情況下，效率很低接近于全表掃描，這也就是我們常說的“深度分頁問題”。

update tb_user_info set user_img=replace(user_img,'http://','https://') limit 1,1000;

in的效率

既然mysql的深分頁有問題，那么我就把這批id全部查出來，然后更新的id in這些列表，進行批量更新可以嗎？于是我又寫了類似下面sql的腳本。結(jié)果是還不行，雖然mysql對于in這些查找有一些鍵值預(yù)測，但是仍然是很低效。

select * from tb_user_info where id> {index} limit 100;
update tb_user_info set user_img=replace(user_img,'http','https')where id in {id1,id3,id2};

最終版本

最終在與dba的多次溝通下，我們寫了如下的sql及腳本，這里有幾個問題需要注意，我們在select sql中使用了這個語法/*!40001 SQL_NO_CACHE */，這個語法的意思就是本次查詢不使用innodb的buffer pool，也不會將本次查詢的數(shù)據(jù)頁放到buffer pool中作為熱點數(shù)據(jù)的緩存。接著對于查詢強制使用主鍵索引FORCE INDEX(PRIMARY)，并且根據(jù)主鍵索引排序，排序后的數(shù)據(jù)進行id游標(biāo)的篩選。最后執(zhí)行update更新時，由于我們在前面的sql中查詢到的就是已經(jīng)排序后的主鍵，因此可以對id執(zhí)行范圍查找。

select /*!40001 SQL_NO_CACHE */ id from tb_user_info FORCE INDEX(`PRIMARY`) where id> "1" ORDER BY id limit 1000,1;
update tb_user_info set user_img=replace(user_img,'http','https') where id >"{1}" and id <"{2}";

我們可以僅關(guān)注第一個sql，如下圖所示，是buffer pool大概內(nèi)容，我們可以通過這個no cache的關(guān)鍵字，對批量處理的數(shù)據(jù)進行強制指定不走buffer pool，不把這些冷數(shù)據(jù)影響到正常使用的緩存內(nèi)容，防止效率的降低，其實mysql在一些備份的動作中。使用的數(shù)據(jù)掃描sql也會帶上這個關(guān)鍵字，防止影響到正常的業(yè)務(wù)緩存；接著需要強制對當(dāng)前查詢指定的主鍵索引，然后進行排序，否則mysql有可能在計算io成本進行索引選擇時，選擇其他的索引。

在這里插入圖片描述

使用這樣的方式對數(shù)據(jù)庫進行批量更新可以通過一個接口來控制速率，對于數(shù)據(jù)庫主從同步、iops、內(nèi)存使用率等關(guān)鍵屬性進行觀察，手動調(diào)整刷庫速率。這樣看是單線程阻塞的操作，其實接口也可以定義線程個數(shù)等屬性，接口中根據(jù)賦予的線程個數(shù)，通過線程池并行刷數(shù)據(jù)，從而提高全表更新速率的上限，同時對速率進行控制控制。

其他問題

如果我們使用snowflake雪花算法或者自增主鍵來生成主鍵id的話，插入的記錄都是根據(jù)主鍵id順序插入的，如果使用uuid這種我們怎么處理？當(dāng)然是業(yè)務(wù)中就預(yù)先處理了，先把入庫的數(shù)據(jù)提前進行替換，進行代碼上線后再進行的全量數(shù)據(jù)更新了。