欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

FedAvg聯(lián)邦學(xué)習(xí)FedProx異質(zhì)網(wǎng)絡(luò)優(yōu)化實驗總結(jié)

 更新時間:2022年05月11日 14:30:12   作者:Cyril_KI  
這篇文章主要為大家介紹了FedAvg聯(lián)邦學(xué)習(xí)FedProx異質(zhì)網(wǎng)絡(luò)優(yōu)化的實驗總結(jié),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

前言

題目: Federated Optimization for Heterogeneous Networks

會議: Conference on Machine Learning and Systems 2020

論文地址:Federated Optimization for Heterogeneous Networks

FedAvg對設(shè)備異質(zhì)性和數(shù)據(jù)異質(zhì)性沒有太好的解決辦法,F(xiàn)edProx在FedAvg的基礎(chǔ)上做出了一些改進來嘗試緩解這兩個問題。

在Online Learning中,為了防止模型根據(jù)新到來的數(shù)據(jù)進行更新后偏離原來的模型太遠(yuǎn),也就是為了防止過調(diào)節(jié),通常會加入一個余項來限制更新前后模型參數(shù)的差異。FedProx中同樣引入了一個余項,作用類似。

I. FedAvg

Google的團隊首次提出了聯(lián)邦學(xué)習(xí),并引入了聯(lián)邦學(xué)習(xí)的基本算法FedAvg。問題的一般形式:

FedAvg:

簡單來說,在FedAvg的框架下:每一輪通信中,服務(wù)器分發(fā)全局參數(shù)到各個客戶端,各個客戶端利用本地數(shù)據(jù)訓(xùn)練相同的epoch,然后再將梯度上傳到服務(wù)器進行聚合形成更新后的參數(shù)。

FedAvg存在著兩個缺陷:

  • 設(shè)備異質(zhì)性:不同的設(shè)備間的通信和計算能力是有差異的。在FedAvg中,被選中的客戶端在本地都訓(xùn)練相同的epoch,雖然作者指出提升epoch可以有效減小通信成本,但較大的epoch下,可能會有很多設(shè)備無法按時完成訓(xùn)練。無論是直接drop掉這部分客戶端的模型還是直接利用這部分未完成的模型來進行聚合,都將對最終模型的收斂造成不好的影響。
  • 數(shù)據(jù)異質(zhì)性:不同設(shè)備中數(shù)據(jù)可能是非獨立同分布的。如果數(shù)據(jù)是獨立同分布的,那么本地模型訓(xùn)練較多的epoch會加快全局模型的收斂;如果不是獨立同分布的,不同設(shè)備在利用非IID的本地數(shù)據(jù)進行訓(xùn)練并且訓(xùn)練輪數(shù)較大時,本地模型將會偏離初始的全局模型。

II. FedProx

為了緩解上述兩個問題,本文作者提出了一個新的聯(lián)邦學(xué)習(xí)框架FedProx。FedProx能夠很好地處理異質(zhì)性。

定義一:

簡單來說,每個客戶端都是優(yōu)化所有樣本的損失和,這個是正常的思路,讓全局模型在本地數(shù)據(jù)集上表現(xiàn)更好。

但如果設(shè)備間的數(shù)據(jù)是異質(zhì)的,每個客戶端優(yōu)化之后得到的模型就與初始時服務(wù)器分配的全局模型相差過大,本地模型將會偏離初始的全局模型,這將減緩全局模型的收斂。

為了有效限制這種偏差,本文作者提出,設(shè)備 k k k在本地進行訓(xùn)練時,需要最小化以下目標(biāo)函數(shù):

作者在FedAvg損失函數(shù)的基礎(chǔ)上,引入了一個proximal term,我們可以稱之為近端項。引入近端項后,客戶端在本地訓(xùn)練后得到的模型參數(shù) w將不會與初始時的服務(wù)器參數(shù) wt偏離太多。

觀察上式可以發(fā)現(xiàn),當(dāng)  μ=0時,F(xiàn)edProx客戶端的優(yōu)化目標(biāo)就與FedAvg一致。

這個思路其實還是很常見的,在機器學(xué)習(xí)中,為了防止過調(diào)節(jié),亦或者為了限制參數(shù)變化,通常都會在原有損失函數(shù)的基礎(chǔ)上加上這樣一個類似的項。比如在在線學(xué)習(xí)中,我們就可以添加此項來限制更新前后模型參數(shù)的差異。

FedProx的算法偽代碼:

通過觀察這個步驟可以發(fā)現(xiàn),F(xiàn)edProx在FedAvg上做了兩點改進:

引入了近端項,限制了因為數(shù)據(jù)異質(zhì)性導(dǎo)致的模型偏離。引入了不精確解,各個客戶端不再需要訓(xùn)練相同的輪數(shù),只需要得到一個不精確解,這有效緩解了某些設(shè)備的計算壓力。

III. 實驗

圖1給出了數(shù)據(jù)異質(zhì)性對模型收斂的影響:

上圖給出了損失隨著通信輪數(shù)增加的變化情況,數(shù)據(jù)的異質(zhì)性從左到右依次增加,其中 μ = 0 表示FedAvg。可以發(fā)現(xiàn),數(shù)據(jù)間異質(zhì)性越強,收斂越慢,但如果我們讓 μ>0,將有效緩解這一情況,也就是模型將更快收斂。

圖2:

左圖:E增加后對μ=0情況的影響。可以發(fā)現(xiàn),太多的本地訓(xùn)練將導(dǎo)致本地模型偏離全局模型,全局模型收斂變緩。

中圖:同一數(shù)據(jù)集,增加μ后,收斂將加快,因為這有效緩解了模型的偏移,從而使FedProx的性能較少依賴于 E。

作者給出了一個trick:在實踐中,μ可以根據(jù)模型當(dāng)前的性能自適應(yīng)地選擇。比較簡單的做法是當(dāng)損失增加時增加 μ,當(dāng)損失減少時減少μ。

但是對于 γ,作者貌似沒有具體說明怎么選擇,只能去GitHub上研究一下源碼再給出解釋了。

IV. 總結(jié)

數(shù)據(jù)和設(shè)備的異質(zhì)性對傳統(tǒng)的FedAvg算法提出了挑戰(zhàn),本文作者在FedAvg的基礎(chǔ)上提出了FedProx,F(xiàn)edProx相比于FedAvg主要有以下兩點不同:

考慮了不同設(shè)備通信和計算能力的差異,并引入了不精確解,不同設(shè)備不需要訓(xùn)練相同的輪數(shù),只需要得到一個不精確解即可。引入了近端項,在數(shù)據(jù)異質(zhì)的情況下,限制了本地訓(xùn)練時模型對全局模型的偏離。

以上就是FedProx異質(zhì)網(wǎng)絡(luò)的聯(lián)邦優(yōu)化經(jīng)驗總結(jié)的詳細(xì)內(nèi)容,更多關(guān)于FedProx異質(zhì)網(wǎng)絡(luò)聯(lián)邦優(yōu)化的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

最新評論