快捷導(dǎo)航

BatchNorm2d原理、作用及pytorch中BatchNorm2d函數(shù)的參數(shù)使用

更新時(shí)間：2022年12月14日 16:43:24 作者：LS_learner

這篇文章主要介紹了BatchNorm2d原理、作用及pytorch中BatchNorm2d函數(shù)的參數(shù)使用方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教

BN原理、作用

函數(shù)參數(shù)講解

BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

1.num_features：一般輸入?yún)?shù)的shape為batch_size*num_features*height*width，即為其中特征的數(shù)量，即為輸入BN層的通道數(shù)；
2.eps：分母中添加的一個(gè)值，目的是為了計(jì)算的穩(wěn)定性，默認(rèn)為：1e-5,避免分母為0；
3.momentum：一個(gè)用于運(yùn)行過(guò)程中均值和方差的一個(gè)估計(jì)參數(shù)（我的理解是一個(gè)穩(wěn)定系數(shù)，類似于SGD中的momentum的系數(shù)）；
4.affine：當(dāng)設(shè)為true時(shí)，會(huì)給定可以學(xué)習(xí)的系數(shù)矩陣gamma和beta

一般來(lái)說(shuō)pytorch中的模型都是繼承nn.Module類的，都有一個(gè)屬性trainning指定是否是訓(xùn)練狀態(tài)，訓(xùn)練狀態(tài)與否將會(huì)影響到某些層的參數(shù)是否是固定的，比如BN層或者Dropout層。

通常用model.train()指定當(dāng)前模型model為訓(xùn)練狀態(tài),model.eval()指定當(dāng)前模型為測(cè)試狀態(tài)。

同時(shí)，BN的API中有幾個(gè)參數(shù)需要比較關(guān)心的，一個(gè)是affine指定是否需要仿射，還有個(gè)是track_running_stats指定是否跟蹤當(dāng)前batch的統(tǒng)計(jì)特性。

容易出現(xiàn)問(wèn)題也正好是這三個(gè)參數(shù)：trainning，affine，track_running_stats。

其中的affine指定是否需要仿射，也就是是否需要上面算式的第四個(gè)，如果affine=False則γ=1,β=0，并且不能學(xué)習(xí)被更新。一般都會(huì)設(shè)置成affine=True。

trainning和track_running_stats，track_running_stats=True表示跟蹤整個(gè)訓(xùn)練過(guò)程中的batch的統(tǒng)計(jì)特性，得到方差和均值，而不只是僅僅依賴與當(dāng)前輸入的batch的統(tǒng)計(jì)特性。

相反的，如果track_running_stats=False那么就只是計(jì)算當(dāng)前輸入的batch的統(tǒng)計(jì)特性中的均值和方差了。

當(dāng)在推理階段的時(shí)候，如果track_running_stats=False，此時(shí)如果batch_size比較小，那么其統(tǒng)計(jì)特性就會(huì)和全局統(tǒng)計(jì)特性有著較大偏差，可能導(dǎo)致糟糕的效果。

如果BatchNorm2d的參數(shù)track_running_stats設(shè)置False,那么加載預(yù)訓(xùn)練后每次模型測(cè)試測(cè)試集的結(jié)果時(shí)都不一樣；track_running_stats設(shè)置為True時(shí)，每次得到的結(jié)果都一樣。

running_mean和running_var參數(shù)是根據(jù)輸入的batch的統(tǒng)計(jì)特性計(jì)算的，嚴(yán)格來(lái)說(shuō)不算是“學(xué)習(xí)”到的參數(shù)，不過(guò)對(duì)于整個(gè)計(jì)算是很重要的。

BN層中的running_mean和running_var的更新是在forward操作中進(jìn)行的，而不是在optimizer.step()中進(jìn)行的，因此如果處于訓(xùn)練中泰，就算不進(jìn)行手動(dòng)step()，BN的統(tǒng)計(jì)特性也會(huì)變化。

model.train() #處于訓(xùn)練狀態(tài)
for data , label in self.dataloader:
    pred =model(data)  #在這里會(huì)更新model中的BN統(tǒng)計(jì)特性參數(shù)，running_mean,running_var
    loss=self.loss(pred,label)
    #就算不進(jìn)行下列三行，BN的統(tǒng)計(jì)特性參數(shù)也會(huì)變化
    opt.zero_grad()
    loss.backward()
    opt.step()

這個(gè)時(shí)候，要用model.eval()轉(zhuǎn)到測(cè)試階段，才能固定住running_mean和running_var，有時(shí)候如果是先預(yù)訓(xùn)練模型然后加載模型，重新跑測(cè)試數(shù)據(jù)的時(shí)候，結(jié)果不同，有一點(diǎn)性能上的損失，這個(gè)時(shí)候基本上是training和track_running_stats設(shè)置的不對(duì)。

如果使用兩個(gè)模型進(jìn)行聯(lián)合訓(xùn)練，為了收斂更容易控制，先預(yù)訓(xùn)練好模型model_A，并且model_A內(nèi)還有若干BN層，后續(xù)需要將model_A作為一個(gè)inference推理模型和model_B聯(lián)合訓(xùn)練，此時(shí)希望model_A中的BN的統(tǒng)計(jì)特性量running_mean和running_var不會(huì)亂變化，因此就需要將model_A.eval()設(shè)置到測(cè)試模型，否則在trainning模式下，就算是不去更新模型的參數(shù)，其BN都會(huì)變化，這將導(dǎo)致和預(yù)期不同的結(jié)果。