淺談pytorch中的BN層的注意事項

更新時間：2020年06月23日 09:08:25 作者：張叫張大衛(wèi)

這篇文章主要介紹了淺談pytorch中的BN層的注意事項，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

最近修改一個代碼的時候，當使用網(wǎng)絡進行推理的時候，發(fā)現(xiàn)每次更改測試集的batch size大小竟然會導致推理結果不同，甚至產(chǎn)生錯誤結果，后來發(fā)現(xiàn)在網(wǎng)絡中定義了BN層，BN層在訓練過程中，會將一個Batch的中的數(shù)據(jù)轉變成正太分布，在推理過程中使用訓練過程中的參數(shù)對數(shù)據(jù)進行處理，然而網(wǎng)絡并不知道你是在訓練還是測試階段，因此，需要手動的加上，需要在測試和訓練階段使用如下函數(shù)。

model.train() or model.eval()

BN類的定義見pytorch中文參考文檔

補充知識：關于pytorch中BN層（具體實現(xiàn)）的一些小細節(jié)

最近在做目標檢測，需要把訓好的模型放到嵌入式設備上跑前向，因此得把各種層的實現(xiàn)都用C手擼一遍，，，此為背景。

其他層沒什么好說的，但是BN層這有個小坑。pytorch在打印網(wǎng)絡參數(shù)的時候，只打出weight和bias這兩個參數(shù)。咦，說好的BN層有四個參數(shù)running_mean、running_var 、gamma 、beta的呢？一開始我以為是pytorch把BN層的計算簡化成weight * X + bias，但馬上反應過來應該沒這么簡單，因為pytorch中只有可學習的參數(shù)才稱為parameter。上網(wǎng)找了一些資料但都沒有說到這么細的，畢竟大部分用戶使用時只要模型能跑起來就行了，，，于是開始看BN層有哪些屬性，果然發(fā)現(xiàn)了熟悉的running_mean和running_var，原來pytorch的BN層實現(xiàn)并沒有不同。這里吐個槽：為啥要把gamma和beta改叫weight、bias啊，很有迷惑性的好不好，，，

扯了這么多，干脆捋一遍pytorch里BN層的具體實現(xiàn)過程，幫自己理清思路，也可以給大家提供參考。再吐槽一下，在網(wǎng)上搜“pytorch bn層”出來的全是關于這一層怎么用的、初始化時要輸入哪些參數(shù)，沒找到一個pytorch中BN層是怎么實現(xiàn)的，，，

眾所周知，BN層的輸出Y與輸入X之間的關系是：Y = (X - running_mean) / sqrt(running_var + eps) * gamma + beta，此不贅言。其中gamma、beta為可學習參數(shù)（在pytorch中分別改叫weight和bias），訓練時通過反向傳播更新；而running_mean、running_var則是在前向時先由X計算出mean和var，再由mean和var以動量momentum來更新running_mean和running_var。所以在訓練階段，running_mean和running_var在每次前向時更新一次；在測試階段，則通過net.eval()固定該BN層的running_mean和running_var，此時這兩個值即為訓練階段最后一次前向時確定的值，并在整個測試階段保持不變。

以上這篇淺談pytorch中的BN層的注意事項就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: