詳解model.train()和model.eval()兩種模式的原理與用法
一、兩種模式
pytorch可以給我們提供兩種方式來切換訓(xùn)練和評估(推斷)的模式,分別是:model.train() 和 model.eval()。
一般用法是:在訓(xùn)練開始之前寫上 model.trian() ,在測試時寫上 model.eval() 。
二、功能
1. model.train()
在使用 pytorch 構(gòu)建神經(jīng)網(wǎng)絡(luò)的時候,訓(xùn)練過程中會在程序上方添加一句model.train(),作用是 啟用 batch normalization 和 dropout 。
如果模型中有BN層(Batch Normalization)和 Dropout ,需要在 訓(xùn)練時 添加 model.train()。
model.train() 是保證 BN 層能夠用到 每一批數(shù)據(jù) 的均值和方差。對于 Dropout,model.train() 是 隨機取一部分 網(wǎng)絡(luò)連接來訓(xùn)練更新參數(shù)。
2. model.eval()
model.eval()的作用是 不啟用 Batch Normalization 和 Dropout。
如果模型中有 BN 層(Batch Normalization)和 Dropout,在 測試時 添加 model.eval()。
model.eval() 是保證 BN 層能夠用 全部訓(xùn)練數(shù)據(jù) 的均值和方差,即測試過程中要保證 BN 層的均值和方差不變。對于 Dropout,model.eval() 是利用到了 所有 網(wǎng)絡(luò)連接,即不進行隨機舍棄神經(jīng)元。
為什么測試時要用 model.eval() ?
訓(xùn)練完 train 樣本后,生成的模型 model 要用來測試樣本了。在 model(test) 之前,需要加上model.eval(),否則的話,有輸入數(shù)據(jù),即使不訓(xùn)練,它也會改變權(quán)值。這是 model 中含有 BN 層和 Dropout 所帶來的的性質(zhì)。
eval() 時,pytorch 會自動把 BN 和 DropOut 固定住,不會取平均,而是用訓(xùn)練好的值。
不然的話,一旦 test 的 batch_size 過小,很容易就會被 BN 層導(dǎo)致生成圖片顏色失真極大。
eval() 在非訓(xùn)練的時候是需要加的,沒有這句代碼,一些網(wǎng)絡(luò)層的值會發(fā)生變動,不會固定,你神經(jīng)網(wǎng)絡(luò)每一次生成的結(jié)果也是不固定的,生成質(zhì)量可能好也可能不好。
也就是說,測試過程中使用model.eval(),這時神經(jīng)網(wǎng)絡(luò)會 沿用 batch normalization 的值,而并 不使用 dropout。
3. 總結(jié)與對比
如果模型中有 BN 層(Batch Normalization)和 Dropout,需要在訓(xùn)練時添加 model.train(),在測試時添加 model.eval()。
其中 model.train() 是保證 BN 層用每一批數(shù)據(jù)的均值和方差,而 model.eval() 是保證 BN 用全部訓(xùn)練數(shù)據(jù)的均值和方差;
而對于 Dropout,model.train() 是隨機取一部分網(wǎng)絡(luò)連接來訓(xùn)練更新參數(shù),而 model.eval() 是利用到了所有網(wǎng)絡(luò)連接。
三、Dropout 簡介
dropout 常常用于抑制過擬合。
設(shè)置Dropout時,torch.nn.Dropout(0.5),這里的 0.5 是指該層(layer)的神經(jīng)元在每次迭代訓(xùn)練時會隨機有 50% 的可能性被丟棄(失活),不參與訓(xùn)練。也就是將上一層數(shù)據(jù)減少一半傳播。
到此這篇關(guān)于詳解model.train()和model.eval()兩種模式的原理與用法的文章就介紹到這了,更多相關(guān)model.train()和model.eval()原理用法內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python答題卡識別并給出分?jǐn)?shù)的實現(xiàn)代碼
本文帶領(lǐng)大家學(xué)習(xí)Python答題卡識別并給出分?jǐn)?shù)的實現(xiàn)代碼,代碼實現(xiàn)思路清晰,簡單易懂,Python識別答題卡相關(guān)知識感興趣的朋友一起看看吧2021-06-06
Python word2vec訓(xùn)練詞向量實例分析講解
這篇文章主要介紹了Python word2vec訓(xùn)練詞向量實例分析,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧2022-12-12
Python機器學(xué)習(xí)之實現(xiàn)模糊照片人臉恢復(fù)清晰
GFPGAN是騰訊開源的人臉修復(fù)算法,它利用預(yù)先訓(xùn)練好的面部?GAN(如?StyleGAN2)中封裝的豐富和多樣的先驗因素進行盲臉?(blind?face)修復(fù)。這篇文章主要為大家介紹通過GFPGAN實現(xiàn)模糊照片人臉恢復(fù)清晰,需要的朋友可以參考一下2021-12-12
基于python實現(xiàn)matlab filter函數(shù)過程詳解
這篇文章主要介紹了基于python實現(xiàn)matlab filter函數(shù)過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-06-06
對python requests發(fā)送json格式數(shù)據(jù)的實例詳解
今天小編就為大家分享一篇對python requests發(fā)送json格式數(shù)據(jù)的實例詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12
使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)做人臉識別的示例代碼
這篇文章主要介紹了使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)做人臉識別的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-03-03

