詳解model.train()和model.eval()兩種模式的原理與用法
一、兩種模式
pytorch可以給我們提供兩種方式來切換訓(xùn)練和評(píng)估(推斷)的模式,分別是:model.train() 和 model.eval()。
一般用法是:在訓(xùn)練開始之前寫上 model.trian() ,在測(cè)試時(shí)寫上 model.eval() 。
二、功能
1. model.train()
在使用 pytorch 構(gòu)建神經(jīng)網(wǎng)絡(luò)的時(shí)候,訓(xùn)練過程中會(huì)在程序上方添加一句model.train(),作用是 啟用 batch normalization 和 dropout 。
如果模型中有BN層(Batch Normalization)和 Dropout ,需要在 訓(xùn)練時(shí) 添加 model.train()。
model.train() 是保證 BN 層能夠用到 每一批數(shù)據(jù) 的均值和方差。對(duì)于 Dropout,model.train() 是 隨機(jī)取一部分 網(wǎng)絡(luò)連接來訓(xùn)練更新參數(shù)。
2. model.eval()
model.eval()的作用是 不啟用 Batch Normalization 和 Dropout。
如果模型中有 BN 層(Batch Normalization)和 Dropout,在 測(cè)試時(shí) 添加 model.eval()。
model.eval() 是保證 BN 層能夠用 全部訓(xùn)練數(shù)據(jù) 的均值和方差,即測(cè)試過程中要保證 BN 層的均值和方差不變。對(duì)于 Dropout,model.eval() 是利用到了 所有 網(wǎng)絡(luò)連接,即不進(jìn)行隨機(jī)舍棄神經(jīng)元。
為什么測(cè)試時(shí)要用 model.eval() ?
訓(xùn)練完 train 樣本后,生成的模型 model 要用來測(cè)試樣本了。在 model(test) 之前,需要加上model.eval(),否則的話,有輸入數(shù)據(jù),即使不訓(xùn)練,它也會(huì)改變權(quán)值。這是 model 中含有 BN 層和 Dropout 所帶來的的性質(zhì)。
eval() 時(shí),pytorch 會(huì)自動(dòng)把 BN 和 DropOut 固定住,不會(huì)取平均,而是用訓(xùn)練好的值。
不然的話,一旦 test 的 batch_size 過小,很容易就會(huì)被 BN 層導(dǎo)致生成圖片顏色失真極大。
eval() 在非訓(xùn)練的時(shí)候是需要加的,沒有這句代碼,一些網(wǎng)絡(luò)層的值會(huì)發(fā)生變動(dòng),不會(huì)固定,你神經(jīng)網(wǎng)絡(luò)每一次生成的結(jié)果也是不固定的,生成質(zhì)量可能好也可能不好。
也就是說,測(cè)試過程中使用model.eval(),這時(shí)神經(jīng)網(wǎng)絡(luò)會(huì) 沿用 batch normalization 的值,而并 不使用 dropout。
3. 總結(jié)與對(duì)比
如果模型中有 BN 層(Batch Normalization)和 Dropout,需要在訓(xùn)練時(shí)添加 model.train(),在測(cè)試時(shí)添加 model.eval()。
其中 model.train() 是保證 BN 層用每一批數(shù)據(jù)的均值和方差,而 model.eval() 是保證 BN 用全部訓(xùn)練數(shù)據(jù)的均值和方差;
而對(duì)于 Dropout,model.train() 是隨機(jī)取一部分網(wǎng)絡(luò)連接來訓(xùn)練更新參數(shù),而 model.eval() 是利用到了所有網(wǎng)絡(luò)連接。
三、Dropout 簡(jiǎn)介
dropout 常常用于抑制過擬合。
設(shè)置Dropout時(shí),torch.nn.Dropout(0.5),這里的 0.5 是指該層(layer)的神經(jīng)元在每次迭代訓(xùn)練時(shí)會(huì)隨機(jī)有 50% 的可能性被丟棄(失活),不參與訓(xùn)練。也就是將上一層數(shù)據(jù)減少一半傳播。
到此這篇關(guān)于詳解model.train()和model.eval()兩種模式的原理與用法的文章就介紹到這了,更多相關(guān)model.train()和model.eval()原理用法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python答題卡識(shí)別并給出分?jǐn)?shù)的實(shí)現(xiàn)代碼
本文帶領(lǐng)大家學(xué)習(xí)Python答題卡識(shí)別并給出分?jǐn)?shù)的實(shí)現(xiàn)代碼,代碼實(shí)現(xiàn)思路清晰,簡(jiǎn)單易懂,Python識(shí)別答題卡相關(guān)知識(shí)感興趣的朋友一起看看吧2021-06-06Python word2vec訓(xùn)練詞向量實(shí)例分析講解
這篇文章主要介紹了Python word2vec訓(xùn)練詞向量實(shí)例分析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧2022-12-12Python機(jī)器學(xué)習(xí)之實(shí)現(xiàn)模糊照片人臉恢復(fù)清晰
GFPGAN是騰訊開源的人臉修復(fù)算法,它利用預(yù)先訓(xùn)練好的面部?GAN(如?StyleGAN2)中封裝的豐富和多樣的先驗(yàn)因素進(jìn)行盲臉?(blind?face)修復(fù)。這篇文章主要為大家介紹通過GFPGAN實(shí)現(xiàn)模糊照片人臉恢復(fù)清晰,需要的朋友可以參考一下2021-12-12基于python實(shí)現(xiàn)matlab filter函數(shù)過程詳解
這篇文章主要介紹了基于python實(shí)現(xiàn)matlab filter函數(shù)過程詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06對(duì)python requests發(fā)送json格式數(shù)據(jù)的實(shí)例詳解
今天小編就為大家分享一篇對(duì)python requests發(fā)送json格式數(shù)據(jù)的實(shí)例詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-12-12使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)做人臉識(shí)別的示例代碼
這篇文章主要介紹了使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)做人臉識(shí)別的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-03-03