Pytorch中關(guān)于model.eval()的作用及分析
model.eval()的作用及分析
model.eval()
作用等同于self.train(False)
簡(jiǎn)而言之,就是評(píng)估模式。而非訓(xùn)練模式。
在評(píng)估模式下,batchNorm層,dropout層等用于優(yōu)化訓(xùn)練而添加的網(wǎng)絡(luò)層會(huì)被關(guān)閉,從而使得評(píng)估時(shí)不會(huì)發(fā)生偏移。
結(jié)論
在對(duì)模型進(jìn)行評(píng)估時(shí),應(yīng)該配合使用with torch.no_grad() 與 model.eval():
? ? loop: ? ? ? ? model.train() ? ?# 切換至訓(xùn)練模式 ? ? ? ? train…… ? ? ? ? model.eval() ? ? ? ? with torch.no_grad(): ? ? ? ? ? ? Evaluation ? ? end loop
Pytorch踩坑之model.eval()問題
最近在寫代碼時(shí)遇到一個(gè)問題,原本訓(xùn)練好的模型,加載進(jìn)來進(jìn)行inference準(zhǔn)確率直接掉了5個(gè)點(diǎn),這簡(jiǎn)直不能忍啊~下意識(shí)地感知到我肯定又在哪里寫了bug了~~~于是開始到處排查,從model load到data load,最終在一個(gè)被我封裝好的module的犄角旮旯里找到了問題,于是順便就在這里總結(jié)一下,避免以后再犯。
對(duì)于訓(xùn)練好的模型加載進(jìn)來準(zhǔn)確率和原先的不符,
比較常見的有兩方面的原因
data
model.state_dict()
1) data
數(shù)據(jù)方面,檢查前后兩次加載的data有沒有發(fā)生變化。首先檢查 transforms.Normalize 使用的均值和方差是否和訓(xùn)練時(shí)相同;另外檢查在這個(gè)過程中數(shù)據(jù)是否經(jīng)過了存儲(chǔ)形式的改變,這有可能會(huì)帶來數(shù)據(jù)精度的變化導(dǎo)致一定的信息丟失。比如我過用的其中一個(gè)數(shù)據(jù)集,原先將圖片存儲(chǔ)成向量形式,但其對(duì)應(yīng)的是“png”格式的數(shù)據(jù)(后來在原始文件中發(fā)現(xiàn)了相應(yīng)的描述。),而我進(jìn)行了一次data-to-img操作,將向量轉(zhuǎn)換成了“jpg”形式,這時(shí)加載進(jìn)來便造成了掉點(diǎn)。
2)model.state_dict()
第一方面造成的掉點(diǎn)一般不會(huì)太嚴(yán)重,第二方面造成的掉點(diǎn)就比較嚴(yán)重了,一旦模型的參數(shù)加載錯(cuò)了,那就誤差大了。
如果是參數(shù)沒有正確加載進(jìn)來則比較容易發(fā)現(xiàn),這時(shí)準(zhǔn)確率非常低,幾乎等于瞎猜。
而我這次遇到的情況是,準(zhǔn)確率并不是特別低,只掉了幾個(gè)點(diǎn),檢查了多次,均顯示模型參數(shù)已經(jīng)成功加載了。后來仔細(xì)查看后發(fā)現(xiàn)在其中一次調(diào)用模型進(jìn)行inference時(shí),忘了寫 ‘model.eval()’,造成了模型的參數(shù)發(fā)生變化,再次調(diào)用則出現(xiàn)了掉點(diǎn)。于是又回顧了一下model.eval()和model.train()的具體作用。如下:
model.train() 和 model.eval() 一般在模型訓(xùn)練和評(píng)價(jià)的時(shí)候會(huì)加上這兩句,主要是針對(duì)由于model 在訓(xùn)練時(shí)和評(píng)價(jià)時(shí) Batch Normalization 和 Dropout 方法模式不同:
- a) model.eval(),不啟用 BatchNormalization 和 Dropout。此時(shí)pytorch會(huì)自動(dòng)把BN和DropOut固定住,不會(huì)取平均,而是用訓(xùn)練好的值。不然的話,一旦test的batch_size過小,很容易就會(huì)因BN層導(dǎo)致模型performance損失較大;
- b) model.train() :?jiǎn)⒂?BatchNormalization 和 Dropout。 在模型測(cè)試階段使用model.train() 讓model變成訓(xùn)練模式,此時(shí) dropout和batch normalization的操作在訓(xùn)練q起到防止網(wǎng)絡(luò)過擬合的問題。
因此,在使用PyTorch進(jìn)行訓(xùn)練和測(cè)試時(shí)一定要記得把實(shí)例化的model指定train/eval。
model.eval() vs torch.no_grad()
雖然二者都是eval的時(shí)候使用,但其作用并不相同:
model.eval() 負(fù)責(zé)改變batchnorm、dropout的工作方式,如在eval()模式下,dropout是不工作的。
見下方代碼:
? import torch ? import torch.nn as nn ? ? drop = nn.Dropout() ? x = torch.ones(10) ?? ? # Train mode ?? ? drop.train() ? print(drop(x)) # tensor([2., 2., 0., 2., 2., 2., 2., 0., 0., 2.]) ?? ?? ? # Eval mode ?? ? drop.eval() ? print(drop(x)) # tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])
torch.no_grad() 負(fù)責(zé)關(guān)掉梯度計(jì)算,節(jié)省eval的時(shí)間。
只進(jìn)行inference時(shí),model.eval()是必須使用的,否則會(huì)影響結(jié)果準(zhǔn)確性。 而torch.no_grad()并不是強(qiáng)制的,只影響運(yùn)行效率。
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python數(shù)據(jù)分析之pandas比較操作
比較操作是很簡(jiǎn)單的基礎(chǔ)知識(shí),不過Pandas中的比較操作有一些特殊的點(diǎn),本文介紹的非常詳細(xì),對(duì)正在學(xué)習(xí)python的小伙伴們很有幫助.需要的朋友可以參考下2021-05-05Django中session進(jìn)行權(quán)限管理的使用
本文主要介紹了Django中session進(jìn)行權(quán)限管理的使用,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-07-07Paddle模型性能分析工具Profiler定位瓶頸點(diǎn)優(yōu)化程序詳解
這篇文章主要為大家介紹了Paddle模型性能分析工具Profiler定位瓶頸點(diǎn)優(yōu)化程序詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03python開發(fā)之tkinter實(shí)現(xiàn)圖形隨鼠標(biāo)移動(dòng)的方法
這篇文章主要介紹了python開發(fā)之tkinter實(shí)現(xiàn)圖形隨鼠標(biāo)移動(dòng)的方法,涉及Python基于tkinter繪圖的相關(guān)實(shí)現(xiàn)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-11-11python中類變量與成員變量的使用注意點(diǎn)總結(jié)
python 的類中主要會(huì)使用的兩種變量:類變量與成員變量。類變量是類所有實(shí)例化對(duì)象共有的,而成員變量是每個(gè)實(shí)例化對(duì)象自身特有的。下面這篇文章主要給大家介紹了在python中類變量與成員變量的一些使用注意點(diǎn),需要的朋友可以參考借鑒,下面來一起看看吧。2017-04-04Python隨機(jī)數(shù)函數(shù)代碼實(shí)例解析
這篇文章主要介紹了Python隨機(jī)數(shù)函數(shù)代碼實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-02-02