淺談pytorch中為什么要用 zero_grad() 將梯度清零
pytorch中為什么要用 zero_grad() 將梯度清零
調用backward()函數之前都要將梯度清零,因為如果梯度不清零,pytorch中會將上次計算的梯度和本次計算的梯度累加。
這樣邏輯的好處是,當我們的硬件限制不能使用更大的bachsize時,使用多次計算較小的bachsize的梯度平均值來代替,更方便,壞處當然是每次都要清零梯度。
optimizer.zero_grad() output = net(input) loss = loss_f(output, target) loss.backward()
補充:Pytorch 為什么每一輪batch需要設置optimizer.zero_grad
CSDN上有人寫過原因,但是其實寫得繁瑣了。
根據pytorch中的backward()函數的計算,當網絡參量進行反饋時,梯度是被積累的而不是被替換掉;但是在每一個batch時毫無疑問并不需要將兩個batch的梯度混合起來累積,因此這里就需要每個batch設置一遍zero_grad 了。
其實這里還可以補充的一點是,如果不是每一個batch就清除掉原有的梯度,而是比如說兩個batch再清除掉梯度,這是一種變相提高batch_size的方法,對于計算機硬件不行,但是batch_size可能需要設高的領域比較適合,比如目標檢測模型的訓練。
關于這一點可以參考這里
關于backward()的計算可以參考這里
補充:pytorch 踩坑筆記之w.grad.data.zero_()
在使用pytorch實現多項線性回歸中,在grad更新時,每一次運算后都需要將上一次的梯度記錄清空,運用如下方法:
w.grad.data.zero_() b.grad.data.zero_()
但是,運行程序就會報如下錯誤:
報錯,grad沒有data這個屬性,
原因是,在系統(tǒng)將w的grad值初始化為none,第一次求梯度計算是在none值上進行報錯,自然會沒有data屬性
修改方法:添加一個判斷語句,從第二次循環(huán)開始執(zhí)行求導運算
for i in range(100): y_pred = multi_linear(x_train) loss = getloss(y_pred,y_train) if i != 0: w.grad.data.zero_() b.grad.data.zero_() loss.backward() w.data = w.data - 0.001 * w.grad.data b.data = b.data - 0.001 * b.grad.data
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
Python編寫可視化界面的全過程(Python+PyCharm+PyQt)
這篇文章主要給大家介紹了關于Python編寫可視化界面的相關資料,主要使用了Python+PyCharm+PyQt,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下2021-05-05Selenium webdriver添加cookie實現過程詳解
這篇文章主要介紹了Selenium webdriver添加cookie實現過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-08-08