第一種,遍歷全部數(shù)據(jù)集算一次損失函數(shù),然后算函數(shù)對各個參數(shù)的梯度,更新梯度。這種方法每更新一次參數(shù)都要把數(shù)據(jù)集里的所有樣本都看一遍,計(jì)算量開銷大,計(jì)算速度慢,不支持在線學(xué)習(xí),這種稱為Batch gradient descent,批梯度下降 另一種,每看一個數(shù)據(jù)就算一下?lián)p失函數(shù),然后求梯度更新參數(shù),這個稱為隨機(jī)梯度下降,stochastic...
www.dbjr.com.cn/article/1884...htm 2025-5-23