反向傳播BP學(xué)習(xí)算法Gradient?Descent的推導(dǎo)過程

更新時(shí)間：2022年05月10日 14:06:27 作者：Cyril_KI

這篇文章主要為大家介紹了反向傳播BP學(xué)習(xí)算法-Gradient?Descent的推導(dǎo)過程，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

1.定義Loss Function

每一個(gè)輸出都對應(yīng)一個(gè)損失函數(shù)L，將所有L加起來就是total loss。

那么每一個(gè)L該如何定義呢？這里還是采用了交叉熵，如下所示：

最終Total Loss的表達(dá)式如下：

2.Gradient Descent

L對應(yīng)了一個(gè)參數(shù)，即Network parameters θ(w1,w2…b1,b2…)，那么Gradient Descent就是求出參數(shù) θ∗來minimise Loss Function，即：

梯度下降的具體步驟為：

圖源：李宏毅機(jī)器學(xué)習(xí)講稿

3.求偏微分

從上圖可以看出，這里難點(diǎn)主要是求偏微分，由于L是所有損失之和，因此我們只需要對其中一個(gè)損失求偏微分，最后再求和即可。

先抽取一個(gè)簡單的神經(jīng)元來解釋：

因?yàn)槲覀儾⒉恢篮竺娴降子卸嗌賹?，也不知道情況到底有多復(fù)雜，我們不妨先取一種最簡單的情況，如下所示：

4.反向傳播

l對兩個(gè)z的偏導(dǎo)我們假設(shè)是已知的，并且在這里是作為輸入，三角形結(jié)構(gòu)可以理解為一個(gè)乘法運(yùn)算電路，其放大系數(shù)為 σ′(z)。但是在實(shí)際情況中，l對兩個(gè)z的偏導(dǎo)是未知的。假設(shè)神經(jīng)網(wǎng)絡(luò)最終的結(jié)構(gòu)就是如上圖所示，那么我們的問題已經(jīng)解決了：