快捷導(dǎo)航

Python機器學(xué)習(xí)pytorch交叉熵損失函數(shù)的深刻理解

更新時間：2021年10月12日 08:51:24 作者：Ezail_xdu

這篇文章主要為大家介紹了Python機器學(xué)習(xí)中對交叉熵損失函數(shù)的深刻理解，文中作出了詳細易懂的講解，有需要的朋友可以借鑒參考下希望能夠有所幫助

1.交叉熵損失函數(shù)的推導(dǎo)

我們知道，在二分類問題模型：例如邏輯回歸「Logistic Regression」、神經(jīng)網(wǎng)絡(luò)「Neural Network」等，真實樣本的標簽為 [0，1]，分別表示負類和正類。模型的最后通常會經(jīng)過一個 Sigmoid 函數(shù)，輸出一個概率值，這個概率值反映了預(yù)測為正類的可能性：概率越大，可能性越大。
Sigmoid 函數(shù)的表達式和圖形如下所示：

其中 s 是模型上一層的輸出，Sigmoid 函數(shù)有這樣的特點：s = 0 時，g(s) = 0.5；s >> 0 時， g ≈ 1，s << 0 時，g ≈ 0。顯然，g(s) 將前一級的線性輸出映射到 [0，1] 之間的數(shù)值概率上。這里的 g(s) 就是交叉熵公式中的模型預(yù)測輸出。

我們說了，預(yù)測輸出即 Sigmoid 函數(shù)的輸出表征了當(dāng)前樣本標簽為 1 的概率：

很明顯，當(dāng)前樣本標簽為 0 的概率就可以表達成：

重點來了，如果我們從極大似然性的角度出發(fā)，把上面兩種情況整合到一起：

不懂極大似然估計也沒關(guān)系。我們可以這么來看：

當(dāng)真實樣本標簽 y = 0 時，上面式子第一項就為 1，概率等式轉(zhuǎn)化為：

當(dāng)真實樣本標簽 y = 1 時，上面式子第二項就為 1，概率等式轉(zhuǎn)化為：

兩種情況下概率表達式跟之前的完全一致，只不過我們把兩種情況整合在一起了。

重點看一下整合之后的概率表達式，我們希望的是概率 P(y|x) 越大越好。首先，我們對 P(y|x) 引入 log 函數(shù)，因為 log 運算并不會影響函數(shù)本身的單調(diào)性。則有：

我們希望 log P(y|x) 越大越好，反過來，只要 log P(y|x) 的負值 -log P(y|x) 越小就行了。那我們就可以引入損失函數(shù)，且令 Loss = -log P(y|x)即可。則得到損失函數(shù)為：

非常簡單，我們已經(jīng)推導(dǎo)出了單個樣本的損失函數(shù)，是如果是計算 N 個樣本的總的損失函數(shù)，只要將 N 個 Loss 疊加起來就可以了：

這樣，我們已經(jīng)完整地實現(xiàn)了交叉熵損失函數(shù)的推導(dǎo)過程。

2. 交叉熵損失函數(shù)的直觀理解

我已經(jīng)知道了交叉熵損失函數(shù)的推導(dǎo)過程。但是能不能從更直觀的角度去理解這個表達式呢？而不是僅僅記住這個公式。好問題！接下來，我們從圖形的角度，分析交叉熵函數(shù)，加深理解。

首先，還是寫出單個樣本的交叉熵損失函數(shù)：

我們知道，當(dāng) y = 1 時

這時候，L 與預(yù)測輸出的關(guān)系如下圖所示：

看了 L 的圖形，簡單明了！橫坐標是預(yù)測輸出，縱坐標是交叉熵損失函數(shù) L。顯然，預(yù)測輸出越接近真實樣本標簽 1，損失函數(shù) L 越小；預(yù)測輸出越接近 0，L 越大。因此，函數(shù)的變化趨勢完全符合實際需要的情況。

當(dāng) y = 0 時：

這時候，L 與預(yù)測輸出的關(guān)系如下圖所示：

同樣，預(yù)測輸出越接近真實樣本標簽 0，損失函數(shù) L 越小；預(yù)測函數(shù)越接近 1，L 越大。函數(shù)的變化趨勢也完全符合實際需要的情況。

從上面兩種圖，可以幫助我們對交叉熵損失函數(shù)有更直觀的理解。無論真實樣本標簽 y 是 0 還是 1，L 都表征了預(yù)測輸出與 y 的差距。

另外，重點提一點的是，從圖形中我們可以發(fā)現(xiàn)：預(yù)測輸出與 y 差得越多，L 的值越大，也就是說對當(dāng)前模型的 “ 懲罰 ” 越大，而且是非線性增大，是一種類似指數(shù)增長的級別。這是由 log 函數(shù)本身的特性所決定的。這樣的好處是模型會傾向于讓預(yù)測輸出更接近真實樣本標簽 y。