淺談Python幾種常見的歸一化方法

更新時間：2023年04月08日 09:08:09 作者：不想敲代碼的小楊

這篇文章主要介紹了幾種常見的歸一化方法,數(shù)據(jù)歸一化是深度學習數(shù)據(jù)預處理中非常關鍵的步驟，可以起到統(tǒng)一量綱，防止小數(shù)據(jù)被吞噬的作用,需要的朋友可以參考下

一：歸一化的概念

歸一化就是把所有數(shù)據(jù)都轉化成[0,1]或者[-1,1]之間的數(shù)，其目的是為了取消各維數(shù)據(jù)之間的數(shù)量級差別，避免因為輸入輸出數(shù)據(jù)數(shù)量級差別大而造成網(wǎng)絡預測誤差過大。

二：歸一化的作用

為了后面數(shù)據(jù)處理的方便，歸一化可以避免一些不必要的數(shù)值問題。
為了程序運行時收斂速度更快
統(tǒng)一量綱。樣本數(shù)據(jù)的評價標準不一樣，需要對其量綱化，統(tǒng)一評價標準，這算是應用層面的需求。
避免神經(jīng)元飽和。就是說當神經(jīng)元的激活在接近0或者1時，在這些區(qū)域，梯度幾乎為0，這樣在反向傳播過程中，局部梯度就會接近于0，這樣非常不利于網(wǎng)絡的訓練。
保證輸出數(shù)據(jù)中數(shù)值小的不被吞食。

三：歸一化的類型

1：線性歸一化

線性歸一化也被稱為最小-最大規(guī)范化；離散標準化，是對原始數(shù)據(jù)的線性變換，將數(shù)據(jù)值映射到[0,1]之間。用公式表示為：

${x}'=\frac{x-min(x)}{max(x)-min(x)}$

差標準化保留了原來數(shù)據(jù)中存在的關系，是消除量綱和數(shù)據(jù)取值范圍影響的最簡單的方法。代碼實現(xiàn)如下：

def MaxMinNormalization(x,Max,Min):
    x = (x - Min) / (Max - Min);
    return x

適用范圍：比較適用在數(shù)值比較集中的情況

缺點：

如果max和min不穩(wěn)定，很容易使得歸一化的結果不穩(wěn)定，使得后續(xù)使用效果也不穩(wěn)定。如果遇到超過目前屬性[min,max]取值范圍的時候，會引起系統(tǒng)報錯。需要重新確定min和max。
如果數(shù)值集中的某個數(shù)值很大，則規(guī)范化后各值接近于0，并且將會相差不大。（如 1,1.2,1.3,1.4,1.5,1.6,10）這組數(shù)據(jù)。

2：零-均值歸一化（Z-score標準化）

Z-score標準化也被稱為標準差標準化，經(jīng)過處理的數(shù)據(jù)的均值為0，標準差為1。其轉化公式為：

${x}'=\frac{x-\mu }{\delta }$

其中 $\mu$ 為原始數(shù)據(jù)的均值， $\delta$ 為原始數(shù)據(jù)的標準差，是當前用的最多的標準化公式

這種方法給予原始數(shù)據(jù)的均值（mean）和標準差（standard deviation）進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布，即均值為0，標準差為1，這里的關鍵在于復合標準正態(tài)分布

代碼實現(xiàn)如下：

def Z_ScoreNormalization(x,mu,sigma):
    x = (x - mu) / sigma;
    return x

3：小數(shù)定標規(guī)范化

這種方法通過移動屬性值的小數(shù)數(shù)位，將屬性值映射到[-1,1]之間，移動的小數(shù)位數(shù)取決于屬性值絕對值的最大值。轉換公式為：

${x}'=\frac{x}{10^{k}}$

4:非線性歸一化

這個方法包括log，指數(shù)，正切

適用范圍：經(jīng)常用在數(shù)據(jù)分析比較大的場景，有些數(shù)值很大，有些很小，將原始值進行映射。

四：批歸一化（BatchNormalization）

1：引入

在以往的神經(jīng)網(wǎng)絡訓練時，僅僅只對輸入層數(shù)據(jù)進行歸一化處理，卻沒有在中間層進行歸一化處理。雖然我們對輸入數(shù)據(jù)進行了歸一化處理，但是輸入數(shù)據(jù)經(jīng)過了 $\delta$ 這樣的矩陣乘法之后，其數(shù)據(jù)分布很可能發(fā)生很大改變，并且隨著網(wǎng)絡的層數(shù)不斷加深。數(shù)據(jù)分布的變化將越來越大。因此這種在神經(jīng)網(wǎng)絡中間層進行的歸一化處理，使得訓練效果更好的方法就被稱為批歸一化（BN）