Python3 常用數(shù)據(jù)標(biāo)準(zhǔn)化方法詳解
數(shù)據(jù)標(biāo)準(zhǔn)化是機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中常用的一種方法。包括我自己在做深度學(xué)習(xí)方面的研究時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化是最基本的一個(gè)步驟。
數(shù)據(jù)標(biāo)準(zhǔn)化主要是應(yīng)對(duì)特征向量中數(shù)據(jù)很分散的情況,防止小數(shù)據(jù)被大數(shù)據(jù)(絕對(duì)值)吞并的情況。
另外,數(shù)據(jù)標(biāo)準(zhǔn)化也有加速訓(xùn)練,防止梯度爆炸的作用。
下面是從李宏毅教授視頻中截下來的兩張圖。
左圖表示未經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理的loss更新函數(shù),右圖表示經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化后的loss更新圖??梢娊?jīng)過標(biāo)準(zhǔn)化后的數(shù)據(jù)更容易迭代到最優(yōu)點(diǎn),而且收斂更快。
一、[0, 1] 標(biāo)準(zhǔn)化
[0, 1] 標(biāo)準(zhǔn)化是最基本的一種數(shù)據(jù)標(biāo)準(zhǔn)化方法,指的是將數(shù)據(jù)壓縮到0~1之間。
標(biāo)準(zhǔn)化公式如下
代碼實(shí)現(xiàn)
def MaxMinNormalization(x, min, max): """[0,1] normaliaztion""" x = (x - min) / (max - min) return x
或者
def MaxMinNormalization(x): """[0,1] normaliaztion""" x = (x - np.min(x)) / (np.max(x) - np.min(x)) return x
二、Z-score標(biāo)準(zhǔn)化
Z-score標(biāo)準(zhǔn)化是基于數(shù)據(jù)均值和方差的標(biāo)準(zhǔn)化化方法。標(biāo)準(zhǔn)化后的數(shù)據(jù)是均值為0,方差為1的正態(tài)分布。這種方法要求原始數(shù)據(jù)的分布可以近似為高斯分布,否則效果會(huì)很差。
標(biāo)準(zhǔn)化公式如下
下面,我們看看為什么經(jīng)過這種標(biāo)準(zhǔn)化方法處理后的數(shù)據(jù)為是均值為0,方差為1
代碼實(shí)現(xiàn)
def ZscoreNormalization(x, mean_, std_): """Z-score normaliaztion""" x = (x - mean_) / std_ return x
或者
def ZscoreNormalization(x): """Z-score normaliaztion""" x = (x - np.mean(x)) / np.std(x) return x
補(bǔ)充:Python數(shù)據(jù)預(yù)處理:徹底理解標(biāo)準(zhǔn)化和歸一化
數(shù)據(jù)預(yù)處理
數(shù)據(jù)中不同特征的量綱可能不一致,數(shù)值間的差別可能很大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果,因此,需要對(duì)數(shù)據(jù)按照一定比例進(jìn)行縮放,使之落在一個(gè)特定的區(qū)域,便于進(jìn)行綜合分析。
常用的方法有兩種:
最大 - 最小規(guī)范化:對(duì)原始數(shù)據(jù)進(jìn)行線性變換,將數(shù)據(jù)映射到[0,1]區(qū)間
Z-Score標(biāo)準(zhǔn)化:將原始數(shù)據(jù)映射到均值為0、標(biāo)準(zhǔn)差為1的分布上
為什么要標(biāo)準(zhǔn)化/歸一化?
提升模型精度:標(biāo)準(zhǔn)化/歸一化后,不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類器的準(zhǔn)確性。
加速模型收斂:標(biāo)準(zhǔn)化/歸一化后,最優(yōu)解的尋優(yōu)過程明顯會(huì)變得平緩,更容易正確的收斂到最優(yōu)解。
如下圖所示:
哪些機(jī)器學(xué)習(xí)算法需要標(biāo)準(zhǔn)化和歸一化
1)需要使用梯度下降和計(jì)算距離的模型要做歸一化,因?yàn)椴蛔鰵w一化會(huì)使收斂的路徑程z字型下降,導(dǎo)致收斂路徑太慢,而且不容易找到最優(yōu)解,歸一化之后加快了梯度下降求最優(yōu)解的速度,并有可能提高精度。比如說線性回歸、邏輯回歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計(jì)算距離的模型需要做歸一化,比如說KNN、KMeans等。
2)概率模型、樹形結(jié)構(gòu)模型不需要?dú)w一化,因?yàn)樗鼈儾魂P(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,如決策樹、隨機(jī)森林。
徹底理解標(biāo)準(zhǔn)化和歸一化
示例數(shù)據(jù)集包含一個(gè)自變量(已購(gòu)買)和三個(gè)因變量(國(guó)家,年齡和薪水),可以看出用薪水范圍比年齡寬的多,如果直接將數(shù)據(jù)用于機(jī)器學(xué)習(xí)模型(比如KNN、KMeans),模型將完全有薪水主導(dǎo)。
#導(dǎo)入數(shù)據(jù) import numpy as np import matplotlib.pyplot as plt import pandas as pd df = pd.read_csv('Data.csv')
缺失值均值填充,處理字符型變量
df['Salary'].fillna((df['Salary'].mean()), inplace= True) df['Age'].fillna((df['Age'].mean()), inplace= True) df['Purchased'] = df['Purchased'].apply(lambda x: 0 if x=='No' else 1) df=pd.get_dummies(data=df, columns=['Country'])
最大 - 最小規(guī)范化
from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaler.fit(df) scaled_features = scaler.transform(df) df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])
Z-Score標(biāo)準(zhǔn)化
from sklearn.preprocessing import StandardScaler sc_X = StandardScaler() sc_X = sc_X.fit_transform(df) sc_X = pd.DataFrame(data=sc_X, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])
import seaborn as sns import matplotlib.pyplot as plt import statistics plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] fig,axes=plt.subplots(2,3,figsize=(18,12)) sns.distplot(df['Age'], ax=axes[0, 0]) sns.distplot(df_MinMax['Age'], ax=axes[0, 1]) axes[0, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Age']))) sns.distplot(sc_X['Age'], ax=axes[0, 2]) axes[0, 2].set_title('標(biāo)準(zhǔn)化方差:% s '% (statistics.stdev(sc_X['Age']))) sns.distplot(df['Salary'], ax=axes[1, 0]) sns.distplot(df_MinMax['Salary'], ax=axes[1, 1]) axes[1, 1].set_title('MinMax:Salary') axes[1, 1].set_title('歸一化方差:% s '% (statistics.stdev(df_MinMax['Salary']))) sns.distplot(sc_X['Salary'], ax=axes[1, 2]) axes[1, 2].set_title('StandardScaler:Salary') axes[1, 2].set_title('標(biāo)準(zhǔn)化方差:% s '% (statistics.stdev(sc_X['Salary'])))
可以看出歸一化比標(biāo)準(zhǔn)化方法產(chǎn)生的標(biāo)準(zhǔn)差小,使用歸一化來縮放數(shù)據(jù),則數(shù)據(jù)將更集中在均值附近。這是由于歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間(僅由極值決定),而標(biāo)準(zhǔn)化的縮放是更加“彈性”和“動(dòng)態(tài)”的,和整體樣本的分布有很大的關(guān)系。
所以歸一化不能很好地處理離群值,而標(biāo)準(zhǔn)化對(duì)異常值的魯棒性強(qiáng),在許多情況下,它優(yōu)于歸一化。
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
- Python中的數(shù)據(jù)標(biāo)準(zhǔn)化與反標(biāo)準(zhǔn)化全面指南
- Python數(shù)據(jù)標(biāo)準(zhǔn)化的實(shí)例分析
- 詳解python實(shí)現(xiàn)數(shù)據(jù)歸一化處理的方式:(0,1)標(biāo)準(zhǔn)化
- python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)標(biāo)準(zhǔn)化的幾種處理方式
- python數(shù)據(jù)分析數(shù)據(jù)標(biāo)準(zhǔn)化及離散化詳解
- python三種數(shù)據(jù)標(biāo)準(zhǔn)化方式
相關(guān)文章
Python使用MoviePy實(shí)現(xiàn)編輯音視頻并添加字幕
MoviePy是一個(gè)用于視頻編輯的Python模塊,它可被用于一些基本操作,本文主要介紹了如何使用編輯音視頻并添加字幕,感興趣的小伙伴可以了解下2024-01-01Python queue隊(duì)列原理與應(yīng)用案例分析
這篇文章主要介紹了Python queue隊(duì)列原理與應(yīng)用,結(jié)合具體案例形式分析了Python queue隊(duì)列的原理、功能、實(shí)現(xiàn)方法與使用技巧,需要的朋友可以參考下2019-09-09Selenium+Python自動(dòng)化測(cè)試入門
本文主要介紹了Selenium+Python自動(dòng)化測(cè)試入門,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08python 實(shí)現(xiàn)一次性在文件中寫入多行的方法
今天小編就為大家分享一篇python 實(shí)現(xiàn)一次性在文件中寫入多行的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01Python中使用aiohttp模擬服務(wù)器出現(xiàn)錯(cuò)誤問題及解決方法
這篇文章主要介紹了Python中使用aiohttp模擬服務(wù)器出現(xiàn)錯(cuò)誤,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-10-10python數(shù)據(jù)結(jié)構(gòu)的排序算法
下面是是對(duì)python數(shù)據(jù)結(jié)構(gòu)的排序算法的一些講解及示意圖,感興趣的小伙伴一起來學(xué)習(xí)吧2021-08-08python里讀寫excel等數(shù)據(jù)文件的6種常用方式(小結(jié))
這篇文章主要介紹了python里讀寫excel等數(shù)據(jù)文件的6種常用方式(小結(jié)),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04