欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python數(shù)據(jù)標準化的實例分析

 更新時間:2021年08月15日 11:55:10   作者:小妮淺淺  
在本篇文章里小編給大家整理了關于Python數(shù)據(jù)標準化的實例內(nèi)容,有需要的朋友們可以測試學習下。

說明

1、將原始數(shù)據(jù)轉(zhuǎn)換為均值為0,標準差在1范圍內(nèi)。

2、對標準化而言:如果出現(xiàn)異常點,由于有一定數(shù)據(jù)量,少量異常點對平均值的影響不大,因此方差變化不大。

實例

def stand_demo():
    """
    標準化
    :return:
    """
# 1. 獲取數(shù)據(jù)
    data = pd.read_csv('dating.txt')
    data = data.iloc[:, :3]
    print('data:\n', data)
 
# 2.實例化一個轉(zhuǎn)換器類
    transfer = StandardScaler()

# 3.調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print('data_new:\n', data_new)
    return None

知識點擴充:

幾種標準化方法:

歸一化Max-Min

min-max標準化方法是對原始數(shù)據(jù)進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區(qū)間[0,1]中的值x',其公式為:

新數(shù)據(jù)=(原數(shù)據(jù)-最小值)/(最大值-最小值)

這種方法能使數(shù)據(jù)歸一化到一個區(qū)域內(nèi),同時不改變原來的數(shù)據(jù)結(jié)構(gòu)。

實現(xiàn)中心化Z-Score

這種方法基于原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。將A的原始值x使用z-score標準化到x'。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。

新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差

這種方法適合大多數(shù)類型數(shù)據(jù),也是很多工具的默認標準化方法。標準化之后的數(shù)據(jù)是以0為均值,方差為以的正太分布。但是Z-Score方法是一種中心化方法,會改變原有數(shù)據(jù)的分布結(jié)構(gòu),不適合用于對稀疏數(shù)據(jù)做處理。

很多時候數(shù)據(jù)集會存在稀疏特征,表現(xiàn)為標準差小,很多元素值為0,最常見的稀疏數(shù)據(jù)集是用來做協(xié)同過濾的數(shù)據(jù)集,絕大部分數(shù)據(jù)都是0。對稀疏數(shù)據(jù)做標準化,不能采用中心化的方式,否則會破壞稀疏數(shù)據(jù)的結(jié)構(gòu)。

用于稀疏數(shù)據(jù)的MaxAbs

最大值絕對值標準化(MaxAbs)即根據(jù)最大值的絕對值進行標準化,假設原轉(zhuǎn)換的數(shù)據(jù)為x,新數(shù)據(jù)為x',那么x'=x/|max|,其中max為x鎖在列的最大值。

該方法的數(shù)據(jù)區(qū)間為[-1, 1],也不破壞原數(shù)據(jù)結(jié)構(gòu)的特點,因此也可以用于稀疏數(shù)據(jù),一些稀疏矩陣。

針對離群點的RobustScaler

有些時候,數(shù)據(jù)集中存在離群點,用Z-Score進行標準化,但是結(jié)果不理想,因為離群點在標準化后喪失了利群特性。

RobustScaler針對離群點做標準化處理,該方法對數(shù)據(jù)中心化的數(shù)據(jù)的縮放健壯性有更強的參數(shù)控制能力。

到此這篇關于Python數(shù)據(jù)標準化的實例分析的文章就介紹到這了,更多相關Python數(shù)據(jù)標準化是什么內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • pycharm編寫spark程序,導入pyspark包的3中實現(xiàn)方法

    pycharm編寫spark程序,導入pyspark包的3中實現(xiàn)方法

    這篇文章主要介紹了pycharm編寫spark程序,導入pyspark包的3中實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • Python讀取CSV文件的4種方法與注意事項

    Python讀取CSV文件的4種方法與注意事項

    在python里面,讀取或?qū)懭隿sv文件時是經(jīng)常遇到的一個需求,這篇文章主要給大家介紹了關于Python讀取CSV文件的4種方法與注意事項,需要的朋友可以參考下
    2023-10-10
  • 100行Python代碼實現(xiàn)自動搶火車票(附源碼)

    100行Python代碼實現(xiàn)自動搶火車票(附源碼)

    又到年底了,相信對于在外地的朋友們來說,火車票是到年底最頭痛的一件事了,但作為程序員的你怎么能一樣呢?快發(fā)揮你的特長,下面這篇文章主要給大家介紹了如果通過100行Python代碼實現(xiàn)自動搶火車票的相關資料,需要的朋友可以參考下。
    2018-01-01
  • Python中列表的基本操作匯總

    Python中列表的基本操作匯總

    這篇文章主要介紹了python中列表的一些基本操作,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-10-10
  • Python數(shù)據(jù)分析?Numpy?的使用方法

    Python數(shù)據(jù)分析?Numpy?的使用方法

    這篇文章主要介紹了Python數(shù)據(jù)分析?Numpy?的使用方法,Numpy?是一個Python擴展庫,專門做科學計算,也是大部分Python科學計算庫的基礎,關于其的使用方法,需要的小伙伴可以參考下面文章內(nèi)容
    2022-05-05
  • python接收/發(fā)送QQ郵箱保姆級教程

    python接收/發(fā)送QQ郵箱保姆級教程

    我們在日常python開發(fā)過程中,需求中常有實現(xiàn)發(fā)送郵箱的功能,可以說是非常常見,也非常重要的功能,下面這篇文章主要給大家介紹了關于python接收/發(fā)送QQ郵箱保姆級教程的相關資料,需要的朋友可以參考下
    2024-03-03
  • Python打印詳細報錯日志logging問題

    Python打印詳細報錯日志logging問題

    這篇文章主要介紹了Python打印詳細報錯日志logging問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09
  • node.js獲取參數(shù)的常用方法(總結(jié))

    node.js獲取參數(shù)的常用方法(總結(jié))

    下面小編就為大家?guī)硪黄猲ode.js獲取參數(shù)的常用方法(總結(jié))。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-05-05
  • Python如何實現(xiàn)自動發(fā)送郵件

    Python如何實現(xiàn)自動發(fā)送郵件

    對于一些每天需要發(fā)的報表或者是需要一次發(fā)送多份的報表,我們可以考慮借助Python來自動發(fā)送郵件。本文主要介紹了如何利用Python實現(xiàn)自動發(fā)送郵件,感興趣的小伙伴可以了解一下
    2021-11-11
  • Python+selenium 獲取瀏覽器窗口坐標、句柄的方法

    Python+selenium 獲取瀏覽器窗口坐標、句柄的方法

    今天小編就為大家分享一篇Python+selenium 獲取瀏覽器窗口坐標、句柄的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10

最新評論