python數(shù)據(jù)分析數(shù)據(jù)標(biāo)準(zhǔn)化及離散化詳解

更新時間：2018年02月26日 16:19:59 作者：諾坎普奇跡

這篇文章主要為大家詳細介紹了python數(shù)據(jù)分析數(shù)據(jù)標(biāo)準(zhǔn)化及離散化，具有一定的參考價值，感興趣的小伙伴們可以參考一下

本文為大家分享了python數(shù)據(jù)分析數(shù)據(jù)標(biāo)準(zhǔn)化及離散化的具體內(nèi)容，供大家參考，具體內(nèi)容如下

標(biāo)準(zhǔn)化

1、離差標(biāo)準(zhǔn)化

是對原始數(shù)據(jù)的線性變換，使結(jié)果映射到[0,1]區(qū)間。方便數(shù)據(jù)的處理。消除單位影響及變異大小因素影響。
基本公式為：

x'=（x-min）/（max-min）

代碼：

#?。痷ser/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數(shù)據(jù)庫
sql = 'select price,comment from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數(shù)據(jù)
#離差標(biāo)準(zhǔn)化
data1 = (data-data.min())/(data.max()-data.min())
print(data1)

運行結(jié)果

2、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化

消除單位影響以及變量自身變異影響。（零-均值標(biāo)準(zhǔn)化）
基本公式為：

x'=（x-平均數(shù)）/標(biāo)準(zhǔn)差

python代碼：

#?。痷ser/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數(shù)據(jù)庫
sql = 'select price,comment from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數(shù)據(jù)
#標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化
data1 = (data-data.mean())/data.std()
print(data1)

運行結(jié)果：

3、小數(shù)定標(biāo)標(biāo)準(zhǔn)化

消除單位影響
基本公式為：
其中j=lg(max(|x|)),即以10為底的x的絕對值最大的對數(shù)

x' = x/10^j

實現(xiàn)代碼為：

#?。痷ser/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數(shù)據(jù)庫
sql = 'select price,comment from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數(shù)據(jù)
#標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化
j = np.ceil(np.log10(data.abs().max()))#進一取整，abs()為取絕對值
data1 = data/10**j
print(data1)

結(jié)果：

離散化

離散化是程序設(shè)計中一個常用的技巧，它可以有效的降低時間復(fù)雜度。其基本思想就是在眾多可能的情況中，只考慮需要用的值。離散化可以改進一個低效的算法，甚至實現(xiàn)根本不可能實現(xiàn)的算法

1、等寬離散化

將連續(xù)數(shù)據(jù)按照等寬區(qū)間標(biāo)準(zhǔn)離散化數(shù)據(jù)，好處之一是處理的數(shù)據(jù)是有限個數(shù)據(jù)而不是無限多。
使用pandas的cut方法。非等寬只需要更改cut的第二個參數(shù)，例如：第二個參數(shù)為[1,100,3000,10000,200000]，即劃分為了四個區(qū)間。

#?。痷ser/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數(shù)據(jù)庫
sql = 'select price,comment from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數(shù)據(jù)
#離散化
data1 = data['price'].T.values#獲取價格的一維數(shù)組
lable=['很低','低','中','高','很高']
data2 = pd.cut(data1,5,labels=lable)
print(data2)

執(zhí)行結(jié)果：