詳解python?sklearn中的數(shù)據(jù)預(yù)處理方法
前言
本篇文章主要講解Python的sklearn庫(kù)中常用的數(shù)據(jù)預(yù)處理方法,主要介紹工具中的內(nèi)容,即該庫(kù)中的相關(guān)方法包含的常用接口和基本使用,并不適合手把手入門學(xué)習(xí),此外將涉及更少的原理和使用情況說(shuō)明。
sklearn中的數(shù)據(jù)預(yù)處理
sklearn.preprocessing:sklearn中的數(shù)據(jù)預(yù)處理模塊sklearn.impute:sklearn中的缺失值填充模塊
本文主要涉及的方法:
- 極差歸一化:
sklearn.preprocessing.MinMaxScaler - 數(shù)據(jù)標(biāo)準(zhǔn)化:
sklearn.preprocessing.StandardScaler - 標(biāo)簽編碼:
sklearn.preprocessing.LabelEncoder - 特征編碼:
sklearn.preprocessing.OrdinalEncoder - 數(shù)據(jù)二值化:
sklearn.preprocessing.Binarizer - 數(shù)據(jù)分箱:
sklearn.preprocessing.KBinsDiscretizer - 缺失值處理:
sklearn.impute.SimpleImputer
ps:擬合的時(shí)候可以傳入多個(gè)特征數(shù)據(jù),sklearn中的方法大多都會(huì)自動(dòng)分別對(duì)每一列進(jìn)行處理,但sklearn一般不支持一維數(shù)據(jù)導(dǎo)入,至少為二維,若想傳入一維數(shù)組進(jìn)行處理可以使用reshape(-1, 1)轉(zhuǎn)為二維數(shù)組,若想傳入單個(gè)Series對(duì)象則需要先將其轉(zhuǎn)為DataFrame對(duì)象。
數(shù)據(jù)無(wú)量綱化
極差歸一化:統(tǒng)一量綱,將某特征下所有的值歸一化在指定范圍內(nèi),默認(rèn)該范圍為 [0,1][0, 1][0,1],也可以手動(dòng)確定范圍。
常用接口如下:
import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler data = pd.DataFrame(np.random.randint(10, 100, (5, 2))) # 準(zhǔn)備測(cè)試數(shù)據(jù) # 常用接口 scaler = MinMaxScaler() # 默認(rèn)范圍為 [0,1] scaler = MinMaxScaler(feature_range=[5, 10]) # 自定義歸一化數(shù)據(jù)范圍 scaler.fit(data) # 擬合數(shù)據(jù) scaler.partial_fit(data) # 數(shù)據(jù)量大的時(shí)候fit()報(bào)錯(cuò),可以使用partial_fit() result = scaler.transform(data) # 變換數(shù)據(jù) result = scaler.fit_transform(data) # 擬合和變換一步達(dá)成 data = scaler.inverse_transform(result) # 逆向變換
.partial_fit():該方法是一種增量學(xué)習(xí)的方式,可以逐步從流式數(shù)據(jù)中學(xué)習(xí)縮放參數(shù),當(dāng)數(shù)據(jù)量太大導(dǎo)致 .fit() 接口報(bào)錯(cuò)時(shí),可以使用該接口
我們把大批量的數(shù)據(jù)想象成一個(gè)大湖,既然我們無(wú)法一次性將這個(gè)大湖中的所有水進(jìn)行處理(學(xué)習(xí)),但我們可以將其延伸出來(lái)一條小河,對(duì)順著小何流動(dòng)的水(數(shù)據(jù)流)不斷進(jìn)行處理(學(xué)習(xí))。
- 增量學(xué)習(xí):是一種可以逐步從新數(shù)據(jù)中學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。它不需要重新訓(xùn)練整個(gè)模型,而是可迭代地更新模型參數(shù)。
- 流式數(shù)據(jù):指的是連續(xù)不斷產(chǎn)生的數(shù)據(jù)流
Z-score標(biāo)準(zhǔn)化:統(tǒng)一量綱,且變換后的數(shù)據(jù)服從均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布。
常用接口如下:和MinMaxScaler基本一樣
import pandas as pd import numpy as np from sklearn.preprocessing import StandardScaler data = pd.DataFrame(np.random.randint(10, 100, (5, 2))) # 準(zhǔn)備測(cè)試數(shù)據(jù) # 常用接口 scaler = StandardScaler() # 創(chuàng)建對(duì)象 scaler.fit(data) # 擬合數(shù)據(jù) scaler.partial_fit(data) # 數(shù)據(jù)量大的時(shí)候fit()報(bào)錯(cuò),可以使用partial_fit() result = scaler.transform(data) # 變換數(shù)據(jù) result = scaler.fit_transform(data) # 擬合和變換一步達(dá)成 data = scaler.inverse_transform(result) # 逆向變換 # 常用屬性 scaler.var_ # 擬合后查看各列數(shù)據(jù)的方差 scaler.mean_ # 擬合后查看各列數(shù)據(jù)的均值
對(duì)于 StandardScaler 和 MinMaxScaler 來(lái)說(shuō),空值NaN會(huì)被當(dāng)做是缺失值,在 fit 的時(shí)候忽略,在 transform 的時(shí)候保持缺失 NaN 的狀態(tài)顯示。
缺失值處理
SimpleImputer 是sklearn中的簡(jiǎn)單填充方案,可以填充均值、中位數(shù)、眾數(shù)或特定值
常用參數(shù):
missing_values:改組數(shù)據(jù)中的缺失值是什么樣的,默認(rèn)為 np.nan
strategy:填充策略,默認(rèn)為'mean'
'mean':均值填充'median':中位數(shù)填充'most_frequent':眾數(shù)填充'constant':填充固定值,該值在fill_value參數(shù)中設(shè)置
fill_value:在 strategy 參數(shù)設(shè)置為 'constant' 時(shí),設(shè)置填充值
copy:默認(rèn)為True,給處理后的數(shù)據(jù)創(chuàng)建副本并返回,否則在原對(duì)象上進(jìn)行修改
常用接口:
import pandas as pd import numpy as np from sklearn.impute import SimpleImputer data = pd.DataFrame(np.random.randint(10, 100, (5, 2))) # 準(zhǔn)備測(cè)試數(shù)據(jù) # 常用接口 imp_mean = SimpleImputer() # 均值填充缺失值 imp_median = SimpleImputer(strategy='median') # 中位數(shù)填充缺失值 imp_mode = SimpleImputer(strategy='most_frequent') # 眾數(shù)填充 imp_0 = SimpleImputer(strategy='constant', fill_value=0) # 0填充 imp_mean.fit(data) # 擬合數(shù)據(jù) result = imp_mean.transform(data) # 變換數(shù)據(jù) result = imp_mean.fit_transform(data) # 擬合和變換一步到位
除了使用sklearn中的SimpleImputer進(jìn)行簡(jiǎn)單填充,利用pandas也可以直接進(jìn)行填充:
import pandas as pd import numpy as np data = pd.DataFrame(np.random.randint(10, 100, (5, 2))) # 準(zhǔn)備測(cè)試數(shù)據(jù) data.iloc[0:2, 0:2] = np.nan # 使用pandas進(jìn)行缺失值填充 result = data.fillna(0) # 0填充所有缺失值 # 均值填充第0列,中位數(shù)填充、眾數(shù)填充同理 result = data.iloc[:, 0] = data.iloc[:, 0].fillna(data.iloc[:, 0].mean()) result = data.dropna(axis=0) # 刪除所有含有缺失值的樣本數(shù)據(jù)
注意:pandas中的.mean()和.median()方法返回對(duì)應(yīng)均值或中位數(shù),但由于眾數(shù)可能含有多個(gè),取眾數(shù).mode()方法返回的是一個(gè)Series對(duì)象,填充時(shí)取其中的任意值即可,一般取索引為0的值。
中位數(shù)只可能是一個(gè)或者兩個(gè),若為兩個(gè),則取這兩個(gè)數(shù)的均值,但眾數(shù)則可能有很多個(gè)
編碼和啞變量
LabelEncoder和OrdinalEncoder分別用于給標(biāo)簽和特征數(shù)據(jù)進(jìn)行編碼,主要用于非名義變量。
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, OneHotEncoder
# 準(zhǔn)備測(cè)試數(shù)據(jù)
data_dic = {
'性別': ['男', '女', '女', '男', '女'],
'學(xué)歷': ['小學(xué)', '初中', '初中', '大學(xué)', '高中'],
'標(biāo)簽': ['標(biāo)簽3', '標(biāo)簽1', '標(biāo)簽2', '標(biāo)簽3', '標(biāo)簽2'],
}
data = pd.DataFrame(data_dic)
# 常用接口
le = LabelEncoder() # 創(chuàng)建對(duì)象
oe = OrdinalEncoder()
le = le.fit(data.loc[:, '標(biāo)簽']) # 擬合數(shù)據(jù)
result = le.transform(data.loc[:, '標(biāo)簽']) # 變換數(shù)據(jù)
result = le.fit_transform(data.loc[:, '標(biāo)簽']) # 擬合和變換一步達(dá)成
data = le.inverse_transform(result) # 逆向變換
data = pd.DataFrame(data_dic)
# 一般這樣寫
result = LabelEncoder().fit_transform(data.loc[:, '標(biāo)簽'])
result = OrdinalEncoder().fit_transform(data.loc[:, ['性別', '學(xué)歷']])
# 常用屬性
le.classes_ # 返回原來(lái)的字符串標(biāo)簽唯一值數(shù)組, 按該數(shù)組順序編號(hào)
oe.categories_ # 返回原來(lái)的字符串標(biāo)簽數(shù)組, 按該數(shù)組順序編號(hào)OrdinalEcoder和LabelEncoder用法和接口幾乎一致,區(qū)別在于LabelEncoder可以處理一維數(shù)據(jù),且使用.classes_屬性來(lái)查看標(biāo)簽編號(hào)數(shù)組,OrdinalEncoder不能處理一維數(shù)據(jù),且使用.categories_屬性來(lái)查看標(biāo)簽編號(hào)數(shù)組
OneHotEncoder獨(dú)熱編碼主要用于名義變量,將特征轉(zhuǎn)換為啞變量。
特征可以轉(zhuǎn)換為啞變量,標(biāo)簽也可以,許多算法可以處理多標(biāo)簽問(wèn)題,但這樣的做法在現(xiàn)實(shí)中不常見(jiàn)。
常用參數(shù):
categories:表示每個(gè)特征都有哪些類別,默認(rèn)為 'auto',一般情況我們都用默認(rèn)值
'auto':為自行判斷- 嵌套列表:列表中里面每個(gè)元素都是一個(gè)包含特征類別的列表。
'handle_unknown':表示對(duì)于未注明特征或類別的處理方式,默認(rèn)為 'error'
'error':設(shè)置categories后,算法遇到了列表中沒(méi)有包含的特征或類別時(shí),會(huì)報(bào)錯(cuò),'ignore':未在categories注明的特征或類別的啞變量都會(huì)顯示0,在逆向變換時(shí)未知特征或類別則會(huì)顯示None
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
# 準(zhǔn)備測(cè)試數(shù)據(jù)
data_dic = {
'性別': ['男', '女', '女', '男', '女'],
'學(xué)歷': ['小學(xué)', '初中', '初中', '大學(xué)', '高中'],
'標(biāo)簽': ['標(biāo)簽3', '標(biāo)簽1', '標(biāo)簽2', '標(biāo)簽3', '標(biāo)簽2'],
}
data = pd.DataFrame(data_dic)
# 常用接口
encoder = OneHotEncoder()
encoder.fit(data[['性別']]) # 擬合數(shù)據(jù)
result = encoder.transform(data[['性別']]) # 變換數(shù)據(jù)
result = encoder.fit_transform(data[['性別']]) # 擬合和變換一步到位
data = encoder.inverse_transform(result) # 逆向變換
# 一般這樣寫
result = OneHotEncoder().fit_transform(data[['性別']])注意:OneHotEncoder在transform后返回的是稀疏矩陣,需要使用 .toarray() 方法轉(zhuǎn)為矩陣(二維數(shù)組);inverse_transfrom可以接收稀疏矩陣也可以接收正常的矩陣,返回正常的矩陣。
此外,在經(jīng)過(guò)OneHotEncoder處理后我們需要自行使用pandas將啞變量拼接到原矩陣(pd.concat())和刪除原來(lái)的特征(pd.drop())
連續(xù)型特征處理
Binarizer用于將數(shù)據(jù)二值化,所謂數(shù)據(jù)二值化,就是設(shè)置一個(gè)閾值,小于等于該閾值的記為0,大于該閾值的記為1。
常用接口:
import numpy as np from sklearn.preprocessing import Binarizer data = np.arange(10, 20).reshape(-1, 1) bin = Binarizer(threshold=15) # 默認(rèn)threshold為0 bin.fit(data) # 擬合數(shù)據(jù) result = bin.transform(data) # 變換數(shù)據(jù) result = bin.fit_transform(data) # 擬合和變換一步達(dá)成 # 一般這樣用 result = Binarizer(threshold=15).fit_transform(data)
KBinsDiscretizer用于將連續(xù)型變量劃分為分類變量,能夠?qū)⑦B續(xù)型變量排序后按順序分箱后編碼。
常用參數(shù):
'n_bins':每個(gè)特征中分箱的個(gè)數(shù),默認(rèn)為5,
'encode':編碼方式,默認(rèn)為 'onehot'
'onehot':獨(dú)熱編碼為啞變量,返回一個(gè)稀疏矩陣'onehot-dense':獨(dú)熱編碼為啞變量,返回一個(gè)密集矩陣 (一般的矩陣)'ordinal':每個(gè)特征的每箱數(shù)據(jù)都被編碼為一個(gè)整數(shù),返回編碼后的矩陣
'strategy':定義分箱方式,默認(rèn)為 'quantile'
'uniform':等寬分箱,每個(gè)特征的每箱數(shù)據(jù)中的極差不得高于 max(x)−min(x)Nbins\frac{max(x)-min(x)}{N_{bins}}Nbins?max(x)−min(x)?,其中 xxx 表示某特征下的數(shù)據(jù),NbinsN_{bins}Nbins? 表示分箱個(gè)數(shù)'quantile':等位分箱,即每個(gè)特征中的每個(gè)箱內(nèi)的樣本數(shù)量都相同'kmeans':按kmeans聚類分箱,每個(gè)箱中的值到最近的一維k均值聚類的簇心的距離都相同
常用接口:
import numpy as np import pandas as pd from sklearn.preprocessing import KBinsDiscretizer data = pd.DataFrame(np.random.randint(10, 100, (5, 2))) # 準(zhǔn)備測(cè)試數(shù)據(jù) est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='quantile') est.fit(data) # 擬合數(shù)據(jù) result = est.transform(data) # 變換數(shù)據(jù) result = est.fit_transform(data) # 擬合和變換一步到位 data = est.inverse_transform(result) # # 一般這樣用 result = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='quantile').fit_transform(data)
需要注意的是,這里的inverse_transform已經(jīng)無(wú)法將數(shù)據(jù)轉(zhuǎn)為原來(lái)的數(shù)據(jù),因?yàn)樵谶M(jìn)行分箱離散化時(shí),原始的連續(xù)值已經(jīng)被轉(zhuǎn)換到了分箱區(qū)間中,inverse_transform不可能恢復(fù)到與原始值完全相同的結(jié)果,但是它可以通過(guò)區(qū)間映射,將分類變量映射回連續(xù)值的范圍中,從而部分恢復(fù)原始數(shù)據(jù)的連續(xù)分布區(qū)間,結(jié)果并不會(huì)每一個(gè)值都完全等于原始數(shù)據(jù),但整體上逼近了原始數(shù)據(jù)的分布范圍。
不建議使用inverse_transform,因?yàn)槟嫦蜃儞Q后的數(shù)據(jù)已經(jīng)不是原本的數(shù)據(jù)了。
到此這篇關(guān)于詳解python sklearn中的數(shù)據(jù)預(yù)處理方法的文章就介紹到這了,更多相關(guān)python sklearn數(shù)據(jù)預(yù)處理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python3 XML 獲取雅虎天氣的實(shí)現(xiàn)方法
下面小編就為大家分享一篇Python3 XML 獲取雅虎天氣的實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-02-02
Django如何利用uwsgi和nginx修改代碼自動(dòng)重啟
這篇文章主要介紹了Django如何利用uwsgi和nginx修改代碼自動(dòng)重啟問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-05-05
Python使用concurrent.futures模塊實(shí)現(xiàn)多進(jìn)程多線程編程
Python的concurrent.futures模塊可以很方便的實(shí)現(xiàn)多進(jìn)程、多線程運(yùn)行,減少了多進(jìn)程帶來(lái)的的同步和共享數(shù)據(jù)問(wèn)題,下面就跟隨小編一起了解一下concurrent.futures模塊的具體使用吧2023-12-12
基于python的前后端分離的模擬實(shí)現(xiàn)
前后端分離核心是UI界面展示層(View)和數(shù)據(jù)處理層(Model)通過(guò)控制層(Controller)進(jìn)行解耦合,在MVC設(shè)計(jì)模式中,前端主要負(fù)責(zé)數(shù)據(jù)展示和用戶交互(View),后端處理業(yè)務(wù)邏輯和數(shù)據(jù)存儲(chǔ)(Model),通過(guò)API接口進(jìn)行通信,提高了開(kāi)發(fā)效率,便于前后端分工合作,有利于代碼的維護(hù)和迭代2024-10-10
python3在同一行內(nèi)輸入n個(gè)數(shù)并用列表保存的例子
今天小編就為大家分享一篇python3在同一行內(nèi)輸入n個(gè)數(shù)并用列表保存的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07
Pyinstaller打包.py生成.exe的方法和報(bào)錯(cuò)總結(jié)
今天小編就為大家分享一篇關(guān)于Pyinstaller打包.py生成.exe的方法和報(bào)錯(cuò)總結(jié),小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-04-04

