Python中使用sklearn進(jìn)行特征降維的方法
特征降維
0維 標(biāo)量
1維 向量
2維 矩陣
概念
降維是指在某些限定條件下,降低隨機(jī)變量(特征)個數(shù),得到一組“不相關(guān)”主變量的過程
注:正是因為在進(jìn)行訓(xùn)練的時候,我們都是使用特征進(jìn)行學(xué)習(xí),如果特征本身存在問題或者特征之間相關(guān)性較強,對于算法學(xué)習(xí)預(yù)測會影響較大
降維的兩種方式:
特征選擇主成分分析(可以理解為一種特征提取的方式)
特征選擇
①定義
數(shù)據(jù)中包含冗余或相關(guān)變量(或稱特征、屬性、指標(biāo)等),旨在從原有特征中找出主要特征。
②方法
Filter(過濾式):主要探究特征本身特點、特征與特征和目標(biāo)值之間關(guān)聯(lián)
- 方差選擇法:低方差特征過濾
- 相關(guān)系數(shù)
Embedded(嵌入式):算法自動選擇特征(特征與目標(biāo)值之間的關(guān)聯(lián))
- 決策樹:信息熵、信息增益
- 正則化:L1、L2
- 深度學(xué)習(xí):卷積等
③模塊
sklearn.feature_selection
過濾式
①低方差特征過濾
刪除低方差的一些特征
- 特征方差?。耗硞€特征很多樣本的值比較相近
- 特征方差大:某個特征很多樣本的值都有差別
API
sklearn.feature_selection.VarianceThreshold(threshold=0.0)
-刪除所有低方差特征
-Variance.fit_transform(X)
X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
返回值:訓(xùn)練集差異低于threshold的特征將被刪除。默認(rèn)值是保留所有非零方差特征,即刪除所有樣本中具有相同值的特征
代碼演示
from sklearn.feature_selection import VarianceThreshold import pandas as pd def variance_demo(): #1.獲取數(shù)據(jù) data=pd.read_csv("data.TXT") print("data:\n", data) #2.實例化一個轉(zhuǎn)換器類 transfer=VarianceThreshold(threshold=7) #3.調(diào)用fit_transform result=transfer.fit_transform(data) print("result:\n", result,result.shape) return None
②相關(guān)系數(shù)
皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)
反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)
公式
特點
相關(guān)系數(shù)的值介于-1與+1之間,即-1<=r<=+1,其性質(zhì)如下:
- 當(dāng)r>0時,表示兩變量正相關(guān),r<0時,兩變量為負(fù)相關(guān)
- 當(dāng)|r|=1時,表示兩變量為完全相關(guān),當(dāng)r=0時,表示兩變量間無相關(guān)關(guān)系
- 當(dāng)0<|r|<1時,表示兩變量存在一定程度的相關(guān)。且|r|越接近1,兩變量間線性關(guān)系越密切;|r|越接近于0,表示兩變量的線性相關(guān)越弱
- 一般可按三級劃分:|r|<0.4為低度相關(guān);0.4<=|r|<0.7為顯著性相關(guān);0.7<=|r|<1為高度線性相關(guān)
API
from scipy.stats import pearsonr -x:array -y:array -Returns:(Pearson`s correlation coefficient,p-value)
代碼演示
from scipy.stats import pearsonr def p_demo(): # 1.獲取數(shù)據(jù) data = pd.read_csv("data.TXT") print("data:\n", data) # 2.計算兩個變量之間的相關(guān)系數(shù) r=pearsonr(data["one"],data["two"]) print("相關(guān)系數(shù):\n", r) return None
如果特征與特征之間相關(guān)性很高,通過以下方法處理:
①選取其中一個
②加權(quán)求和
③主成分分析
③主成分分析
定義
高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過程,在此過程中可能會舍棄原有數(shù)據(jù)、創(chuàng)造新的變量
作用
是數(shù)據(jù)維數(shù)壓縮,盡可能降低原數(shù)據(jù)維數(shù)(復(fù)雜度),損失少量信息
應(yīng)用
回歸分析或者聚類分析當(dāng)中
API
sklearn.decomposition.PCA(n_components=None)
-將數(shù)據(jù)分解為較低維數(shù)空間
-n_components:
·小數(shù):表示保留百分之多少的信息
·整數(shù):減少到多少特征
-PCA.fit_transform(X)
X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
-返回值:轉(zhuǎn)換后指定維度的array
使用
from sklearn.decomposition import PCA def pca_demo(): data=[[2,8,4,5],[6,3,0,8],[5,4,9,1]] #1.實例化一個轉(zhuǎn)換器類 transfer=PCA(n_components=2) #2.調(diào)用fit_transform result=transfer.fit_transform(data) print("result:\n",result) return None
到此這篇關(guān)于Python中使用sklearn進(jìn)行特征降維的方法的文章就介紹到這了,更多相關(guān)Python sklearn特征降維內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
用python記錄運行pid,并在需要時kill掉它們的實例
下面小編就為大家?guī)硪黄胮ython記錄運行pid,并在需要時kill掉它們的實例。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-01-01Python寫的一個定時重跑獲取數(shù)據(jù)庫數(shù)據(jù)
本文給大家分享基于python寫的一個定時重跑獲取數(shù)據(jù)庫數(shù)據(jù)的方法,非常不錯,具有參考借鑒價值,需要的朋友參考下2016-12-1210張動圖學(xué)會python循環(huán)與遞歸問題
今天為大家整理了十張動圖GIFS,有助于認(rèn)識循環(huán)、遞歸、二分檢索等概念的具體運行情況。代碼實例以Python語言編寫,非常不錯,感興趣的朋友跟隨小編一起學(xué)習(xí)吧2021-02-02對python中數(shù)組的del,remove,pop區(qū)別詳解
今天小編就為大家分享一篇對python中數(shù)組的del,remove,pop區(qū)別詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11Flask SocketIO實現(xiàn)動態(tài)繪圖的示例詳解
Flask-SocketIO 是基于 Flask 的一個擴(kuò)展,用于簡化在 Flask 應(yīng)用中集成 WebSocket 功能,本文主要介紹了Flask SocketIO如何實現(xiàn)動態(tài)繪圖,需要的可以參考下2023-11-11