欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python PCA降維的兩種實現(xiàn)方法

 更新時間:2022年01月14日 09:19:39   作者:F riend L Y  
大家好,本篇文章主要講的是Python PCA降維的兩種實現(xiàn)方法,感興趣的的同學趕快來看一看吧,對你有幫助的話記得收藏一下

前言

        PCA降維,一般是用于數(shù)據(jù)分析和機器學習。它的作用是把一個高維的數(shù)據(jù)在保留最大信息量的前提下降低到一個低維的空間,從而使我們能夠提取數(shù)據(jù)的主要特征分量,從而得到對數(shù)據(jù)影響最大的主成分,便于我們對數(shù)據(jù)進行分析等后續(xù)操作。

        例如,在機器學習中,當你想跟據(jù)一個數(shù)據(jù)集來進行預測工作時,往往要采用特征構(gòu)建、不同特征相乘、相加等操作,來擴建特征,所以,當數(shù)據(jù)處理完畢后,每個樣本往往會有很多個特征,但是,如果把所有數(shù)據(jù)全部喂入模型,可能會導致糟糕的結(jié)果。在高維數(shù)據(jù)集中,往往只有部分特征有良好的預測能力,很多特征純粹是噪音(沒有預測能力),很多特征彼此之間也可能高度相關,這些因素會降低模型的預測精度,訓練模型的時間也更長。降低數(shù)據(jù)集的維度在某種程度上能解決這些問題,這時候就用到了PCA降維。

        假設原始數(shù)據(jù)集的特征有500個,通過PCA降維,降到了400,那么我們就可以用降維后得到的這400個特征代替原始數(shù)據(jù)集的那500個,此時再喂給模型,那么模型的預測能力相比之前會有所提升。但要明白一點的是,降維后得到的這400個特征是新的特征,是原始數(shù)據(jù)集在高維空間某一平面上的投影,能夠反映原特征提供的大部分信息,并不是指在原來的500個中篩選400個特征。

PCA降維的一般步驟為:

1.將原始數(shù)據(jù)進行標準化(一般是去均值,如果特征在不同的數(shù)量級上,則還要將其除以標準差)

2.計算標準化數(shù)據(jù)集的協(xié)方差矩陣

3.計算協(xié)方差矩陣的特征值和特征向量

4.保留最重要(特征值最大)的前k個特征(k就表示降維后的維度)

5.找到這k個特征值對應的特征向量

6.將標準化數(shù)據(jù)集乘以該k個特征向量,得到降維后的結(jié)果

實現(xiàn)PCA降維,一般有兩種方法:

首先先來解釋一下代碼中用到的數(shù)據(jù)集:

        在這兩個代碼中,用的是sklean庫中自帶的iris(鳶尾花)數(shù)據(jù)集。iris數(shù)據(jù)集包含150個樣本,每個樣本包含四個屬性特征(花萼長度、花萼寬度、花瓣長度、花瓣寬度)和一個類別標簽(分別用0、1、2表示山鳶尾、變色鳶尾和維吉尼亞鳶尾)。

data = load_iris()
y = data.target
x = data.data

y就表示數(shù)據(jù)集中的類別標簽,x表示數(shù)據(jù)集中的屬性數(shù)據(jù)。因為鳶尾花類別分為三類,所以我們降維后,要跟據(jù)y的值,分別對這三類數(shù)據(jù)點進行繪圖。

第一種,就是依照上面PCA的步驟,通過矩陣運算,最終得到降維后的結(jié)果

import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
 
 
def pca(dataMat, topNfeat):
    meanVals = np.mean(dataMat, axis=0)
    meanRemoved = dataMat - meanVals  # 標準化(去均值)
    covMat = np.cov(meanRemoved, rowvar=False)
    eigVals, eigVets = np.linalg.eig(np.mat(covMat))  # 計算矩陣的特征值和特征向量
    eigValInd = np.argsort(eigVals)  # 將特征值從小到大排序,返回的是特征值對應的數(shù)組里的下標
    eigValInd = eigValInd[:-(topNfeat + 1):-1]  # 保留最大的前K個特征值
    redEigVects = eigVets[:, eigValInd]  # 對應的特征向量
    lowDDatMat = meanRemoved * redEigVects  # 將數(shù)據(jù)轉(zhuǎn)換到低維新空間
    # reconMat = (lowDDatMat * redEigVects.T) + meanVals  # 還原原始數(shù)據(jù)
    return lowDDatMat
 
 
def plotPCA(lowMat):
    reconArr = np.array(lowMat)
    red_x, red_y = [], []
    blue_x, blue_y = [], []
    green_x, green_y = [], []
    for i in range(len(reconArr)):
        if y[i] == 0:
            red_x.append(reconArr[i][0])
            red_y.append(reconArr[i][1])
        elif y[i] == 1:
            blue_x.append(reconArr[i][0])
            blue_y.append(reconArr[i][1])
        else:
            green_x.append(reconArr[i][0])
            green_y.append(reconArr[i][1])
    plt.scatter(red_x, red_y, c='r', marker='x')
    plt.scatter(blue_x, blue_y, c='b', marker='D')
    plt.scatter(green_x, green_y, c='g', marker='.')
    plt.show()
 
 
if __name__ == '__main__':
    data = load_iris()
    y = data.target
    x = data.data
    matx = np.mat(x)
    lowDMat = pca(matx, 2)
    plotPCA(lowDMat)

第二種,是在sklearn庫中調(diào)用PCA算法來實現(xiàn):

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA  # 加載PCA算法包
from sklearn.datasets import load_iris
import numpy as np
 
data = load_iris()
y = data.target
x = data.data
pca = PCA(n_components=2)  # 加載PCA算法,設置降維后主成分數(shù)目為2
reduced_x = pca.fit_transform(x)  # 對樣本進行降維
# reduced_x = np.dot(reduced_x, pca.components_) + pca.mean_  # 還原數(shù)據(jù)
 
red_x, red_y = [], []
blue_x, blue_y = [], []
green_x, green_y = [], []
# print(reduced_x)
for i in range(len(reduced_x)):
    if y[i] == 0:
        red_x.append(reduced_x[i][0])
        red_y.append(reduced_x[i][1])
    elif y[i] == 1:
        blue_x.append(reduced_x[i][0])
        blue_y.append(reduced_x[i][1])
    else:
        green_x.append(reduced_x[i][0])
        green_y.append(reduced_x[i][1])
plt.scatter(red_x, red_y, c='r', marker='x')
plt.scatter(blue_x, blue_y, c='b', marker='D')
plt.scatter(green_x, green_y, c='g', marker='.')
plt.show()

        在第二個代碼中,值得一說的是fit_transform()這個函數(shù),它其實就是fit()和transform()這兩個函數(shù)的結(jié)合,相當于先調(diào)用fit()再調(diào)用transform()。fit()和transform()這兩個函數(shù)在sklearn庫中經(jīng)常出現(xiàn),fit()函數(shù)可以理解為求傳入的數(shù)據(jù)集的一些固有的屬性(如方差、均值等等),相當于一個訓練過程,而transform()函數(shù),可以理解為對訓練后的數(shù)據(jù)集進行相應的操作(如歸一化、降維等等)。在不同的模塊中,這兩個函數(shù)的具體實現(xiàn)也不一樣,比如在PCA模塊里,fit()相當于去均值,transform()則相當于降維。

這兩種代碼運行后,生成的圖像如下(圖一為第一種代碼,圖二為第二種代碼):

圖一

圖二

        可以看到,第一種代碼畫出的圖像與第二種代碼畫出的圖像關于y=0這條直線對稱,雖然不清楚這是什么原因(后續(xù)有空的話我會去找找原因),但是這并不影響降維的結(jié)果。

降維前的數(shù)據(jù)(部分)                                                             

降維后的數(shù)據(jù)(部分)

        所以,此時我們使用降維后的二維數(shù)據(jù)集就可以用來表示降維前四維數(shù)據(jù)集的大部分信息。

        降維后得到的數(shù)據(jù)可以通過逆操作來進行數(shù)據(jù)集的還原,具體原理就不過多解釋,具體操作代碼的話我已在代碼的注釋里面寫出,但是重建出來的數(shù)據(jù)會和原始數(shù)據(jù)有一定的誤差(如下圖)

        原因的話你可以這樣理解:我們的原始數(shù)據(jù)為四維空間,現(xiàn)在用PCA降維到二維空間,則保留數(shù)據(jù)投影方差最大的兩個軸向,因此舍棄掉了另外兩個相對不重要的特征軸,從而造成了一定的信息丟失,所以會產(chǎn)生重構(gòu)誤差。

總結(jié)

到此這篇關于Python PCA降維的兩種實現(xiàn)方法的文章就介紹到這了,更多相關Python PCA降維內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • Pycharm配置autopep8實現(xiàn)流程解析

    Pycharm配置autopep8實現(xiàn)流程解析

    這篇文章主要介紹了Pycharm配置autopep8實現(xiàn)流程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-11-11
  • python使用beautifulsoup從愛奇藝網(wǎng)抓取視頻播放

    python使用beautifulsoup從愛奇藝網(wǎng)抓取視頻播放

    這篇文章主要介紹了python使用beautifulsoup從愛奇藝網(wǎng)抓取視頻并播放示例,大家參考使用吧
    2014-01-01
  • python實現(xiàn)識別相似圖片小結(jié)

    python實現(xiàn)識別相似圖片小結(jié)

    本文給大家分享的是使用Python實現(xiàn)圖片相似度識別的總結(jié),代碼實用pil模塊比較兩個圖片的相似度,根據(jù)實際實用,代碼雖短但效果不錯,還是非??孔V的。
    2016-02-02
  • 淺談Python模塊導入規(guī)范

    淺談Python模塊導入規(guī)范

    這篇文章主要介紹了淺談Python模塊導入規(guī)范,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-04-04
  • Python網(wǎng)絡爬蟲神器PyQuery的基本使用教程

    Python網(wǎng)絡爬蟲神器PyQuery的基本使用教程

    這篇文章主要給大家介紹了關于Python網(wǎng)絡爬蟲神器PyQuery的基本使用教程,文中通過示例代碼介紹的非常詳細,對大家學習使用PyQuery具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧。
    2018-02-02
  • python中import reload __import__的區(qū)別詳解

    python中import reload __import__的區(qū)別詳解

    這篇文章主要介紹了python中import reload __import__的區(qū)別詳解,需要的朋友可以參考下
    2017-10-10
  • 對python:threading.Thread類的使用方法詳解

    對python:threading.Thread類的使用方法詳解

    今天小編就為大家分享一篇對python:threading.Thread類的使用方法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Mac中安裝anaconda并配置虛擬環(huán)境的詳細過程

    Mac中安裝anaconda并配置虛擬環(huán)境的詳細過程

    這篇文章主要給大家介紹了關于Mac中安裝anaconda并配置虛擬環(huán)境的詳細過程,anaconda是包管理器和環(huán)境管理器,使用它可以方便地創(chuàng)作,文中通過圖文介紹的非常詳細,需要的朋友可以參考下
    2023-10-10
  • python3實現(xiàn)多線程聊天室

    python3實現(xiàn)多線程聊天室

    這篇文章主要為大家詳細介紹了python3實現(xiàn)多線程聊天室,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-12-12
  • Python字符串逐字符或逐詞反轉(zhuǎn)方法

    Python字符串逐字符或逐詞反轉(zhuǎn)方法

    這篇文章主要介紹了Python字符串逐字符或逐詞反轉(zhuǎn)方法,本文對逐字符或逐詞分別給出兩種方法,需要的朋友可以參考下
    2015-05-05

最新評論