欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實(shí)現(xiàn)PCA降維的示例詳解

 更新時(shí)間:2020年02月24日 13:07:41   作者:WANG_DDD  
今天小編就為大家分享一篇python實(shí)現(xiàn)PCA降維的示例詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧

概述

本文主要介紹一種降維方法,PCA(Principal Component Analysis,主成分分析)。降維致力于解決三類問題。

1. 降維可以緩解維度災(zāi)難問題;

2. 降維可以在壓縮數(shù)據(jù)的同時(shí)讓信息損失最小化;

3. 理解幾百個(gè)維度的數(shù)據(jù)結(jié)構(gòu)很困難,兩三個(gè)維度的數(shù)據(jù)通過可視化更容易理解。

PCA簡(jiǎn)介

在理解特征提取與處理時(shí),涉及高維特征向量的問題往往容易陷入維度災(zāi)難。隨著數(shù)據(jù)集維度的增加,算法學(xué)習(xí)需要的樣本數(shù)量呈指數(shù)級(jí)增加。有些應(yīng)用中,遇到這樣的大數(shù)據(jù)是非常不利的,而且從大數(shù)據(jù)集中學(xué)習(xí)需要更多的內(nèi)存和處理能力。另外,隨著維度的增加,數(shù)據(jù)的稀疏性會(huì)越來(lái)越高。在高維向量空間中探索同樣的數(shù)據(jù)集比在同樣稀疏的數(shù)據(jù)集中探索更加困難。

主成分分析也稱為卡爾胡寧-勒夫變換(Karhunen-Loeve Transform),是一種用于探索高維數(shù)據(jù)結(jié)構(gòu)的技術(shù)。PCA通常用于高維數(shù)據(jù)集的探索與可視化。還可以用于數(shù)據(jù)壓縮,數(shù)據(jù)預(yù)處理等。PCA可以把可能具有相關(guān)性的高維變量合成線性無(wú)關(guān)的低維變量,稱為主成分( principal components)。新的低維數(shù)據(jù)集會(huì)盡可能的保留原始數(shù)據(jù)的變量。

PCA將數(shù)據(jù)投射到一個(gè)低維子空間實(shí)現(xiàn)降維。例如,二維數(shù)據(jù)集降維就是把點(diǎn)投射成一條線,數(shù)據(jù)集的每個(gè)樣本都可以用一個(gè)值表示,不需要兩個(gè)值。三維數(shù)據(jù)集可以降成二維,就是把變量映射成一個(gè)平面。一般情況下,nn維數(shù)據(jù)集可以通過映射降成kk維子空間,其中k≤nk≤n。

假如你是一本養(yǎng)花工具宣傳冊(cè)的攝影師,你正在拍攝一個(gè)水壺。水壺是三維的,但是照片是二維的,為了更全面的把水壺展示給客戶,你需要從不同角度拍幾張圖片。下圖是你從四個(gè)方向拍的照片:

第一張圖里水壺的背面可以看到,但是看不到前面。第二張圖是拍前面,可以看到壺嘴,這張圖可以提供了第一張圖缺失的信息,但是壺把看不到了。從第三張俯視圖里無(wú)法看出壺的高度。第四張圖是你真正想要的,水壺的高度,頂部,壺嘴和壺把都清晰可見。

PCA的設(shè)計(jì)理念與此類似,它可以將高維數(shù)據(jù)集映射到低維空間的同時(shí),盡可能的保留更多變量。PCA旋轉(zhuǎn)數(shù)據(jù)集與其主成分對(duì)齊,將最多的變量保留到第一主成分中。假設(shè)我們有下圖所示的數(shù)據(jù)集:

數(shù)據(jù)集看起來(lái)像一個(gè)從原點(diǎn)到右上角延伸的細(xì)長(zhǎng)扁平的橢圓。要降低整個(gè)數(shù)據(jù)集的維度,我們必須把點(diǎn)映射成一條線。下圖中的兩條線都是數(shù)據(jù)集可以映射的,映射到哪條線樣本變化最大?

顯然,樣本映射到黑色虛線的變化比映射到紅色點(diǎn)線的變化要大的多。實(shí)際上,這條黑色虛線就是第一主成分。第二主成分必須與第一主成分正交,也就是說(shuō)第二主成分必須是在統(tǒng)計(jì)學(xué)上獨(dú)立的,會(huì)出現(xiàn)在與第一主成分垂直的方向,如下圖所示:

后面的每個(gè)主成分也會(huì)盡量多的保留剩下的變量,唯一的要求就是每一個(gè)主成分需要和前面的主成分正交。

現(xiàn)在假設(shè)數(shù)據(jù)集是三維的,散點(diǎn)圖看起來(lái)像是沿著一個(gè)軸旋轉(zhuǎn)的圓盤。

這些點(diǎn)可以通過旋轉(zhuǎn)和變換使圓盤完全變成二維的?,F(xiàn)在這些點(diǎn)看著像一個(gè)橢圓,第三維上基本沒有變量,可以被忽略。

當(dāng)數(shù)據(jù)集不同維度上的方差分布不均勻的時(shí)候,PCA最有用。(如果是一個(gè)球殼形數(shù)據(jù)集,PCA不能有效的發(fā)揮作用,因?yàn)楦鱾€(gè)方向上的方差都相等;沒有丟失大量的信息維度一個(gè)都不能忽略)。

python實(shí)現(xiàn)PCA降維代碼

# coding=utf-8
from sklearn.decomposition import PCA 
from pandas.core.frame import DataFrame
import pandas as pd 
import numpy as np 
l=[]
with open('test.csv','r') as fd:
 
  line= fd.readline()
  while line:
    if line =="":
      continue
 
    line = line.strip()
    word = line.split(",")
    l.append(word)
    line= fd.readline()
 
data_l=DataFrame(l)
print (data_l)
dataMat = np.array(data_l) 
 
 
pca_sk = PCA(n_components=2) 
newMat = pca_sk.fit_transform(dataMat) 
 
 
data1 = DataFrame(newMat)
data1.to_csv('test_PCA.csv',index=False,header=False)

以上這篇python實(shí)現(xiàn)PCA降維的示例詳解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python 檢查數(shù)組元素是否存在類似PHP isset()方法

    Python 檢查數(shù)組元素是否存在類似PHP isset()方法

    isset方法來(lái)檢查數(shù)組元素是否存在,在Python中無(wú)對(duì)應(yīng)函數(shù),在Python中一般可以通過異常來(lái)處理數(shù)組元素不存在的情況,而無(wú)須事先檢查
    2014-10-10
  • 詳解Django中Request對(duì)象的相關(guān)用法

    詳解Django中Request對(duì)象的相關(guān)用法

    這篇文章主要介紹了詳解Django中Request對(duì)象的相關(guān)用法,Django是Python重多人氣框架中最著名的一個(gè),需要的朋友可以參考下
    2015-07-07
  • Django打印出在數(shù)據(jù)庫(kù)中執(zhí)行的語(yǔ)句問題

    Django打印出在數(shù)據(jù)庫(kù)中執(zhí)行的語(yǔ)句問題

    這篇文章主要介紹了Django打印出在數(shù)據(jù)庫(kù)中執(zhí)行的語(yǔ)句,文中給大家提到了Django 查看執(zhí)行的sql語(yǔ)句方法,代碼簡(jiǎn)單易懂,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-07-07
  • Python的json.loads() 方法與json.dumps()方法及使用小結(jié)

    Python的json.loads() 方法與json.dumps()方法及使用小結(jié)

    json.loads() 是一個(gè)非常有用的方法,它允許你在處理 JSON 數(shù)據(jù)時(shí),將其轉(zhuǎn)換為 Python 數(shù)據(jù)類型,以便于在代碼中進(jìn)行操作和處理,這篇文章給大家介紹Python的json.loads() 方法與json.dumps()方法及使用小結(jié),感興趣的朋友一起看看吧
    2024-03-03
  • Python字符串本身作為bytes進(jìn)行解碼的問題

    Python字符串本身作為bytes進(jìn)行解碼的問題

    這篇文章主要介紹了解決Python字符串本身作為bytes進(jìn)行解碼的問題,文末給大家補(bǔ)充介紹了,Python字符串如何轉(zhuǎn)為bytes對(duì)象?Python字符串和bytes類型怎么互轉(zhuǎn),需要的朋友可以參考下
    2022-11-11
  • 讓你一文弄懂Pandas文本數(shù)據(jù)處理

    讓你一文弄懂Pandas文本數(shù)據(jù)處理

    文本數(shù)據(jù)具有數(shù)據(jù)維度高、數(shù)據(jù)量大且語(yǔ)義復(fù)雜等特點(diǎn),是一種較為復(fù)雜的數(shù)據(jù)類型,下面這篇文章主要給大家介紹了關(guān)于Pandas文本數(shù)據(jù)處理的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2021-08-08
  • Python超詳細(xì)講解元類的使用

    Python超詳細(xì)講解元類的使用

    在Python里一切都是對(duì)象(object),基本數(shù)據(jù)類型,如數(shù)字,字符串,函數(shù)都是對(duì)象。對(duì)象可以由類(class)進(jìn)行創(chuàng)建。那么既然一切都是對(duì)象,那么類是對(duì)象嗎?是的,類也是對(duì)象,那么又是誰(shuí)創(chuàng)造了類呢?答案也很簡(jiǎn)單,也是類,一個(gè)能創(chuàng)作類的類,稱之為(type)元類
    2022-06-06
  • python+requests實(shí)現(xiàn)接口測(cè)試的完整步驟

    python+requests實(shí)現(xiàn)接口測(cè)試的完整步驟

    這篇文章主要給大家介紹了關(guān)于python+requests實(shí)現(xiàn)接口測(cè)試的完整步驟,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • python保存字符串到文件的方法

    python保存字符串到文件的方法

    這篇文章主要介紹了python保存字符串到文件的方法,實(shí)例分析了Python文件與字符串操作的相關(guān)技巧,需要的朋友可以參考下
    2015-07-07
  • python如何在文件中部插入信息

    python如何在文件中部插入信息

    這篇文章主要介紹了python如何在文件中部插入信息問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-11-11

最新評(píng)論