R語(yǔ)言中Fisher判別的使用方法
最近編寫了Fisher判別的相關(guān)代碼時(shí),需要與已有軟件比照結(jié)果以確定自己代碼的正確性,于是找到了安裝方便且免費(fèi)的R。這里把R中進(jìn)行Fisher判別的方法記錄下來(lái)。
1. 判別分析與Fisher判別
不嚴(yán)謹(jǐn)?shù)峭ㄋ椎恼f(shuō)法,判別分析(Discriminant Analysis)是一種多元(多個(gè)變量)統(tǒng)計(jì)分析方法,它根據(jù)樣本的多個(gè)已知變量的值對(duì)樣本進(jìn)行分類的方法。一般來(lái)說(shuō),判別分析由兩個(gè)階段構(gòu)成——學(xué)習(xí)(訓(xùn)練)和判別。在學(xué)習(xí)階段,給定一批已經(jīng)被分類好的樣本,根據(jù)它們的分類情況和樣本的多個(gè)變量的值來(lái)學(xué)習(xí)(訓(xùn)練)得到一種判別方法;在判別階段用前一階段得到的判別方法對(duì)其他樣本進(jìn)行判別。
Fisher判別(Fisher Discrimination Method)又被稱為線性判別(LDA,Linear Discriminative Analysis),是判別分析的一種,歷史可以追溯到1936年。它的核心思想是將多維數(shù)據(jù)(多個(gè)變量)投影(使用線性運(yùn)算)到一維(單一變量)上,然后通過(guò)給定閾值將樣本根據(jù)投影后的單一變量進(jìn)行分類。
Fisher判別的學(xué)習(xí)(訓(xùn)練)階段,就是找到合適的投影方式,使得對(duì)于已經(jīng)被分類好的樣本,同一類的樣本被投影后盡量扎堆。學(xué)習(xí)階段的結(jié)果是找到一系列的系數(shù)(Coeffcient),構(gòu)成形如
y=a1 * x1 + a2 * x2 + a3 * x3 + ... + an * xn 其中:a1,a2,... an是系數(shù),x1,x2,... ,xn是變量值。
的判別式和閾值。而判別階段可以根據(jù)這個(gè)判別式計(jì)算出y,并根據(jù)閾值將樣本進(jìn)行分類。
2. 在R中使用Fisher判別
R中使用Fisher判別說(shuō)起來(lái)很簡(jiǎn)單,但是我當(dāng)初也放狗搜索了不短的時(shí)間才搞明白如何使用。
首先,它在R里不叫Fisher,用Fisher搜索多半誤入歧途。在R中,它叫LDA(Linear Discriminative Analysis)。
其次,它存在于一個(gè)叫MASS的包里。在Ubuntu 13.10中使用:
sudo apt-get install r-base
這樣安裝以后默認(rèn)就有,然后使用下面語(yǔ)句引用這個(gè)包:
> library(MASS)
再次,引用了MASS包以后就可以使用lda命令了:
> params <- lda(y~x1+x2+x3, data=d)
其中,第一個(gè)參數(shù)是判別式的形式,第二個(gè)參數(shù)是用來(lái)訓(xùn)練的樣本數(shù)據(jù)。lda命令執(zhí)行后,會(huì)輸出構(gòu)成判別式的各個(gè)系數(shù)。
最后,使用predict命令對(duì)未分類的樣本進(jìn)行判別。
> predict(params, newdata)
其中,第一個(gè)參數(shù)是上一階段lda命令的結(jié)果,第二個(gè)參數(shù)是用來(lái)分類的樣本數(shù)據(jù)。自此,整個(gè)fisher判別過(guò)程完成。
3. 實(shí)例
3.1 數(shù)據(jù)
準(zhǔn)備好兩個(gè)csv文件,用來(lái)訓(xùn)練的已分類數(shù)據(jù)叫l(wèi)earn.csv,用來(lái)判別的未分類數(shù)據(jù)叫infer.csv。learn.csv共有六列構(gòu)成,其第一行分別為Band1,Band2,Band3,Band4, Band5, Class,分別代表變量1、變量2、變量3和類別。infer.csv由六列構(gòu)成:Band1, Band2, Band3, Band4, Band5。同樣第一列包含列名。csv文件的字段間都用逗號(hào)分隔。
3.2 操作步驟
1. 讀取learn.csv
> d <- read.csv("~/data/learn.csv") > d2 <- read.csv("~/data/infer.csv")
2. 訓(xùn)練
> lda(Class ~ Band1+Band2+Band3+Band4+Band5, data=d)
訓(xùn)練結(jié)果:
> params Call: lda(Class ~ Band1 + Band2 + Band3 + Band4 + Band5, data = data) Prior probabilities of groups: 0 1 0.4220068 0.5779932 Group means: Band1 Band2 Band3 Band4 Band5 0 318.3189 0.0000000 0.0000000 0.00000 0.00000 1 322.1881 -0.7703634 -0.2642972 33.92608 36.39715 Coefficients of linear discriminants: LD1 Band1 0.02173212 Band2 -0.08647688 Band3 -0.01199366 Band4 0.10619769 Band5 0.10560976
3. 判別
> ret <- predict(params, d2)
輸出結(jié)果:
> write.csv(d2, file="~/data/output.csv"
到此這篇關(guān)于R語(yǔ)言中Fisher判別的使用方法的文章就介紹到這了,更多相關(guān)R語(yǔ)言中Fisher判別內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
R語(yǔ)言讀取柵格數(shù)據(jù)的方法(raster包讀取)
這篇文章主要介紹了R語(yǔ)言讀取柵格數(shù)據(jù)的方法,本文就只是對(duì)R語(yǔ)言raster包讀取、處理柵格數(shù)據(jù)加以基本的方法介紹,需要的朋友可以參考下2023-05-05R語(yǔ)言RcppEigen計(jì)算點(diǎn)乘與矩陣乘法連乘算法錯(cuò)誤解決
這篇文章主要為大家介紹了RcppEigen計(jì)算點(diǎn)乘與矩陣乘法時(shí)發(fā)生連乘計(jì)算錯(cuò)誤的解決方式,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-11-11R語(yǔ)言安裝以及手動(dòng)安裝devtools的詳細(xì)圖文教程
R語(yǔ)言是一個(gè)強(qiáng)大的數(shù)據(jù)分析工具,其強(qiáng)大之處在于有各種各樣的R包幫助其實(shí)現(xiàn)各種各樣的功能,下面這篇文章主要給大家介紹了關(guān)于R語(yǔ)言安裝以及手動(dòng)安裝devtools的相關(guān)資料,需要的朋友可以參考下2022-08-08R語(yǔ)言實(shí)現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable)
這篇文章主要介紹了R語(yǔ)言實(shí)現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-04-04R語(yǔ)言-解決處理矩陣遇到內(nèi)存不足的問(wèn)題
這篇文章主要介紹了R語(yǔ)言-解決處理矩陣遇到內(nèi)存不足的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-04-04R語(yǔ)言 實(shí)現(xiàn)list類型數(shù)據(jù)轉(zhuǎn)換
這篇文章主要介紹了R語(yǔ)言 實(shí)現(xiàn)list類型數(shù)據(jù)轉(zhuǎn)換,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-03-03R語(yǔ)言函數(shù)基礎(chǔ)知識(shí)點(diǎn)總結(jié)
在本篇文章里小編給大家整理了一篇關(guān)于R語(yǔ)言函數(shù)基礎(chǔ)知識(shí)點(diǎn)總結(jié)內(nèi)容,有興趣的朋友們可以學(xué)習(xí)參考下。2021-04-04R語(yǔ)言ggplot2實(shí)現(xiàn)將多個(gè)照片拼接到一起
本文主要介紹了R語(yǔ)言ggplot2實(shí)現(xiàn)將多個(gè)照片拼接到一起,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-07-07