70行Java代碼實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)算法分享
對于現(xiàn)在流行的深度學(xué)習(xí),保持學(xué)習(xí)精神是必要的——程序員尤其是架構(gòu)師永遠(yuǎn)都要對核心技術(shù)和關(guān)鍵算法保持關(guān)注和敏感,必要時(shí)要?jiǎng)邮謱懸粚懻莆障聛?,先不用關(guān)心什么時(shí)候用到——用不用是政治問題,會不會寫是技術(shù)問題,就像軍人不關(guān)心打不打的問題,而要關(guān)心如何打贏的問題。
程序員如何學(xué)習(xí)機(jī)器學(xué)習(xí)
對程序員來說,機(jī)器學(xué)習(xí)是有一定門檻的(這個(gè)門檻也是其核心競爭力),相信很多人在學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)都會為滿是數(shù)學(xué)公式的英文論文而頭疼,甚至可能知難而退。但實(shí)際上機(jī)器學(xué)習(xí)算法落地程序并不難寫,下面是70行代碼實(shí)現(xiàn)的反向多層(BP)神經(jīng)網(wǎng)絡(luò)算法,也就是深度學(xué)習(xí)。其實(shí)不光是神經(jīng)網(wǎng)絡(luò),邏輯回歸、決策樹C45/ID3、隨機(jī)森林、貝葉斯、協(xié)同過濾、圖計(jì)算、Kmeans、PageRank等大部分機(jī)器學(xué)習(xí)算法都能在100行單機(jī)程序內(nèi)實(shí)現(xiàn)(以后考慮分享出來)。
機(jī)器學(xué)習(xí)的真正難度在于它為什么要這么計(jì)算,它背后的數(shù)學(xué)原理是什么,怎么推導(dǎo)得來的公式,網(wǎng)上大部分的資料都在介紹這部分理論知識,卻很少告訴你該算法的計(jì)算過程和程序落地是怎么樣的,對于程序員來說,你需要做的僅是工程化應(yīng)用,而不需要證明出一項(xiàng)新的數(shù)學(xué)計(jì)算方法。實(shí)際大部分機(jī)器學(xué)習(xí)工程師都是利用別人寫好的開源包或者工具軟件,輸入數(shù)據(jù)和調(diào)整計(jì)算系數(shù)來訓(xùn)練結(jié)果,甚至很少自己實(shí)現(xiàn)算法過程。但是掌握每個(gè)算法的計(jì)算過程仍然非常重要,這樣你才能理解該算法讓數(shù)據(jù)產(chǎn)生了什么樣的變化,理解算法的目的是為了達(dá)到什么樣的效果。
本文重點(diǎn)探討反向神經(jīng)網(wǎng)絡(luò)的單機(jī)實(shí)現(xiàn),關(guān)于神經(jīng)網(wǎng)絡(luò)的多機(jī)并行化, Fourinone 提供非常靈活完善的并行計(jì)算框架,我們只需要理解透單機(jī)程序?qū)崿F(xiàn),就能構(gòu)思和設(shè)計(jì)出分布式并行化方案,如果不理解算法計(jì)算過程,一切思路將無法展開。另外,還有卷積神經(jīng)網(wǎng)絡(luò),主要是一種降維思想,用于圖像處理,不在本文討論范圍。
神經(jīng)網(wǎng)絡(luò)過程描述:
首先,要明確,神經(jīng)網(wǎng)絡(luò)做的是預(yù)測任務(wù),相信你記得高中學(xué)過的最小二乘法,我們可以以此做一個(gè)不嚴(yán)謹(jǐn)?shù)容^直觀的類比:
首先,我們要得到一個(gè)數(shù)據(jù)集和數(shù)據(jù)集的標(biāo)記(最小二乘法中,我們也得到了一組組x,y的值)
算法根據(jù)這個(gè)數(shù)據(jù)集和對應(yīng)的標(biāo)記,擬合一個(gè)能夠表達(dá)這個(gè)數(shù)據(jù)集的函數(shù)參數(shù)(也就是最小二乘法中計(jì)算a, b的公式,神經(jīng)網(wǎng)絡(luò)中不過是這個(gè)公式?jīng)]法直接得到)
我們以此得到了擬合的函數(shù)(也就是最小二乘法中的擬合直線y^=ax+b)
接下來,帶入新的數(shù)據(jù)之后,就可以生成對應(yīng)的預(yù)測值y^(在最小二乘法中,就是帶入y^=ax+b得到我們預(yù)測的y^,神經(jīng)網(wǎng)絡(luò)算法也是的,只不過求得的函數(shù)比最小二乘法復(fù)雜得多)。
神經(jīng)網(wǎng)絡(luò)的計(jì)算過程
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,最左邊的是輸入層,最右邊的是輸出層,中間是多個(gè)隱含層,隱含層和輸出層的每個(gè)神經(jīng)節(jié)點(diǎn),都是由上一層節(jié)點(diǎn)乘以其權(quán)重累加得到,標(biāo)上“+1”的圓圈為截距項(xiàng)b,對輸入層外每個(gè)節(jié)點(diǎn):Y=w0*x0+w1*x1+…+wn*xn+b,由此我們可以知道神經(jīng)網(wǎng)絡(luò)相當(dāng)于一個(gè)多層邏輯回歸的結(jié)構(gòu)。
算法計(jì)算過程:輸入層開始,從左往右計(jì)算,逐層往前直到輸出層產(chǎn)生結(jié)果。如果結(jié)果值和目標(biāo)值有差距,再從右往左算,逐層向后計(jì)算每個(gè)節(jié)點(diǎn)的誤差,并且調(diào)整每個(gè)節(jié)點(diǎn)的所有權(quán)重,反向到達(dá)輸入層后,又重新向前計(jì)算,重復(fù)迭代以上步驟,直到所有權(quán)重參數(shù)收斂到一個(gè)合理值。由于計(jì)算機(jī)程序求解方程參數(shù)和數(shù)學(xué)求法不一樣,一般是先隨機(jī)選取參數(shù),然后不斷調(diào)整參數(shù)減少誤差直到逼近正確值,所以大部分的機(jī)器學(xué)習(xí)都是在不斷迭代訓(xùn)練,下面我們從程序上詳細(xì)看看該過程實(shí)現(xiàn)就清楚了。
神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)
神經(jīng)網(wǎng)絡(luò)的算法程序?qū)崿F(xiàn)分為初始化、向前計(jì)算結(jié)果,反向修改權(quán)重三個(gè)過程。
1. 初始化過程
由于是n層神經(jīng)網(wǎng)絡(luò),我們用二維數(shù)組layer記錄節(jié)點(diǎn)值,第一維為層數(shù),第二維為該層節(jié)點(diǎn)位置,數(shù)組的值為節(jié)點(diǎn)值;同樣,節(jié)點(diǎn)誤差值layerErr也是相似方式記錄。用三維數(shù)組layer_weight記錄各節(jié)點(diǎn)權(quán)重,第一維為層數(shù),第二維為該層節(jié)點(diǎn)位置,第三維為下層節(jié)點(diǎn)位置,數(shù)組的值為某節(jié)點(diǎn)到達(dá)下層某節(jié)點(diǎn)的權(quán)重值,初始值為0-1之間的隨機(jī)數(shù)。為了優(yōu)化收斂速度,這里采用動量法權(quán)值調(diào)整,需要記錄上一次權(quán)值調(diào)整量,用三維數(shù)組layer_weight_delta來記錄,截距項(xiàng)處理:程序里將截距的值設(shè)置為1,這樣只需要計(jì)算它的權(quán)重就可以了,
2. 向前計(jì)算結(jié)果
采用S函數(shù)1/(1+Math.exp(-z))將每個(gè)節(jié)點(diǎn)的值統(tǒng)一到0-1之間,再逐層向前計(jì)算直到輸出層,對于輸出層,實(shí)際上是不需要再用S函數(shù)的,我們這里將輸出結(jié)果視為0到1之間的概率值,所以也采用了S函數(shù),這樣也有利于程序?qū)崿F(xiàn)的統(tǒng)一性。
3. 反向修改權(quán)重
神經(jīng)網(wǎng)絡(luò)如何計(jì)算誤差,一般采用平方型誤差函數(shù)E,如下:
也就是將多個(gè)輸出項(xiàng)和對應(yīng)目標(biāo)值的誤差的平方累加起來,再除以2。實(shí)際上邏輯回歸的誤差函數(shù)也是這個(gè),至于為什么要用這個(gè)函數(shù)來計(jì)算誤差,它從數(shù)學(xué)上的合理性是什么,怎么得來的,這個(gè)我建議程序員們不想當(dāng)數(shù)學(xué)家的話,先不去深究了,現(xiàn)在我們要做的是如何把這個(gè)函數(shù)E誤差取它的最小值,需要對其進(jìn)行求導(dǎo),如果有些求導(dǎo)數(shù)學(xué)基礎(chǔ)的話,倒可以嘗試去推導(dǎo)下如何從函數(shù)E對權(quán)重求導(dǎo)得到下面這個(gè)公式的:
不會推導(dǎo)也沒有關(guān)系,我們只需要運(yùn)用結(jié)果公式就可以了,在我們的程序里用layerErr記錄了E對權(quán)重求導(dǎo)后的最小化誤差,再根據(jù)最小化誤差去調(diào)整權(quán)重。
注意這里采用動量法調(diào)整,將上一次調(diào)整的經(jīng)驗(yàn)考慮進(jìn)來,避免陷入局部最小值,下面的k代表迭代次數(shù),mobp為動量項(xiàng),rate為學(xué)習(xí)步長:
Δw(k+1) = mobp*Δw(k)+rate*Err*Layer
也有很多使用下面的公式,效果上的差別不是太大:
Δw(k+1) = mobp*Δw(k)+(1-mobp)rate*Err*Layer
為了提升性能,注意程序?qū)崿F(xiàn)是在一個(gè)while里面同時(shí)計(jì)算誤差和調(diào)整權(quán)重,先將位置定位到倒數(shù)第二層(也就是最后一層隱含層)上,然后逐層反向調(diào)整,根據(jù)L+1層算好的誤差來調(diào)整L層的權(quán)重,同時(shí)計(jì)算好L層的誤差,用于下一次循環(huán)到L-1層時(shí)計(jì)算權(quán)重,以此循環(huán)下去直到倒數(shù)第一層(輸入層)結(jié)束。
小結(jié)
在整個(gè)計(jì)算過程中,節(jié)點(diǎn)的值是每次計(jì)算都在變化的,不需要保存,而權(quán)重參數(shù)和誤差參數(shù)是需要保存的,需要為下一次迭代提供支持,因此,如果我們構(gòu)思一個(gè)分布式的多機(jī)并行計(jì)算方案,就能理解其他框架中為什么會有一個(gè)Parameter Server的概念。
多層神經(jīng)網(wǎng)絡(luò)完整程序?qū)崿F(xiàn)
下面的實(shí)現(xiàn)程序BpDeep.java可以直接拿去使用,也很容易修改為C、C#、Python等其他任何語言實(shí)現(xiàn),因?yàn)槎际鞘褂玫幕菊Z句,沒有用到其他Java庫(除了Random函數(shù))。
import java.util.Random; public class BpDeep{ public double[][] layer;//神經(jīng)網(wǎng)絡(luò)各層節(jié)點(diǎn) public double[][] layerErr;//神經(jīng)網(wǎng)絡(luò)各節(jié)點(diǎn)誤差 public double[][][] layer_weight;//各層節(jié)點(diǎn)權(quán)重 public double[][][] layer_weight_delta;//各層節(jié)點(diǎn)權(quán)重動量 public double mobp;//動量系數(shù) public double rate;//學(xué)習(xí)系數(shù) public BpDeep(int[] layernum, double rate, double mobp){ this.mobp = mobp; this.rate = rate; layer = new double[layernum.length][]; layerErr = new double[layernum.length][]; layer_weight = new double[layernum.length][][]; layer_weight_delta = new double[layernum.length][][]; Random random = new Random(); for(int l=0;l<layernum.length;l++){ layer[l]=new double[layernum[l]]; layerErr[l]=new double[layernum[l]]; if(l+1<layernum.length){ layer_weight[l]=new double[layernum[l]+1][layernum[l+1]]; layer_weight_delta[l]=new double[layernum[l]+1][layernum[l+1]]; for(int j=0;j<layernum[l]+1;j++) for(int i=0;i<layernum[l+1];i++) layer_weight[l][j][i]=random.nextDouble();//隨機(jī)初始化權(quán)重 } } } //逐層向前計(jì)算輸出 public double[] computeOut(double[] in){ for(int l=1;l<layer.length;l++){ for(int j=0;j<layer[l].length;j++){ double z=layer_weight[l-1][layer[l-1].length][j]; for(int i=0;i<layer[l-1].length;i++){ layer[l-1][i]=l==1?in[i]:layer[l-1][i]; z+=layer_weight[l-1][i][j]*layer[l-1][i]; } layer[l][j]=1/(1+Math.exp(-z)); } } return layer[layer.length-1]; } //逐層反向計(jì)算誤差并修改權(quán)重 public void updateWeight(double[] tar){ int l=layer.length-1; for(int j=0;j<layerErr[l].length;j++) layerErr[l][j]=layer[l][j]*(1-layer[l][j])*(tar[j]-layer[l][j]); while(l-->0){ for(int j=0;j<layerErr[l].length;j++){ double z = 0.0; for(int i=0;i<layerErr[l+1].length;i++){ z=z+l>0?layerErr[l+1][i]*layer_weight[l][j][i]:0; layer_weight_delta[l][j][i]= mobp*layer_weight_delta[l][j][i]+rate*layerErr[l+1][i]*layer[l][j];//隱含層動量調(diào)整 layer_weight[l][j][i]+=layer_weight_delta[l][j][i];//隱含層權(quán)重調(diào)整 if(j==layerErr[l].length-1){ layer_weight_delta[l][j+1][i]= mobp*layer_weight_delta[l][j+1][i]+rate*layerErr[l+1][i];//截距動量調(diào)整 layer_weight[l][j+1][i]+=layer_weight_delta[l][j+1][i];//截距權(quán)重調(diào)整 } } layerErr[l][j]=z*layer[l][j]*(1-layer[l][j]);//記錄誤差 } } } public void train(double[] in, double[] tar){ double[] out = computeOut(in); updateWeight(tar); } }
一個(gè)運(yùn)用神經(jīng)網(wǎng)絡(luò)的例子
最后我們找個(gè)簡單例子來看看神經(jīng)網(wǎng)絡(luò)神奇的效果。為了方便觀察數(shù)據(jù)分布,我們選用一個(gè)二維坐標(biāo)的數(shù)據(jù),下面共有4個(gè)數(shù)據(jù),方塊代表數(shù)據(jù)的類型為1,三角代表數(shù)據(jù)的類型為0,可以看到屬于方塊類型的數(shù)據(jù)有(1,2)和(2,1),屬于三角類型的數(shù)據(jù)有(1,1),(2,2),現(xiàn)在問題是需要在平面上將4個(gè)數(shù)據(jù)分成1和0兩類,并以此來預(yù)測新的數(shù)據(jù)的類型。
我們可以運(yùn)用邏輯回歸算法來解決上面的分類問題,但是邏輯回歸得到一個(gè)線性的直線做為分界線,可以看到上面的紅線無論怎么擺放,總是有一個(gè)樣本被錯(cuò)誤地劃分到不同類型中,所以對于上面的數(shù)據(jù),僅僅一條直線不能很正確地劃分他們的分類,如果我們運(yùn)用神經(jīng)網(wǎng)絡(luò)算法,可以得到下圖的分類效果,相當(dāng)于多條直線求并集來劃分空間,這樣準(zhǔn)確性更高。
下面是這個(gè)測試程序BpDeepTest.java的源碼:
import java.util.Arrays; public class BpDeepTest{ public static void main(String[] args){ //初始化神經(jīng)網(wǎng)絡(luò)的基本配置 //第一個(gè)參數(shù)是一個(gè)整型數(shù)組,表示神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層節(jié)點(diǎn)數(shù),比如{3,10,10,10,10,2}表示輸入層是3個(gè)節(jié)點(diǎn),輸出層是2個(gè)節(jié)點(diǎn),中間有4層隱含層,每層10個(gè)節(jié)點(diǎn) //第二個(gè)參數(shù)是學(xué)習(xí)步長,第三個(gè)參數(shù)是動量系數(shù) BpDeep bp = new BpDeep(new int[]{2,10,2}, 0.15, 0.8); //設(shè)置樣本數(shù)據(jù),對應(yīng)上面的4個(gè)二維坐標(biāo)數(shù)據(jù) double[][] data = new double[][]{{1,2},{2,2},{1,1},{2,1}}; //設(shè)置目標(biāo)數(shù)據(jù),對應(yīng)4個(gè)坐標(biāo)數(shù)據(jù)的分類 double[][] target = new double[][]{{1,0},{0,1},{0,1},{1,0}}; //迭代訓(xùn)練5000次 for(int n=0;n<5000;n++) for(int i=0;i<data.length;i++) bp.train(data[i], target[i]); //根據(jù)訓(xùn)練結(jié)果來檢驗(yàn)樣本數(shù)據(jù) for(int j=0;j<data.length;j++){ double[] result = bp.computeOut(data[j]); System.out.println(Arrays.toString(data[j])+":"+Arrays.toString(result)); } //根據(jù)訓(xùn)練結(jié)果來預(yù)測一條新數(shù)據(jù)的分類 double[] x = new double[]{3,1}; double[] result = bp.computeOut(x); System.out.println(Arrays.toString(x)+":"+Arrays.toString(result)); } }
小結(jié)
以上測試程序顯示神經(jīng)網(wǎng)絡(luò)有很神奇的分類效果,實(shí)際上神經(jīng)網(wǎng)絡(luò)有一定優(yōu)勢,但也不是接近人腦的萬能算法,很多時(shí)候它可能會讓我們失望,還需要結(jié)合各種場景的數(shù)據(jù)大量運(yùn)用去觀察其效果。我們可以把1層隱含層改成n層,并調(diào)整每層節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)步長和動量系數(shù),以獲得一個(gè)最優(yōu)化的結(jié)果。但是很多時(shí)候n層隱含層的效果并不比1層有明顯提升,反而計(jì)算更復(fù)雜耗時(shí),我們對神經(jīng)網(wǎng)絡(luò)的認(rèn)識還需要多實(shí)踐多體會。
以上就是本文關(guān)于70行Java代碼實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)算法分享的全部內(nèi)容,希望對大家有所幫助。如有不足之處,歡迎留言指出。
相關(guān)文章
Java整合mybatis實(shí)現(xiàn)過濾數(shù)據(jù)
這篇文章主要介紹了Java整合mybatis實(shí)現(xiàn)過濾數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧2023-01-01SpringMVC @GetMapping注解路徑?jīng)_突問題解決
MD5對密碼進(jìn)行加密存儲是常見的一種加密方式,本文主要介紹了Java雙重MD5加密實(shí)現(xiàn)安全登錄,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-07-07使用resty Quartz執(zhí)行定時(shí)任務(wù)的配置方法
這篇文章主要為大家介紹了使用resty?Quartz來執(zhí)行定時(shí)任務(wù)的配置方法,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2022-03-03JAVA中方法的聲明及使用方式(繼承、多態(tài)、封裝)
這篇文章主要介紹了JAVA中方法的聲明及使用方式(繼承、多態(tài)、封裝),具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-02-02Java實(shí)戰(zhàn)在線選課系統(tǒng)的實(shí)現(xiàn)流程
讀萬卷書不如行萬里路,只學(xué)書上的理論是遠(yuǎn)遠(yuǎn)不夠的,只有在實(shí)戰(zhàn)中才能獲得能力的提升,本篇文章手把手帶你用java+SSM+jsp+mysql+maven實(shí)現(xiàn)一個(gè)在線選課系統(tǒng),大家可以在過程中查缺補(bǔ)漏,提升水平2021-11-11詳解Java利用同步塊synchronized()保證并發(fā)安全
這篇文章主要介紹了Java利用同步塊synchronized()保證并發(fā)安全,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03Hibernate中l(wèi)oad方法與get方法的區(qū)別
Hibernate中有兩個(gè)極為相似的方法get()與load(),他們都可以通過指定的實(shí)體類與ID從數(shù)據(jù)庫中讀取數(shù)據(jù),并返回對應(yīng)的實(shí)例,但Hibernate不會搞兩個(gè)完全一樣的方法的2016-01-01springboot + swagger 實(shí)例代碼
本篇文章主要介紹了springboot + swagger 實(shí)例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-05-05Java JVM原理與調(diào)優(yōu)_動力節(jié)點(diǎn)Java學(xué)院整理
JVM是Java Virtual Machine(Java虛擬機(jī))的縮寫,JVM是一種用于計(jì)算設(shè)備的規(guī)范,它是一個(gè)虛構(gòu)出來的計(jì)算機(jī),是通過在實(shí)際的計(jì)算機(jī)上仿真模擬各種計(jì)算機(jī)功能來實(shí)現(xiàn)的。下面通過本文給大家介紹jvm原理與調(diào)優(yōu)相關(guān)知識,感興趣的朋友一起學(xué)習(xí)吧2017-04-04