欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

運(yùn)用PyTorch動手搭建一個共享單車預(yù)測器

 更新時間:2019年08月06日 11:48:31   作者:圖靈教育  
這篇文章主要介紹了運(yùn)用PyTorch動手搭建一個共享單車預(yù)測器,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下

本文摘自 《深度學(xué)習(xí)原理與PyTorch實(shí)戰(zhàn)》

我們將從預(yù)測某地的共享單車數(shù)量這個實(shí)際問題出發(fā),帶領(lǐng)讀者走進(jìn)神經(jīng)網(wǎng)絡(luò)的殿堂,運(yùn)用PyTorch動手搭建一個共享單車預(yù)測器,在實(shí)戰(zhàn)過程中掌握神經(jīng)元、神經(jīng)網(wǎng)絡(luò)、激活函數(shù)、機(jī)器學(xué)習(xí)等基本概念,以及數(shù)據(jù)預(yù)處理的方法。此外,還會揭秘神經(jīng)網(wǎng)絡(luò)這個“黑箱”,看看它如何工作,哪個神經(jīng)元起到了關(guān)鍵作用,從而讓讀者對神經(jīng)網(wǎng)絡(luò)的運(yùn)作原理有更深入的了解。

3.1 共享單車的煩惱

大約從2016年起,我們的身邊出現(xiàn)了很多共享單車。五顏六色、各式各樣的共享單車就像炸開花了一樣,遍布城市的大街小巷。

共享單車在給人們帶來便利的同時,也存在一個麻煩的問題:單車的分布很不均勻。比如在早高峰的時候,一些地鐵口往往聚集著大量的單車,而到了晚高峰卻很難找到一輛單車了,這就給需要使用共享單車的人造成了不便。

那么如何解決共享單車分布不均勻的問題呢?目前的方式是,共享單車公司會雇用一些工人來搬運(yùn)單車,把它們運(yùn)送到需要單車的區(qū)域。但問題是應(yīng)該運(yùn)多少單車?什么時候運(yùn)?運(yùn)到什么地方呢?這就需要準(zhǔn)確地知道共享單車在整個城市不同地點(diǎn)的數(shù)量分布情況,而且需要提前做出安排,因?yàn)楣と诉\(yùn)送單車還有一定的延遲性。這對于共享單車公司來說是一個非常嚴(yán)峻的挑戰(zhàn)。

為了更加科學(xué)有效地解決這個問題,我們需要構(gòu)造一個單車數(shù)量的預(yù)測器,用來預(yù)測某一時間、某一停放區(qū)域的單車數(shù)量,供共享單車公司參考,以實(shí)現(xiàn)對單車的合理投放。

巧婦難為無米之炊。要構(gòu)建這樣的單車預(yù)測器,就需要一定的共享單車數(shù)據(jù)。為了避免商業(yè)糾紛,也為了讓本書的開發(fā)和講解更方便,本例將會使用一個國外的共享單車公開數(shù)據(jù)集(Capital Bikeshare)來完成我們的任務(wù),數(shù)據(jù)集下載鏈接:

www.capitalbikeshare.com/ system-data 。

下載數(shù)據(jù)集之后,我們可以用一般的表處理軟件或者文本編輯器直接打開,如圖3.1所示。

該數(shù)據(jù)是從2011年1月1日到2012年12月31日之間某地的單車使用情況,每一行都代表一條數(shù)據(jù)記錄,共17 379條。一條數(shù)據(jù)記錄了一個小時內(nèi)某一個地點(diǎn)的星期幾、是否是假期、天氣和風(fēng)速等情況,以及該地區(qū)的單車使用量(用cnt變量記載),它是我們最關(guān)心的量。

我們可以截取一段時間的數(shù)據(jù),將cnt隨時間的變化關(guān)系繪制成圖。圖3.2是2011年1月1日到1月10日的數(shù)據(jù)。橫坐標(biāo)是時間,縱坐標(biāo)是單車的數(shù)量。單車數(shù)量隨時間波動,并且呈現(xiàn)一定的規(guī)律性。不難看出,工作日的單車數(shù)量高峰遠(yuǎn)高于周末的。

我們要解決的問題就是,能否根據(jù)歷史數(shù)據(jù)預(yù)測接下來一段時間該地區(qū)單車數(shù)量的走勢情況呢?在本章中,我們將學(xué)習(xí)如何設(shè)計神經(jīng)網(wǎng)絡(luò)模型來預(yù)測單車數(shù)量。對于這一問題,我們并不是一下子提供一套完美的解決方案,而是通過循序漸進(jìn)的方式,嘗試不同的解決方案。結(jié)合這一問題,我們將主要講解什么是人工神經(jīng)元、什么是神經(jīng)網(wǎng)絡(luò)、如何根據(jù)需要搭建一個神經(jīng)網(wǎng)絡(luò),以及什么是過擬合,如何解決過擬合問題,等等。除此之外,我們還將學(xué)到如何對一個神經(jīng)網(wǎng)絡(luò)進(jìn)行解剖,從而理解其工作原理以及與數(shù)據(jù)的對應(yīng)。

3.2 單車預(yù)測器1.0

本節(jié)將做出一個單車預(yù)測器,它是一個單一隱含單元的神經(jīng)網(wǎng)絡(luò)。我們將訓(xùn)練它學(xué)會擬合共享單車的波動曲線。

不過,在設(shè)計單車預(yù)測器之前,我們有必要了解一下人工神經(jīng)網(wǎng)絡(luò)的概念和工作原理。

3.2.1 人工神經(jīng)網(wǎng)絡(luò)簡介

人工神經(jīng)網(wǎng)絡(luò)(簡稱神經(jīng)網(wǎng)絡(luò))是一種受人腦的生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而設(shè)計的計算模型。人工神經(jīng)網(wǎng)絡(luò)非常擅長從輸入的數(shù)據(jù)和標(biāo)簽中學(xué)習(xí)到映射關(guān)系,從而完成預(yù)測或者解決分類問題。人工神經(jīng)網(wǎng)絡(luò)也被稱為通用擬合器,這是因?yàn)樗梢詳M合任意的函數(shù)或映射。

前饋神經(jīng)網(wǎng)絡(luò)是我們最常用的一種網(wǎng)絡(luò),它一般包括3層人工神經(jīng)單元,即輸入層、隱含層和輸出層,如圖3.3所示。其中,隱含層可以包含多層,這就構(gòu)成了所謂的深度神經(jīng)網(wǎng)絡(luò)。

圖中的每一個圓圈代表一個人工神經(jīng)元,連線代表人工突觸,它將兩個神經(jīng)元聯(lián)系了起來。每條連邊上都包含一個數(shù)值,叫作權(quán)重,我們通常用w來表示。

神經(jīng)網(wǎng)絡(luò)的運(yùn)行通常包含前饋的預(yù)測過程(或稱為決策過程)和反饋的學(xué)習(xí)過程。

在前饋的預(yù)測過程中,信號從輸入單元輸入,并沿著網(wǎng)絡(luò)連邊傳輸,每個信號會與連邊上的權(quán)重進(jìn)行乘積,從而得到隱含層單元的輸入;接下來,隱含層單元對所有連邊輸入的信號進(jìn)行匯總(求和),然后經(jīng)過一定的處理(具體處理過程將在下節(jié)講述)進(jìn)行輸出;這些輸出的信號再乘以從隱含層到輸出的那組連線上的權(quán)重,從而得到輸入給輸出單元的信號;最后,輸出單元再對每一條輸入連邊的信號進(jìn)行匯總,并進(jìn)行加工處理再輸出。最后的輸出就是整個神經(jīng)網(wǎng)絡(luò)的輸出。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練階段將會調(diào)節(jié)每條連邊上的權(quán)重w數(shù)值。

在反饋的學(xué)習(xí)過程中,每個輸出神經(jīng)元會首先計算出它的預(yù)測誤差,然后將這個誤差沿著網(wǎng)絡(luò)的所有連邊進(jìn)行反向傳播,得到每個隱含層節(jié)點(diǎn)的誤差。最后,根據(jù)每條連邊所連通的兩個節(jié)點(diǎn)的誤差計算連邊上的權(quán)重更新量,從而完成網(wǎng)絡(luò)的學(xué)習(xí)與調(diào)整。

下面,我們就從人工神經(jīng)元開始詳細(xì)講述神經(jīng)網(wǎng)絡(luò)的工作過程。

3.2.2 人工神經(jīng)元

人工神經(jīng)網(wǎng)絡(luò)類似于生物神經(jīng)網(wǎng)絡(luò),由人工神經(jīng)元(簡稱神經(jīng)元)構(gòu)成。神經(jīng)元用簡單的數(shù)學(xué)模型來模擬生物神經(jīng)細(xì)胞的信號傳遞與激活。為了理解人工神經(jīng)網(wǎng)絡(luò)的運(yùn)作原理,我們先來看一個最簡單的情形:單神經(jīng)元模型。如圖3.4所示,它只有一個輸入層單元、一個隱含層單元和一個輸出層單元。

x表示輸入的數(shù)據(jù),y表示輸出的數(shù)據(jù),它們都是實(shí)數(shù)。從輸入單元到隱含層的權(quán)重w、隱含層單元偏置b、隱含層到輸出層的權(quán)重w'都是可以任意取值的實(shí)數(shù)。

我們可以將這個最簡單的神經(jīng)網(wǎng)絡(luò)看成一個從x映射到y(tǒng)的函數(shù),而w、b和w'是該函數(shù)的參數(shù)。該函數(shù)的方程如圖3.5中的方程式所示,其中σ表示sigmoid函數(shù)。當(dāng)w=1,w'=1,b=0的時候,這個函數(shù)的圖形如圖3.5所示。

這就是sigmoid函數(shù)的形狀及σ(x)的數(shù)學(xué)表達(dá)式。通過觀察該曲線,我們不難發(fā)現(xiàn),當(dāng)x小于0的時候,σ(x)都是小于1/2的,而且x越小,σ(x)越接近于0;當(dāng)x大于0的時候,σ(x)都是大于1/2的,而且x越大,σ(x)越接近于1。在x=0的點(diǎn)附近存在著一個從0到1的突變。

當(dāng)我們變換w、b和w'這些參數(shù)的時候,函數(shù)的圖形也會發(fā)生相應(yīng)的改變。例如,我們不妨保持 w'=1, b=0不變,而變換w的大小,其函數(shù)圖形的變化如圖3.6所示。

由此可見,當(dāng)w>0的時候,它的大小控制著函數(shù)的彎曲程度,w越大,它在0點(diǎn)附近的彎曲程度就會越大,因此從x=0的突變也就越劇烈;當(dāng)w<0的時候,曲線發(fā)生了左右翻轉(zhuǎn),它會從1突變到0。

再來看看參數(shù)b對曲線的影響,保持w=w'=1不變,如圖3.7所示。

可以清晰地看到,b控制著sigmoid函數(shù)曲線的水平位置。b>0,函數(shù)圖形往左平移;反之往右平移。最后,讓我們看看w'如何影響該曲線,如圖3.8所示。

不難看出,當(dāng)w' > 0的時候,w'控制著曲線的高矮;當(dāng)w' < 0的時候,曲線的方向發(fā)生上下顛倒。

可見,通過控制w、w'和b這3個參數(shù),我們可以任意調(diào)節(jié)從輸入x到輸出y的函數(shù)形狀。但是,無論如何調(diào)節(jié),這條曲線永遠(yuǎn)都是S形(包括倒S形)的。要想得到更加復(fù)雜的函數(shù)圖像,我們需要引入更多的神經(jīng)元。

3.2.3 兩個隱含層神經(jīng)元

下面我們把模型做得更復(fù)雜一些,看看兩個隱含層神經(jīng)元會對曲線有什么影響,如圖3.9所示。

輸入信號進(jìn)入網(wǎng)絡(luò)之后就會兵分兩路,一路從左側(cè)進(jìn)入第一個神經(jīng)元,另一路從右側(cè)進(jìn)入第二個神經(jīng)元。這兩個神經(jīng)元分別完成計算,并通過w'1和w'2進(jìn)行加權(quán)求和得到y(tǒng)。所以,輸出y實(shí)際上就是兩個神經(jīng)元的疊加。這個網(wǎng)絡(luò)仍然是一個將x映射到y(tǒng)的函數(shù),函數(shù)方程為:

在這個公式中,有w1, w2, w'1, w'2, b1, b2這樣6個不同的參數(shù)。它們的組合也會對曲線的形狀有影響。

例如,我們可以取w1=w2=w'1=w'2=1,b1=-1,b2=0,則該函數(shù)的曲線形狀如圖3.10所示。

由此可見,合成的函數(shù)圖形變?yōu)榱艘粋€具有兩個階梯的曲線。

讓我們再來看一個參數(shù)組合,w1=w2=1,b1=0,b2=-1,w'1=1,w'2=-1,則函數(shù)圖形如圖3.11所示。

由此可見,我們合成了一個具有單一波峰的曲線,有點(diǎn)類似于正態(tài)分布的鐘形曲線。一般地,只要變換參數(shù)組合,我們就可以用兩個隱含層神經(jīng)元擬合出任意具有單峰的曲線。

那么,如果有4個或者6個甚至更多的隱含層神經(jīng)元,不難想象,就可以得到具有雙峰、三峰和任意多個峰的曲線,我們可以粗略地認(rèn)為兩個神經(jīng)元可以用來逼近一個波峰(波谷)。事實(shí)上,對于更一般的情形,科學(xué)家早已從理論上證明,用有限多的隱含層神經(jīng)元可以逼近任意的有限區(qū)間內(nèi)的曲線,這叫作通用逼近定理(universal approximation theorem)。

3.2.4 訓(xùn)練與運(yùn)行

在前面的討論中,我們看到,只要能夠調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)中各個參數(shù)的組合,就能得到任意想要的曲線??蓡栴}是,我們應(yīng)該如何選取這些參數(shù)呢?答案就在于訓(xùn)練。

要想完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,首先要給這個神經(jīng)網(wǎng)絡(luò)定義一個損失函數(shù),用來衡量網(wǎng)絡(luò)在現(xiàn)有的參數(shù)組合下輸出表現(xiàn)的好壞。這就類似于第2章利用線性回歸預(yù)測房價中的總誤差函數(shù)(即擬合直線與所有點(diǎn)距離的平方和)L。同樣地,在單車預(yù)測的例子中,我們也可以將損失函數(shù)定義為對于所有的數(shù)據(jù)樣本,神經(jīng)網(wǎng)絡(luò)預(yù)測的單車數(shù)量與實(shí)際數(shù)據(jù)中單車數(shù)量之差的平方和的均值,即:

這里,N為樣本總量,

為神經(jīng)網(wǎng)絡(luò)計算得來的預(yù)測單車數(shù),

為實(shí)際數(shù)據(jù)中該時刻該地區(qū)的單車數(shù)。

有了這個損失函數(shù)L,我們就有了調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)的方向——盡可能地讓L最小化。因此,神經(jīng)網(wǎng)絡(luò)要學(xué)習(xí)的就是神經(jīng)元之間連邊上的權(quán)重及偏置,學(xué)習(xí)的目的是得到一組能夠使總誤差最小的參數(shù)值組合。

這是一個求極值的優(yōu)化問題,高等數(shù)學(xué)告訴我們,只需要令導(dǎo)數(shù)為零就可以求得。然而,由于神經(jīng)網(wǎng)絡(luò)一般非常復(fù)雜,包含大量非線性運(yùn)算,直接用數(shù)學(xué)求導(dǎo)數(shù)的方法行不通,所以,我們一般使用數(shù)值的方式來進(jìn)行求解,也就是梯度下降算法。每次迭代都向梯度的負(fù)方向前進(jìn),使得誤差值逐步減小。參數(shù)的更新要用到反向傳播算法,將損失函數(shù)L沿著網(wǎng)絡(luò)一層一層地反向傳播,來修正每一層的參數(shù)。我們在這里不會詳細(xì)介紹反向傳播算法,因?yàn)镻yTorch已經(jīng)自動將這個復(fù)雜的算法變成了一個簡單的命令:backward。只要調(diào)用該命令,PyTorch就會自動執(zhí)行反向傳播算法,計算出每一個參數(shù)的梯度,我們只需要根據(jù)這些梯度更新參數(shù),就可以完成一步學(xué)習(xí)。

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和運(yùn)行通常是交替進(jìn)行的。也就是說,在每一個周期,神經(jīng)網(wǎng)絡(luò)都會進(jìn)行前饋運(yùn)算,從輸入端運(yùn)算到輸出端;然后,根據(jù)輸出端的損失值來進(jìn)行反向傳播算法,從而調(diào)整神經(jīng)網(wǎng)絡(luò)上的各個參數(shù)。不停地重復(fù)這兩個步驟,就可以令神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得越來越好。

3.2.5 失敗的神經(jīng)預(yù)測器

在弄清楚了神經(jīng)網(wǎng)絡(luò)的工作原理之后,下面我們來看看如何用神經(jīng)網(wǎng)絡(luò)預(yù)測共享單車的曲線。我們希望仿照預(yù)測房價的做法,利用人工神經(jīng)網(wǎng)絡(luò)來擬合一個時間段內(nèi)的單車曲線,并給出在未來時間點(diǎn)單車使用量的曲線。

為了讓演示更加簡單清晰,我們僅選擇了數(shù)據(jù)中的前50條記錄,繪制成如圖3.12所示的曲線。在這條曲線中,橫坐標(biāo)是數(shù)據(jù)記錄的編號,縱坐標(biāo)則是對應(yīng)的單車數(shù)量。

接下來,我們就要設(shè)計一個神經(jīng)網(wǎng)絡(luò),它的輸入x就是數(shù)據(jù)編號,輸出則是對應(yīng)的單車數(shù)量。通過觀察這條曲線,我們發(fā)現(xiàn)它至少有3個峰,采用10個隱含層單元就足以保證擬合這條曲線了。因此,我們的人工神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3.13所示。

接下來,我們就要動手寫程序?qū)崿F(xiàn)這個網(wǎng)絡(luò)。首先導(dǎo)入本程序所使用的所有依賴庫。這里我們會用到pandas庫來讀取和操作數(shù)據(jù)。讀者需要先安裝這個程序包,在Anaconda環(huán)境下運(yùn)行conda install pandas即可。

import numpy as np
import pandas as pd #讀取csv文件的庫
import torch
from torch.autograd import Variable
import torch.optim as optim
import matplotlib.pyplot as plt
#讓輸出圖形直接在Notebook中顯示
%matplotlib inline

接著,要從硬盤文件中導(dǎo)入想要的數(shù)據(jù)。

data_path = 'hour.csv' #讀取數(shù)據(jù)到內(nèi)存,rides為一個dataframe對象
rides = pd.read_csv(data_path)
rides.head() #輸出部分?jǐn)?shù)據(jù)
counts = rides['cnt'][:50] #截取數(shù)據(jù)
x = np.arange(len(counts)) #獲取變量x
y = np.array(counts) #單車數(shù)量為y
plt.figure(figsize = (10, 7)) #設(shè)定繪圖窗口大小
plt.plot(x, y, 'o-') #繪制原始數(shù)據(jù)
plt.xlabel('X') #更改坐標(biāo)軸標(biāo)注
plt.ylabel('Y') #更改坐標(biāo)軸標(biāo)注

在這里,我們使用了pandas庫,從csv文件中快速導(dǎo)入數(shù)據(jù)存儲到rides里面。rides可以按照二維表的形式存儲數(shù)據(jù),并可以像訪問數(shù)組一樣對其進(jìn)行訪問和操作。rides.head()的作用是打印輸出部分?jǐn)?shù)據(jù)記錄。

之后,我們從rides的所有記錄中選出前50條,并只篩選出了cnt字段放入counts數(shù)組中。這個數(shù)組就存儲了前50條自行車使用數(shù)量記錄。接著,我們將前50條記錄的圖畫出來,即圖3.13所示的效果。

準(zhǔn)備好了數(shù)據(jù),我們就可以用PyTorch來搭建人工神經(jīng)網(wǎng)絡(luò)了。與第2章的線性回歸例子類似,我們首先需要定義一系列的變量,包括所有連邊的權(quán)重和偏置,并通過這些變量的運(yùn)算讓PyTorch自動生成計算圖。

#輸入變量,1,2,3,...這樣的一維數(shù)組
x = Variable(torch.FloatTensor(np.arange(len(counts), dtype = float))) 
#輸出變量,它是從數(shù)據(jù)counts中讀取的每一時刻的單車數(shù),共50個數(shù)據(jù)點(diǎn)的一維數(shù)組,作為標(biāo)準(zhǔn)答案
y = Variable(torch.FloatTensor(np.array(counts, dtype = float))) 

sz = 10 #設(shè)置隱含層神經(jīng)元的數(shù)量
#初始化輸入層到隱含層的權(quán)重矩陣,它的尺寸是(1,10)
weights = Variable(torch.randn(1, sz), requires_grad = True) 
#初始化隱含層節(jié)點(diǎn)的偏置向量,它是尺寸為10的一維向量
biases = Variable(torch.randn(sz), requires_grad = True) 
#初始化從隱含層到輸出層的權(quán)重矩陣,它的尺寸是(10,1)
weights2 = Variable(torch.randn(sz, 1), requires_grad = True) 

設(shè)置好變量和神經(jīng)網(wǎng)絡(luò)的初始參數(shù),接下來就要迭代地訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)了。

learning_rate = 0.0001 #設(shè)置學(xué)習(xí)率
losses = [] #該數(shù)組記錄每一次迭代的損失函數(shù)值,以方便后續(xù)繪圖
for i in range(1000000):
 #從輸入層到隱含層的計算
 hidden = x.expand(sz, len(x)).t() * weights.expand(len(x), sz) + biases.expand(len(x), sz)
 #此時,hidden變量的尺寸是:(50,10),即50個數(shù)據(jù)點(diǎn),10個隱含層神經(jīng)元

 #將sigmoid函數(shù)作用在隱含層的每一個神經(jīng)元上
 hidden = torch.sigmoid(hidden)
 #隱含層輸出到輸出層,計算得到最終預(yù)測
 predictions = hidden.mm(weights2)
 #此時,predictions的尺寸為:(50,1),即50個數(shù)據(jù)點(diǎn)的預(yù)測數(shù)值
 #通過與數(shù)據(jù)中的標(biāo)準(zhǔn)答案y做比較,計算均方誤差
 loss = torch.mean((predictions - y) ** 2) 
 #此時,loss為一個標(biāo)量,即一個數(shù)
 losses.append(loss.data.numpy())

 if i % 10000 == 0: #每隔10000個周期打印一下?lián)p失函數(shù)數(shù)值
 print('loss:', loss)

 #*****************************************
 #接下來開始梯度下降算法,將誤差反向傳播
 loss.backward() #對損失函數(shù)進(jìn)行梯度反傳

 #利用上一步計算中得到的weights,biases等梯度信息更新weights或biases的數(shù)值
 weights.data.add_(- learning_rate * weights.grad.data) 
 biases.data.add_(- learning_rate * biases.grad.data)
 weights2.data.add_(- learning_rate * weights2.grad.data)

 #清空所有變量的梯度值
 weights.grad.data.zero_()
 biases.grad.data.zero_()
 weights2.grad.data.zero_()

在上面這段代碼中,我們進(jìn)行了100 000步訓(xùn)練迭代。在每一次迭代中,我們都將50個數(shù)據(jù)點(diǎn)的x作為數(shù)組全部輸入神經(jīng)網(wǎng)絡(luò),并讓神經(jīng)網(wǎng)絡(luò)按照從輸入層到隱含層、再從隱含層到輸出層的步驟,一步步完成計算,最終輸出對50個數(shù)據(jù)點(diǎn)的預(yù)測數(shù)組prediction。

之后,計算prediction和標(biāo)準(zhǔn)答案y之間的誤差,并計算出所有50個數(shù)據(jù)點(diǎn)的平均誤差值loss,這就是我們前面提到的損失函數(shù)L。接著,調(diào)用loss.backward()完成誤差順著神經(jīng)網(wǎng)絡(luò)的反向傳播過程,從而計算出計算圖上每一個葉節(jié)點(diǎn)的梯度更新數(shù)值,并記錄在每個變量的.grad屬性中。最后,我們用這個梯度數(shù)值來更新每個參數(shù)的數(shù)值,從而完成了一步迭代。

仔細(xì)對比這段代碼和第2章中的線性回歸代碼就會發(fā)現(xiàn),除了中間的運(yùn)算過程和損失函數(shù)有所不同外,其他的操作全部相同。事實(shí)上,在本書中,幾乎所有的機(jī)器學(xué)習(xí)案例都采用了這樣的步驟,即前饋運(yùn)算、反向傳播計算梯度、根據(jù)梯度更新參數(shù)數(shù)值。

我們可以打印出Loss隨著一步步的迭代下降的曲線,這可以幫助我們直觀地看到神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程,如圖3.14所示。

plt.plot(losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')

由該曲線可以看出,隨著時間的推移,神經(jīng)網(wǎng)絡(luò)預(yù)測的誤差的確在一步步減小。而且,大約到20 000步后,誤差基本就不會呈現(xiàn)明顯的下降了。

接下來,我們可以把訓(xùn)練好的網(wǎng)絡(luò)在這50個數(shù)據(jù)點(diǎn)上的預(yù)測曲線繪制出來,并與標(biāo)準(zhǔn)答案y進(jìn)行對比,代碼如下:

x_data = x.data.numpy() #獲得x包裹的數(shù)據(jù)
plt.figure(figsize = (10, 7)) #設(shè)定繪圖窗口大小
xplot, = plt.plot(x_data, y.data.numpy(), 'o') #繪制原始數(shù)據(jù)
yplot, = plt.plot(x_data, predictions.data.numpy()) #繪制擬合數(shù)據(jù)
plt.xlabel('X') #更改坐標(biāo)軸標(biāo)注
plt.ylabel('Y') #更改坐標(biāo)軸標(biāo)注
plt.legend([xplot, yplot],['Data', 'Prediction under 1000000 epochs']) #繪制圖例
plt.show()

最后的可視化圖形如圖3.15所示。

可以看到,我們的預(yù)測曲線在第一個波峰比較好地擬合了數(shù)據(jù),但是在此后,它卻與真實(shí)數(shù)據(jù)相差甚遠(yuǎn)。這是為什么呢?

我們知道,x的取值范圍是1~50,而所有權(quán)重和偏置的初始值都是被設(shè)定在(-1, 1)的正態(tài)分布隨機(jī)數(shù),那么輸入層到隱含層節(jié)點(diǎn)的數(shù)值范圍就成了-50~50,要想將sigmoid函數(shù)的多個峰值調(diào)節(jié)到我們期望的位置需要耗費(fèi)很多計算時間。事實(shí)上,如果讓訓(xùn)練時間更長些,我們可以將曲線后面的部分?jǐn)M合得很好。

這個問題的解決方法是將輸入數(shù)據(jù)的范圍做歸一化處理,也就是讓x的輸入數(shù)值范圍為0~1。因?yàn)閿?shù)據(jù)中x的范圍是1~50,所以,我們只需要將每一個數(shù)值都除以50就可以了:

x = Variable(torch.FloatTensor(np.arange(len(counts), dtype = float) / len(counts)))

該操作會使x的取值范圍變?yōu)?.02, 0.04, …, 1。做了這些改進(jìn)后再來運(yùn)行程序,可以看到這次訓(xùn)練速度明顯加快,可視化后的擬合效果也更好了,如圖3.16所示。

我們看到,改進(jìn)后的模型出現(xiàn)了兩個波峰,也非常好地擬合了這些數(shù)據(jù)點(diǎn),形成一條優(yōu)美的曲線。

接下來,我們就需要用訓(xùn)練好的模型來做預(yù)測了。我們的預(yù)測任務(wù)是后面50條數(shù)據(jù)的單車數(shù)量。此時的x取值是51, 52, …, 100,同樣也要除以50。

counts_predict = rides['cnt'][50:100] #讀取待預(yù)測的后面50個數(shù)據(jù)點(diǎn)
x = Variable(torch.FloatTensor((np.arange(len(counts_predict), dtype = float) + len(counts)) / len(counts)))
#讀取后面50個點(diǎn)的y數(shù)值,不需要做歸一化
y = Variable(torch.FloatTensor(np.array(counts_predict, dtype = float))) 

#用x預(yù)測y
hidden = x.expand(sz, len(x)).t() * weights.expand(len(x), sz) #從輸入層到隱含層的計算
hidden = torch.sigmoid(hidden) #將sigmoid函數(shù)作用在隱含層的每一個神經(jīng)元上
predictions = hidden.mm(weights2) #從隱含層輸出到輸出層,計算得到最終預(yù)測
loss = torch.mean((predictions - y) ** 2) #計算預(yù)測數(shù)據(jù)上的損失函數(shù)
print(loss)

#將預(yù)測曲線繪制出來
x_data = x.data.numpy() #獲得x包裹的數(shù)據(jù)
plt.figure(figsize = (10, 7)) #設(shè)定繪圖窗口大小
xplot, = plt.plot(x_data, y.data.numpy(), 'o') #繪制原始數(shù)據(jù)
yplot, = plt.plot(x_data, predictions.data.numpy()) #繪制擬合數(shù)據(jù)
plt.xlabel('X') #更改坐標(biāo)軸標(biāo)注
plt.ylabel('Y') #更改坐標(biāo)軸標(biāo)注
plt.legend([xplot, yplot],['Data', 'Prediction']) #繪制圖例
plt.show()

最終,我們得到了如圖3.17所示的曲線。直線是我們的模型給出的預(yù)測曲線,圓點(diǎn)是實(shí)際數(shù)據(jù)所對應(yīng)的曲線。模型預(yù)測與實(shí)際數(shù)據(jù)竟然完全對不上!

為什么我們的神經(jīng)網(wǎng)絡(luò)可以非常好地擬合已知的50個數(shù)據(jù)點(diǎn),卻完全不能預(yù)測出更多的數(shù)據(jù)點(diǎn)呢?原因就在于:過擬合。

3.2.6 過擬合

所謂過擬合(over fitting)現(xiàn)象就是指模型可以在訓(xùn)練數(shù)據(jù)上進(jìn)行非常好的預(yù)測,但在全新的測試數(shù)據(jù)中卻得不到好的表現(xiàn)。在這個例子中,訓(xùn)練數(shù)據(jù)就是前50個數(shù)據(jù)點(diǎn),測試數(shù)據(jù)就是后面的50個數(shù)據(jù)點(diǎn)。我們的模型可以通過調(diào)節(jié)參數(shù)順利地擬合訓(xùn)練數(shù)據(jù)的曲線,但是這種刻意適合完全沒有推廣價值,導(dǎo)致這條擬合曲線與測試數(shù)據(jù)的標(biāo)準(zhǔn)答案相差甚遠(yuǎn)。我們的神經(jīng)網(wǎng)絡(luò)模型并沒有學(xué)習(xí)到數(shù)據(jù)中的模式。

那我們的神經(jīng)網(wǎng)絡(luò)為什么不能學(xué)習(xí)到曲線中的模式呢?原因就在于我們選擇了錯誤的特征變量:我們嘗試用數(shù)據(jù)的下標(biāo)(1, 2, 3, …)或者它的歸一化(0.1, 0.2, …)來對y進(jìn)行預(yù)測。然而曲線的波動模式(也就是單車的使用數(shù)量)顯然并不依賴于下標(biāo),而是依賴于諸如天氣、風(fēng)速、星期幾和是否節(jié)假日等因素。然而,我們不管三七二十一,硬要用強(qiáng)大的人工神經(jīng)網(wǎng)絡(luò)來擬合整條曲線,這自然就導(dǎo)致了過擬合的現(xiàn)象,而且是非常嚴(yán)重的過擬合。

由這個例子可以看出,一味地追求人工智能技術(shù),而不考慮實(shí)際問題的背景,很容易讓我們走彎路。當(dāng)我們面對大數(shù)據(jù)時,數(shù)據(jù)背后的意義往往可以指導(dǎo)我們更加快速地找到分析大數(shù)據(jù)的捷徑。

在這一節(jié)中,我們雖然費(fèi)了半天勁也沒有真正地解決問題,但是仍然學(xué)到了不少知識,包括神經(jīng)網(wǎng)絡(luò)的工作原理、如何根據(jù)問題的復(fù)雜度選擇隱含層的數(shù)量,以及如何調(diào)整數(shù)據(jù)讓訓(xùn)練速度更快。更重要的是,我們從血淋淋的教訓(xùn)中領(lǐng)教了什么叫作過擬合。

3.3 單車預(yù)測器2.0

接下來,就讓我們踏上正確解決問題的康莊大道。既然我們猜測到利用天氣、風(fēng)速、星期幾、是否是節(jié)假日等信息可以更好地預(yù)測單車使用數(shù)量,而且我們的原始數(shù)據(jù)中就包含了這些信息,那么我們不妨重新設(shè)計一個神經(jīng)網(wǎng)絡(luò),把這些相關(guān)信息都輸入進(jìn)去,從而預(yù)測單車的數(shù)量。

3.3.1 數(shù)據(jù)的預(yù)處理過程

然而,在我們動手設(shè)計神經(jīng)網(wǎng)絡(luò)之前,最好還是再認(rèn)真了解一下數(shù)據(jù),因?yàn)樵鰪?qiáng)對數(shù)據(jù)的了解會起到更重要的作用。

深入觀察圖3.2中的數(shù)據(jù),我們發(fā)現(xiàn),所有的變量可以分成兩種:一種是類型變量,另一種是數(shù)值變量。

所謂的類型變量就是指這個變量可以在幾種不同的類別中取值,例如星期(week)這個變量就有1, 2, 3, …, 0這幾種類型,分別代表星期一、星期二、星期三……星期日這幾天。而天氣情況(weathersit)這個變量可以從1~4中取值。其中,1表示晴天,2表示多云,3表示小雨/雪,4表示大雨/雪。

另一種類型就是數(shù)值類型,這種變量會從一個數(shù)值區(qū)間中連續(xù)取值。例如,濕度(humidity)就是一個從[0, 1]區(qū)間中連續(xù)取值的變量。溫度、風(fēng)速也都是這種類型的變量。

我們不能將不同類型的變量不加任何處理地輸入神經(jīng)網(wǎng)絡(luò),因?yàn)椴煌臄?shù)值代表完全不同的含義。在類型變量中,數(shù)字的大小實(shí)際上沒有任何意義。比如數(shù)字5比數(shù)字1大,但這并不代表周五會比周一更特殊。除此之外,不同的數(shù)值類型變量的變化范圍也都不一樣。如果直接把它們混合在一起,勢必會造成不必要的麻煩。綜合以上考慮,我們需要對兩種變量分別進(jìn)行預(yù)處理。

1. 類型變量的獨(dú)熱編碼

類型變量的大小沒有任何含義,只是為了區(qū)分不同的類型而已。比如季節(jié)這個變量可以等于1、2、3、4,即四季,數(shù)字僅僅是對它們的區(qū)分。我們不能將season變量直接輸入神經(jīng)網(wǎng)絡(luò),因?yàn)閟eason數(shù)值并不表示相應(yīng)的信號強(qiáng)度。我們的解決方案是將類型變量轉(zhuǎn)化為“獨(dú)熱編碼”(one-hot),如表3.1所示。

采用這種編碼后,不同的數(shù)值就轉(zhuǎn)變?yōu)榱瞬煌南蛄?,這些向量的長度都是4,而只有一個位置為1,其他位置都是0。1代表激活,于是獨(dú)熱編碼的向量就對應(yīng)了不同的激活模式。這樣的數(shù)據(jù)更容易被神經(jīng)網(wǎng)絡(luò)處理。更一般地,如果一個類型變量有n個不同的取值,那么我們的獨(dú)熱編碼所對應(yīng)的向量長度就為n。

接下來,我們只需要在數(shù)據(jù)中將某一列類型變量轉(zhuǎn)化為多個列的獨(dú)熱編碼向量,就可以完成這種變量的預(yù)處理過程了,如圖3.18所示。

因此,原來的weekday這個屬性就轉(zhuǎn)變?yōu)?個不同的屬性,數(shù)據(jù)庫一下就增加了6列。

在程序上,pandas可以很容易實(shí)現(xiàn)上面的操作,代碼如下:

dummy_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday'] #所有類型編碼變量的名稱
for each in dummy_fields:
 #取出所有類型變量,并將它們轉(zhuǎn)變?yōu)楠?dú)熱編碼
 dummies = pd.get_dummies(rides[each], prefix=each, drop_first=False)
 #將新的獨(dú)熱編碼變量與原有的所有變量合并到一起
 rides = pd.concat([rides, dummies], axis=1)

#將原來的類型變量從數(shù)據(jù)表中刪除
fields_to_drop = ['instant', 'dteday', 'season', 'weathersit', 'weekday', 'atemp', 'mnth', 'workingday', 
 'hr'] #要刪除的類型變量的名稱
data = rides.drop(fields_to_drop, axis=1) #將它們從數(shù)據(jù)庫的變量中刪除

經(jīng)過這一番處理之后,原本只有17列的數(shù)據(jù)一下子變?yōu)榱?9列,部分?jǐn)?shù)據(jù)片段如圖3.19所示。

** 2. 數(shù)值類型變量的處理**

數(shù)值類型變量的問題在于每個變量的變化范圍都不一樣,單位也不一樣,因此不同的變量就不能進(jìn)行比較。我們采取的解決方法就是對這種變量進(jìn)行標(biāo)準(zhǔn)化處理,也就是用變量的均值和標(biāo)準(zhǔn)差來對該變量做標(biāo)準(zhǔn)化,從而都轉(zhuǎn)變?yōu)閇-1, 1]區(qū)間內(nèi)波動的數(shù)值。比如,對于溫度temp這個變量來說,它在整個數(shù)據(jù)庫中取值的平均值為mean(temp),方差為std(temp),那么,歸一化的溫度計算為:

temp'是一個位于[-1, 1]區(qū)間的數(shù)。這樣做的好處就是可以將不同取值范圍的變量設(shè)置為處于平等的地位。

我們可以用以下代碼來實(shí)現(xiàn)這些變量的標(biāo)準(zhǔn)化處理:

quant_features = ['cnt', 'temp', 'hum', 'windspeed'] #數(shù)值類型變量的名稱
scaled_features = {} #將每一個變量的均值和方差都存儲到scaled_features變量中
for each in quant_features:
 #計算這些變量的均值和方差
 mean, std = data[each].mean(), data[each].std()
 scaled_features[each] = [mean, std]
 #對每一個變量進(jìn)行歸一化
 data.loc[:, each] = (data[each] - mean)/std

** 3. 數(shù)據(jù)集的劃分**

預(yù)處理做完以后,我們的數(shù)據(jù)集包含了17 379條記錄、59個變量。接下來,我們將對這個數(shù)據(jù)集進(jìn)行劃分。

首先,在變量集合上,我們分為了特征和目標(biāo)兩個集合。其中,特征變量集合包括:年份(yr)、是否節(jié)假日(holiday)、溫度(temp)、濕度(hum)、風(fēng)速(windspeed)、季節(jié)1~4(season)、天氣1~4(weathersit,不同天氣種類)、月份1~12(mnth)、小時0~23(hr)和星期0~6(weekday),它們是輸入給神經(jīng)網(wǎng)絡(luò)的變量。目標(biāo)變量包括:用戶數(shù)(cnt)、臨時用戶數(shù)(casual),以及注冊用戶數(shù)(registered)。其中我們僅僅將cnt作為目標(biāo)變量,另外兩個暫時不做任何處理。我們將利用56個特征變量作為神經(jīng)網(wǎng)絡(luò)的輸入,來預(yù)測1個變量作為神經(jīng)網(wǎng)絡(luò)的輸出。

接下來,我們再將17 379條記錄劃分為兩個集合:前16 875條記錄作為訓(xùn)練集,用來訓(xùn)練我們的神經(jīng)網(wǎng)絡(luò);后21天的數(shù)據(jù)(504條記錄)作為測試集,用來檢驗(yàn)?zāi)P偷念A(yù)測效果。這一部分?jǐn)?shù)據(jù)是不參與神經(jīng)網(wǎng)絡(luò)訓(xùn)練的,如圖3.20所示。

數(shù)據(jù)處理代碼如下:

test_data = data[-21*24:] #選出訓(xùn)練集
train_data = data[:-21*24] #選出測試集

#目標(biāo)列包含的字段
target_fields = ['cnt','casual', 'registered'] 

#訓(xùn)練集劃分成特征變量列和目標(biāo)特征列
features, targets = train_data.drop(target_fields, axis=1), train_data[target_fields]

#測試集劃分成特征變量列和目標(biāo)特征列
test_features, test_targets = test_data.drop(target_fields, axis=1), test_data[target_fields]

#將數(shù)據(jù)類型轉(zhuǎn)換為NumPy數(shù)組
X = features.values #將數(shù)據(jù)從pandas dataframe轉(zhuǎn)換為NumPy
Y = targets['cnt'].values
Y = Y.astype(float)

Y = np.reshape(Y, [len(Y),1])
losses = []

3.3.2 構(gòu)建神經(jīng)網(wǎng)絡(luò)

在數(shù)據(jù)處理完畢后,我們將構(gòu)建新的人工神經(jīng)網(wǎng)絡(luò)。這個網(wǎng)絡(luò)有3層:輸入層、隱含層和輸出層。每個層的尺寸(神經(jīng)元個數(shù))分別是56、10和1(如圖3.21所示)。其中,輸入層和輸出層的神經(jīng)元個數(shù)分別由數(shù)據(jù)決定,隱含層神經(jīng)元個數(shù)則根據(jù)我們對數(shù)據(jù)復(fù)雜度的預(yù)估決定。通常,數(shù)據(jù)越復(fù)雜,數(shù)據(jù)量越大,就需要越多的神經(jīng)元。但是神經(jīng)元過多容易造成過擬合。

除了前面講的用手工實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的張量計算完成神經(jīng)網(wǎng)絡(luò)搭建以外,PyTorch還實(shí)現(xiàn)了自動調(diào)用現(xiàn)成的函數(shù)來完成同樣的操作,這樣的代碼更加簡潔,如下所示:

#定義神經(jīng)網(wǎng)絡(luò)架構(gòu),features.shape[1]個輸入層單元,10個隱含層,1個輸出層
input_size = features.shape[1]
hidden_size = 10
output_size = 1
batch_size = 128
neu = torch.nn.Sequential(
 torch.nn.Linear(input_size, hidden_size),
 torch.nn.Sigmoid(),
 torch.nn.Linear(hidden_size, output_size),
)

在這段代碼里,我們可以調(diào)用torch.nn.Sequential()來構(gòu)造神經(jīng)網(wǎng)絡(luò),并存放到neu變量中。torch.nn.Sequential()這個函數(shù)的作用是將一系列的運(yùn)算模塊按順序搭建成一個多層的神經(jīng)網(wǎng)絡(luò)。在本例中,這些模塊包括從輸入層到隱含層的線性映射Linear(input_size, hidden_size)、隱含層的非線性sigmoid函數(shù)torch.nn.Sigmoid(),以及從隱含層到輸出層的線性映射torch.nn.Linear(hidden_size, output_size)。值得注意的是,Sequential里面的層次并不與神經(jīng)網(wǎng)絡(luò)的層次嚴(yán)格對應(yīng),而是指多步的運(yùn)算,它與動態(tài)計算圖的層次相對應(yīng)。

我們也可以使用PyTorch自帶的損失函數(shù):

cost = torch.nn.MSELoss()

這是PyTorch自帶的一個封裝好的計算均方誤差的損失函數(shù),它是一個函數(shù)指針,賦予了變量cost。在計算的時候,我們只需要調(diào)用cost(x,y)就可以計算預(yù)測向量x和目標(biāo)向量y之間的均方誤差。

除此之外,PyTorch還自帶了優(yōu)化器來自動實(shí)現(xiàn)優(yōu)化算法:

optimizer = torch.optim.SGD(neu.parameters(), lr = 0.01)

torch.optim.SGD()調(diào)用了PyTorch自帶的隨機(jī)梯度下降算法(stochastic gradient descent,SGD)作為優(yōu)化器。在初始化optimizer的時候,我們需要待優(yōu)化的所有參數(shù)(在本例中,傳入的參數(shù)包括神經(jīng)網(wǎng)絡(luò)neu包含的所有權(quán)重和偏置,即neu.parameters()),以及執(zhí)行梯度下降算法的學(xué)習(xí)率lr=0.01。在一切材料都準(zhǔn)備好之后,我們便可以實(shí)施訓(xùn)練了。

數(shù)據(jù)的分批處理

然而,在進(jìn)行訓(xùn)練循環(huán)的時候,我們還會遇到一個問題。在前面的例子中,在每一個訓(xùn)練周期,我們都將所有的數(shù)據(jù)一股腦地兒輸入神經(jīng)網(wǎng)絡(luò)。這在數(shù)據(jù)量不大的情況下沒有任何問題。但是,現(xiàn)在的數(shù)據(jù)量是16 875條,在這么大數(shù)據(jù)量的情況下,如果在每個訓(xùn)練周期都處理所有數(shù)據(jù),則會出現(xiàn)運(yùn)算速度過慢、迭代可能不收斂等問題。

解決方法通常是采取批處理(batch processing)的模式,也就是將所有的數(shù)據(jù)記錄劃分成一個批次大小(batch size)的小數(shù)據(jù)集,然后在每個訓(xùn)練周期給神經(jīng)網(wǎng)絡(luò)輸入一批數(shù)據(jù),如圖3.22所示。批量的大小依問題的復(fù)雜度和數(shù)據(jù)量的大小而定,在本例中,我們設(shè)定batch_size=128。

采用分批處理后的訓(xùn)練代碼如下:

#神經(jīng)網(wǎng)絡(luò)訓(xùn)練循環(huán)
losses = []
for i in range(1000):
 #每128個樣本點(diǎn)被劃分為一批,在循環(huán)的時候一批一批地讀取
 batch_loss = []
 #start和end分別是提取一批數(shù)據(jù)的起始和終止下標(biāo)
 for start in range(0, len(X), batch_size):
 end = start + batch_size if start + batch_size < len(X) else len(X)
 xx = Variable(torch.FloatTensor(X[start:end]))
 yy = Variable(torch.FloatTensor(Y[start:end]))
 predict = neu(xx)
 loss = cost(predict, yy)
 optimizer.zero_grad()
 loss.backward()
 optimizer.step()
 batch_loss.append(loss.data.numpy())

 #每隔100步輸出損失值
 if i % 100==0:
 losses.append(np.mean(batch_loss))
 print(i, np.mean(batch_loss))

#打印輸出損失值
plt.plot(np.arange(len(losses))*100,losses)
plt.xlabel('epoch')
plt.ylabel('MSE')

運(yùn)行這段程序,我們便可以訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)了。圖3.23展示的是隨著訓(xùn)練周期的運(yùn)行,損失函數(shù)的下降情況。其中,橫坐標(biāo)表示訓(xùn)練周期,縱坐標(biāo)表示平均誤差??梢钥吹?,平均誤差隨訓(xùn)練周期快速下降。

 

3.3.3 測試神經(jīng)網(wǎng)絡(luò)

接下來,我們便可以用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在測試集上進(jìn)行預(yù)測,并且將后21天的預(yù)測數(shù)據(jù)與真實(shí)數(shù)據(jù)畫在一起進(jìn)行比較。

targets = test_targets['cnt'] #讀取測試集的cnt數(shù)值
targets = targets.values.reshape([len(targets),1]) #將數(shù)據(jù)轉(zhuǎn)換成合適的tensor形式
targets = targets.astype(float) #保證數(shù)據(jù)為實(shí)數(shù)

#將特征變量和目標(biāo)變量包裹在Variable型變量中
x = Variable(torch.FloatTensor(test_features.values))
y = Variable(torch.FloatTensor(targets))

#用神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測
predict = neu(x)
predict = predict.data.numpy()

fig, ax = plt.subplots(figsize = (10, 7))

mean, std = scaled_features['cnt']
ax.plot(predict * std + mean, label='Prediction')
ax.plot(targets * std + mean, label='Data')
ax.legend()
ax.set_xlabel('Date-time')
ax.set_ylabel('Counts')
dates = pd.to_datetime(rides.loc[test_data.index]['dteday'])
dates = dates.apply(lambda d: d.strftime('%b %d'))
ax.set_xticks(np.arange(len(dates))[12::24])
_ = ax.set_xticklabels(dates[12::24], rotation=45)

實(shí)際曲線與預(yù)測曲線的對比如圖3.24所示。其中,橫坐標(biāo)是不同的日期,縱坐標(biāo)是預(yù)測或真實(shí)數(shù)據(jù)的值。虛線為預(yù)測曲線,實(shí)線為實(shí)際數(shù)據(jù)。

可以看到,兩個曲線基本是吻合的,但是在12月25日前后幾天的實(shí)際值和預(yù)測值偏差較大。為什么這段時間的表現(xiàn)這么差呢?

仔細(xì)觀察數(shù)據(jù),我們發(fā)現(xiàn)12月25日正好是圣誕節(jié)。對于歐美國家來說,圣誕節(jié)就相當(dāng)于我們的春節(jié),在圣誕節(jié)假期前后,人們的出行習(xí)慣會與往日有很大的不同。但是,在我們的訓(xùn)練樣本中,因?yàn)檎麄€數(shù)據(jù)僅有兩年的長度,所以包含圣誕節(jié)前后的樣本僅有一次,這就導(dǎo)致我們沒辦法對這一特殊假期的模式進(jìn)行很好的預(yù)測。

3.4 剖析神經(jīng)網(wǎng)絡(luò)Neu

按理說,目前我們的工作已經(jīng)全部完成了。但是,我們還希望對人工神經(jīng)網(wǎng)絡(luò)的工作原理有更加透徹的了解。因此,我們將對這個訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)Neu進(jìn)行剖析,看看它究竟為什么能夠在一些數(shù)據(jù)上表現(xiàn)優(yōu)異,而在另一些數(shù)據(jù)上表現(xiàn)欠佳。

對于我們來說,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的時候發(fā)生了什么完全是黑箱,但是,神經(jīng)網(wǎng)絡(luò)連邊的權(quán)重實(shí)際上就存在于計算機(jī)的存儲中,我們是可以把感興趣的數(shù)據(jù)提取出來分析的。

我們定義了一個函數(shù)feature(),用于提取神經(jīng)網(wǎng)絡(luò)中存儲在連邊和節(jié)點(diǎn)中的所有參數(shù)。代碼如下:

def feature(X, net):
 #定義一個函數(shù),用于提取網(wǎng)絡(luò)的權(quán)重信息,所有的網(wǎng)絡(luò)參數(shù)信息全部存儲在neu的named_parameters集合中
 X = Variable(torch.from_numpy(X).type(torch.FloatTensor), requires_grad = False)
 dic = dict(net.named_parameters()) #提取這個集合
 weights = dic['0.weight'] #可以按照“層數(shù).名稱”來索引集合中的相應(yīng)參數(shù)值
 biases = dic['0.bias'] 
 h = torch.sigmoid(X.mm(weights.t()) + biases.expand([len(X), len(biases)])) #隱含層的計算過程
 return h #輸出層的計算

在這段代碼中,我們用net.named_parameters()命令提取出神經(jīng)網(wǎng)絡(luò)的所有參數(shù),其中包括了每一層的權(quán)重和偏置,并且把它們放到Python字典中。接下來就可以通過如上代碼來提取,例如可以通過dic['0.weight']和dic['0.bias']的方式得到第一層的所有權(quán)重和偏置。此外,我們還可以通過遍歷參數(shù)字典dic獲取所有可提取的參數(shù)名稱。

由于數(shù)據(jù)量較大,我們選取了一部分?jǐn)?shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),并提取出網(wǎng)絡(luò)的激活模式。我們知道,預(yù)測不準(zhǔn)的日期有12月22日、12月23日、12月24日這3天。所以,就將這3天的數(shù)據(jù)聚集到一起,存入subset和subtargets變量中。

bool1 = rides['dteday'] == '2012-12-22'
bool2 = rides['dteday'] == '2012-12-23'
bool3 = rides['dteday'] == '2012-12-24'

#將3個布爾型數(shù)組求與
bools = [any(tup) for tup in zip(bool1,bool2,bool3) ]
#將相應(yīng)的變量取出來
subset = test_features.loc[rides[bools].index]
subtargets = test_targets.loc[rides[bools].index]
subtargets = subtargets['cnt']
subtargets = subtargets.values.reshape([len(subtargets),1])

將這3天的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)中,用前面定義的feature()函數(shù)讀出隱含層神經(jīng)元的激活數(shù)值,存入results中。為了閱讀方便,可以將歸一化輸出的預(yù)測值還原為原始數(shù)據(jù)的數(shù)值范圍。

#將數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,讀取隱含層神經(jīng)元的激活數(shù)值,存入results中
results = feature(subset.values, neu).data.numpy()
#這些數(shù)據(jù)對應(yīng)的預(yù)測值(輸出層)
predict = neu(Variable(torch.FloatTensor(subset.values))).data.numpy()
#將預(yù)測值還原為原始數(shù)據(jù)的數(shù)值范圍
mean, std = scaled_features['cnt']
predict = predict * std + mean
subtargets = subtargets * std + mean

接下來,我們就將隱含層神經(jīng)元的激活情況全部畫出來。同時,為了比較,我們將這些曲線與模型預(yù)測的數(shù)值畫在一起,可視化的結(jié)果如圖3.25所示。

#將所有的神經(jīng)元激活水平畫在同一張圖上
fig, ax = plt.subplots(figsize = (8, 6))
ax.plot(results[:,:],'.:',alpha = 0.1)
ax.plot((predict - min(predict)) / (max(predict) - min(predict)),'bo-',label='Prediction')
ax.plot((subtargets - min(predict)) / (max(predict) - min(predict)),'ro-',label='Real')
ax.plot(results[:, 6],'.:',alpha=1,label='Neuro 7')

ax.set_xlim(right=len(predict))
ax.legend()
plt.ylabel('Normalized Values')

dates = pd.to_datetime(rides.loc[subset.index]['dteday'])
dates = dates.apply(lambda d: d.strftime('%b %d'))
ax.set_xticks(np.arange(len(dates))[12::24])
_ = ax.set_xticklabels(dates[12::24], rotation=45)

圖中方塊曲線是模型的預(yù)測數(shù)值,圓點(diǎn)曲線是真實(shí)的數(shù)值,不同顏色和線型的虛線是每個神經(jīng)元的輸出值??梢园l(fā)現(xiàn),6號神經(jīng)元(Neuro 6)的輸出曲線與真實(shí)輸出曲線比較接近。因此,我們可以認(rèn)為該神經(jīng)元對提高預(yù)測準(zhǔn)確性有更高的貢獻(xiàn)。

同時,我們還想知道Neuro 6神經(jīng)元表現(xiàn)較好的原因以及它的激活是由誰決定的。進(jìn)一步分析它的影響因素,可以知道是從輸入層指向它的權(quán)重,如圖3.26所示。

我們可以通過下列代碼將這些權(quán)重進(jìn)行可視化。

#找到與峰值對應(yīng)的神經(jīng)元,將其到輸入層的權(quán)重輸出
dic = dict(neu.named_parameters())
weights = dic['0.weight']
plt.plot(weights.data.numpy()[6, :],'o-')
plt.xlabel('Input Neurons')
plt.ylabel('Weight')

結(jié)果如圖3.27所示。橫軸代表了不同的權(quán)重,也就是輸入神經(jīng)元的編號;縱軸代表神經(jīng)網(wǎng)絡(luò)訓(xùn)練后的連邊權(quán)重。例如,橫軸的第10個數(shù),對應(yīng)輸入層的第10個神經(jīng)元,對應(yīng)到輸入數(shù)據(jù)中,是檢測天氣類別的類型變量。第32個數(shù),是小時數(shù),也是類型變量,檢測的是早6點(diǎn)這種模式。我們可以理解為,縱軸的值為正就是促進(jìn),值為負(fù)就是抑制。所以,圖中的波峰就是讓該神經(jīng)元激活,波谷就是神經(jīng)元未激活。

我們看到,這條曲線在hr_12, weekday_0,6方面有較高的權(quán)重,這表示神經(jīng)元Neuro 6正在檢測現(xiàn)在的時間點(diǎn)是不是中午12點(diǎn),同時也在檢測今天是不是周日或者周六。如果滿足這些條件,則神經(jīng)元就會被激活。與此相對的是,神經(jīng)元在weathersit_3和hr_6這兩個輸入上的權(quán)重值為負(fù)值,并且剛好是低谷,這意味著該神經(jīng)元會在下雨或下雪,以及早上6點(diǎn)的時候被抑制。通過翻看萬年歷我們知道,2012年的12月22日和23日剛好是周六和周日,因此Neuro 6被激活了,它們對正確預(yù)測這兩天的正午高峰做了貢獻(xiàn)。但是,由于圣誕節(jié)即將到來,人們可能早早回去為圣誕做準(zhǔn)備,因此這個周末比較特殊,并未出現(xiàn)往常周末的大量騎行需求,于是Neuro 6給出的激活值導(dǎo)致了過高的正午單車數(shù)量預(yù)測。

與此類似,我們可以找到導(dǎo)致12月24日早晚高峰過高預(yù)測的原因。我們發(fā)現(xiàn)4號神經(jīng)元起到了主要作用,因?yàn)樗牟▌有螤顒偤酶A(yù)測曲線在24日的早晚高峰負(fù)相關(guān),如圖3.28所示。

同理,這個神經(jīng)元對應(yīng)的權(quán)重及其檢測的模式如圖3.29所示。

這個神經(jīng)元檢測的模式和Neuro 6相似卻相反,它在早晚高峰的時候受到抑制,在節(jié)假日和周末激活。進(jìn)一步考察從隱含層到輸出層的連接,我們發(fā)現(xiàn)Neuro 4的權(quán)重為負(fù)數(shù),但是這個負(fù)值又沒有那么大。所以,這就導(dǎo)致了在12月24日早晚高峰的時候被抑制,但是這個信號抑制的效果并不顯著,無法導(dǎo)致預(yù)測尖峰的出現(xiàn)。

所以,我們分析出神經(jīng)預(yù)測器Neu在這3天預(yù)測不準(zhǔn)的原因是圣誕假期的反常模式。12月24日是圣誕夜,該網(wǎng)絡(luò)對節(jié)假日早晚高峰抑制單元的抑制不夠,所以導(dǎo)致了預(yù)測不準(zhǔn)。如果有更多的訓(xùn)練數(shù)據(jù),我們有可能將4號神經(jīng)元的權(quán)重調(diào)節(jié)得更低,這樣就有可能提高預(yù)測的準(zhǔn)確度。

3.5 小結(jié)

本章我們以預(yù)測某地共享單車數(shù)量的問題作為切入點(diǎn),介紹了人工神經(jīng)網(wǎng)絡(luò)的工作原理。通過調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù),我們可以得到任意形狀的曲線。接著,我們嘗試用具有單輸入、單輸出的神經(jīng)網(wǎng)絡(luò)擬合了共享單車數(shù)據(jù)并嘗試預(yù)測。

但是,預(yù)測的效果卻非常差。經(jīng)過分析,我們發(fā)現(xiàn),由于采用的特征變量為數(shù)據(jù)的編號,而這與單車的數(shù)量沒有任何關(guān)系,完美擬合的假象只不過是一種過擬合的結(jié)果。所以,我們嘗試了新的預(yù)測方式,利用每一條數(shù)據(jù)中的特征變量,包括天氣、風(fēng)速、星期幾、是否是假期、時間點(diǎn)等特征來預(yù)測單車使用數(shù)量,并取得了成功。

在第二次嘗試中,我們還學(xué)會了如何對數(shù)據(jù)進(jìn)行劃分,以及如何用PyTorch自帶的封裝函數(shù)來實(shí)現(xiàn)我們的人工神經(jīng)網(wǎng)絡(luò)、損失函數(shù)以及優(yōu)化器。同時,我們引入了批處理的概念,即將數(shù)據(jù)切分成批,在每一步訓(xùn)練周期中,都用一小批數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并讓它調(diào)整參數(shù)。這種批處理的方法既可以加速程序的運(yùn)行,又讓神經(jīng)網(wǎng)絡(luò)能夠穩(wěn)步地調(diào)節(jié)參數(shù)。

最后,我們對訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行了剖析。了解了人工神經(jīng)元是如何通過監(jiān)測數(shù)據(jù)中的固有模式而在不同條件下激活的。我們也清楚地看到,神經(jīng)網(wǎng)絡(luò)之所以在一些數(shù)據(jù)上工作不好,是因?yàn)樵跀?shù)據(jù)中很難遇到假期這種特殊條件。

3.6 Q&A

本書內(nèi)容源于張江老師在“集智AI學(xué)園”開設(shè)的網(wǎng)絡(luò)課程“火炬上的深度學(xué)習(xí)”,為了幫助讀者快速疏通思路或解決常見的實(shí)踐問題,我們挑選了課程學(xué)員提出的具有代表性的問題,并附上張江老師的解答,組成“Q&A”小節(jié),附于相關(guān)章節(jié)的末尾。如果讀者在閱讀過程中產(chǎn)生了相似的疑問,希望可以從中得到解答。

Q:神經(jīng)元是不是越多越好?

A:當(dāng)然不是越多越好。神經(jīng)網(wǎng)絡(luò)模型的預(yù)測能力不只和神經(jīng)元的個數(shù)有關(guān),還與神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和輸入數(shù)據(jù)有關(guān)。

Q:在預(yù)測共享單車使用量的實(shí)驗(yàn)中,為什么要做梯度清空?

A:如果不清空梯度,backward()函數(shù)是會累加梯度的。我們在進(jìn)行一次訓(xùn)練后,就立即進(jìn)行梯度反傳,所以不需要系統(tǒng)累加梯度。如果不清空梯度,有可能導(dǎo)致模型無法收斂。

Q:對于神經(jīng)網(wǎng)絡(luò)來說,非收斂函數(shù)也可以逼近嗎?

A:在一定的閉區(qū)間里是可以的。因?yàn)樵陂]區(qū)間里,一個函數(shù)不可能無窮發(fā)散,總會有一個界限,那么就可以使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行逼近。對于一個無窮的區(qū)間來說,神經(jīng)網(wǎng)絡(luò)模型就不行了,因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型中用于擬合的神經(jīng)元數(shù)量是有限的。

Q:在預(yù)測共享單車的例子中,模型對圣誕節(jié)期間的單車使用量預(yù)測得不夠準(zhǔn)確。那么是不是可以通過增加訓(xùn)練數(shù)據(jù)的方法提高神經(jīng)網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性?

A:是可行的。如果使用更多的包含圣誕節(jié)期間單車使用情況的訓(xùn)練數(shù)據(jù)訓(xùn)練模型,那么模型對圣誕節(jié)期間的單車使用情況的預(yù)測會更加準(zhǔn)確。

Q:既然預(yù)測共享單車使用量的模型可以被解析和剖析,那么是不是每個神經(jīng)網(wǎng)絡(luò)都可以這樣剖析?

A:這個不一定。因?yàn)轭A(yù)測共享單車使用量的模型結(jié)構(gòu)比較簡單,隱藏層神經(jīng)元只有10個。當(dāng)網(wǎng)絡(luò)模型中神經(jīng)元的個數(shù)較多或者有多層神經(jīng)元的時候,神經(jīng)網(wǎng)絡(luò)模型的某個“決策”會難以歸因到單個神經(jīng)元里。這時就難以用“剖析”的方式來分析神經(jīng)網(wǎng)絡(luò)模型了。

Q:在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的時候,講到了“訓(xùn)練集/測試集=k”,那么比例k是多少才合理,k對預(yù)測的收斂速度和誤差有影響嗎?

A:在數(shù)據(jù)量比較少的情況下,我們一般按照10∶1的比例來選擇測試集;而在數(shù)據(jù)量比較大的情況下,比如,數(shù)據(jù)有十萬條以上,就不一定必須按照比例來劃分訓(xùn)練集和測試集了。

總結(jié)

以上所述是小編給大家介紹的運(yùn)用PyTorch動手搭建一個共享單車預(yù)測器,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
如果你覺得本文對你有幫助,歡迎轉(zhuǎn)載,煩請注明出處,謝謝!

相關(guān)文章

  • wxpython繪制圓角窗體

    wxpython繪制圓角窗體

    這篇文章主要為大家詳細(xì)介紹了wxpython繪制圓角窗體,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-11-11
  • 如何用Python實(shí)現(xiàn)簡單的Markdown轉(zhuǎn)換器

    如何用Python實(shí)現(xiàn)簡單的Markdown轉(zhuǎn)換器

    這篇文章主要介紹了如何用Python實(shí)現(xiàn)簡單的Markdown轉(zhuǎn)換器,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-07-07
  • python中路徑的三種寫法+路徑前符號含義解讀

    python中路徑的三種寫法+路徑前符號含義解讀

    這篇文章主要介紹了python中路徑的三種寫法+路徑前符號含義解讀,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • python 構(gòu)造三維全零數(shù)組的方法

    python 構(gòu)造三維全零數(shù)組的方法

    今天小編就為大家分享一篇python 構(gòu)造三維全零數(shù)組的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • pip如何用pipdeptree查看包依賴

    pip如何用pipdeptree查看包依賴

    這篇文章主要介紹了pip如何用pipdeptree查看包依賴問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-12-12
  • Python彈球小游戲的項(xiàng)目代碼

    Python彈球小游戲的項(xiàng)目代碼

    本文主要介紹了Python彈球小游戲的項(xiàng)目代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • Python基礎(chǔ)之numpy庫的使用

    Python基礎(chǔ)之numpy庫的使用

    這篇文章主要介紹了Python基礎(chǔ)之numpy庫的使用,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python基礎(chǔ)的小伙伴們有非常好的幫助,需要的朋友可以參考下
    2021-04-04
  • ZABBIX3.2使用python腳本實(shí)現(xiàn)監(jiān)控報表的方法

    ZABBIX3.2使用python腳本實(shí)現(xiàn)監(jiān)控報表的方法

    今天小編就為大家分享一篇ZABBIX3.2使用python腳本實(shí)現(xiàn)監(jiān)控報表的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • Pygame實(shí)現(xiàn)小球躲避實(shí)例代碼

    Pygame實(shí)現(xiàn)小球躲避實(shí)例代碼

    大家好,本篇文章主要講的是Pygame實(shí)現(xiàn)小球躲避實(shí)例代碼,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下,方便下次瀏覽
    2021-12-12
  • 詳解python使用Nginx和uWSGI來運(yùn)行Python應(yīng)用

    詳解python使用Nginx和uWSGI來運(yùn)行Python應(yīng)用

    這篇文章主要介紹了詳解python使用Nginx和uWSGI來運(yùn)行Python應(yīng)用,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-01-01

最新評論