運(yùn)用PyTorch動(dòng)手搭建一個(gè)共享單車預(yù)測(cè)器

更新時(shí)間：2019年08月06日 11:48:31 作者：圖靈教育

這篇文章主要介紹了運(yùn)用PyTorch動(dòng)手搭建一個(gè)共享單車預(yù)測(cè)器，本文給大家介紹的非常詳細(xì)，具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

本文摘自 《深度學(xué)習(xí)原理與PyTorch實(shí)戰(zhàn)》

我們將從預(yù)測(cè)某地的共享單車數(shù)量這個(gè)實(shí)際問題出發(fā)，帶領(lǐng)讀者走進(jìn)神經(jīng)網(wǎng)絡(luò)的殿堂，運(yùn)用PyTorch動(dòng)手搭建一個(gè)共享單車預(yù)測(cè)器，在實(shí)戰(zhàn)過程中掌握神經(jīng)元、神經(jīng)網(wǎng)絡(luò)、激活函數(shù)、機(jī)器學(xué)習(xí)等基本概念，以及數(shù)據(jù)預(yù)處理的方法。此外，還會(huì)揭秘神經(jīng)網(wǎng)絡(luò)這個(gè)“黑箱”，看看它如何工作，哪個(gè)神經(jīng)元起到了關(guān)鍵作用，從而讓讀者對(duì)神經(jīng)網(wǎng)絡(luò)的運(yùn)作原理有更深入的了解。

3.1 共享單車的煩惱

大約從2016年起，我們的身邊出現(xiàn)了很多共享單車。五顏六色、各式各樣的共享單車就像炸開花了一樣，遍布城市的大街小巷。

共享單車在給人們帶來便利的同時(shí)，也存在一個(gè)麻煩的問題：?jiǎn)诬嚨姆植己懿痪鶆?。比如在早高峰的時(shí)候，一些地鐵口往往聚集著大量的單車，而到了晚高峰卻很難找到一輛單車了，這就給需要使用共享單車的人造成了不便。

那么如何解決共享單車分布不均勻的問題呢？目前的方式是，共享單車公司會(huì)雇用一些工人來搬運(yùn)單車，把它們運(yùn)送到需要單車的區(qū)域。但問題是應(yīng)該運(yùn)多少單車？什么時(shí)候運(yùn)？運(yùn)到什么地方呢？這就需要準(zhǔn)確地知道共享單車在整個(gè)城市不同地點(diǎn)的數(shù)量分布情況，而且需要提前做出安排，因?yàn)楣と诉\(yùn)送單車還有一定的延遲性。這對(duì)于共享單車公司來說是一個(gè)非常嚴(yán)峻的挑戰(zhàn)。

為了更加科學(xué)有效地解決這個(gè)問題，我們需要構(gòu)造一個(gè)單車數(shù)量的預(yù)測(cè)器，用來預(yù)測(cè)某一時(shí)間、某一停放區(qū)域的單車數(shù)量，供共享單車公司參考，以實(shí)現(xiàn)對(duì)單車的合理投放。

巧婦難為無米之炊。要構(gòu)建這樣的單車預(yù)測(cè)器，就需要一定的共享單車數(shù)據(jù)。為了避免商業(yè)糾紛，也為了讓本書的開發(fā)和講解更方便，本例將會(huì)使用一個(gè)國(guó)外的共享單車公開數(shù)據(jù)集（Capital Bikeshare）來完成我們的任務(wù)，數(shù)據(jù)集下載鏈接：

www.capitalbikeshare.com/ system-data 。

下載數(shù)據(jù)集之后，我們可以用一般的表處理軟件或者文本編輯器直接打開，如圖3.1所示。

該數(shù)據(jù)是從2011年1月1日到2012年12月31日之間某地的單車使用情況，每一行都代表一條數(shù)據(jù)記錄，共17 379條。一條數(shù)據(jù)記錄了一個(gè)小時(shí)內(nèi)某一個(gè)地點(diǎn)的星期幾、是否是假期、天氣和風(fēng)速等情況，以及該地區(qū)的單車使用量（用cnt變量記載），它是我們最關(guān)心的量。

我們可以截取一段時(shí)間的數(shù)據(jù)，將cnt隨時(shí)間的變化關(guān)系繪制成圖。圖3.2是2011年1月1日到1月10日的數(shù)據(jù)。橫坐標(biāo)是時(shí)間，縱坐標(biāo)是單車的數(shù)量。單車數(shù)量隨時(shí)間波動(dòng)，并且呈現(xiàn)一定的規(guī)律性。不難看出，工作日的單車數(shù)量高峰遠(yuǎn)高于周末的。

我們要解決的問題就是，能否根據(jù)歷史數(shù)據(jù)預(yù)測(cè)接下來一段時(shí)間該地區(qū)單車數(shù)量的走勢(shì)情況呢？在本章中，我們將學(xué)習(xí)如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)單車數(shù)量。對(duì)于這一問題，我們并不是一下子提供一套完美的解決方案，而是通過循序漸進(jìn)的方式，嘗試不同的解決方案。結(jié)合這一問題，我們將主要講解什么是人工神經(jīng)元、什么是神經(jīng)網(wǎng)絡(luò)、如何根據(jù)需要搭建一個(gè)神經(jīng)網(wǎng)絡(luò)，以及什么是過擬合，如何解決過擬合問題，等等。除此之外，我們還將學(xué)到如何對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行解剖，從而理解其工作原理以及與數(shù)據(jù)的對(duì)應(yīng)。

3.2 單車預(yù)測(cè)器1.0

本節(jié)將做出一個(gè)單車預(yù)測(cè)器，它是一個(gè)單一隱含單元的神經(jīng)網(wǎng)絡(luò)。我們將訓(xùn)練它學(xué)會(huì)擬合共享單車的波動(dòng)曲線。

不過，在設(shè)計(jì)單車預(yù)測(cè)器之前，我們有必要了解一下人工神經(jīng)網(wǎng)絡(luò)的概念和工作原理。

3.2.1 人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

人工神經(jīng)網(wǎng)絡(luò)（簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)）是一種受人腦的生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而設(shè)計(jì)的計(jì)算模型。人工神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)從輸入的數(shù)據(jù)和標(biāo)簽中學(xué)習(xí)到映射關(guān)系，從而完成預(yù)測(cè)或者解決分類問題。人工神經(jīng)網(wǎng)絡(luò)也被稱為通用擬合器，這是因?yàn)樗梢詳M合任意的函數(shù)或映射。

前饋神經(jīng)網(wǎng)絡(luò)是我們最常用的一種網(wǎng)絡(luò)，它一般包括3層人工神經(jīng)單元，即輸入層、隱含層和輸出層，如圖3.3所示。其中，隱含層可以包含多層，這就構(gòu)成了所謂的深度神經(jīng)網(wǎng)絡(luò)。

圖中的每一個(gè)圓圈代表一個(gè)人工神經(jīng)元，連線代表人工突觸，它將兩個(gè)神經(jīng)元聯(lián)系了起來。每條連邊上都包含一個(gè)數(shù)值，叫作權(quán)重，我們通常用w來表示。

神經(jīng)網(wǎng)絡(luò)的運(yùn)行通常包含前饋的預(yù)測(cè)過程（或稱為決策過程）和反饋的學(xué)習(xí)過程。

在前饋的預(yù)測(cè)過程中，信號(hào)從輸入單元輸入，并沿著網(wǎng)絡(luò)連邊傳輸，每個(gè)信號(hào)會(huì)與連邊上的權(quán)重進(jìn)行乘積，從而得到隱含層單元的輸入；接下來，隱含層單元對(duì)所有連邊輸入的信號(hào)進(jìn)行匯總（求和），然后經(jīng)過一定的處理（具體處理過程將在下節(jié)講述）進(jìn)行輸出；這些輸出的信號(hào)再乘以從隱含層到輸出的那組連線上的權(quán)重，從而得到輸入給輸出單元的信號(hào)；最后，輸出單元再對(duì)每一條輸入連邊的信號(hào)進(jìn)行匯總，并進(jìn)行加工處理再輸出。最后的輸出就是整個(gè)神經(jīng)網(wǎng)絡(luò)的輸出。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練階段將會(huì)調(diào)節(jié)每條連邊上的權(quán)重w數(shù)值。

在反饋的學(xué)習(xí)過程中，每個(gè)輸出神經(jīng)元會(huì)首先計(jì)算出它的預(yù)測(cè)誤差，然后將這個(gè)誤差沿著網(wǎng)絡(luò)的所有連邊進(jìn)行反向傳播，得到每個(gè)隱含層節(jié)點(diǎn)的誤差。最后，根據(jù)每條連邊所連通的兩個(gè)節(jié)點(diǎn)的誤差計(jì)算連邊上的權(quán)重更新量，從而完成網(wǎng)絡(luò)的學(xué)習(xí)與調(diào)整。

下面，我們就從人工神經(jīng)元開始詳細(xì)講述神經(jīng)網(wǎng)絡(luò)的工作過程。

3.2.2 人工神經(jīng)元

人工神經(jīng)網(wǎng)絡(luò)類似于生物神經(jīng)網(wǎng)絡(luò)，由人工神經(jīng)元（簡(jiǎn)稱神經(jīng)元）構(gòu)成。神經(jīng)元用簡(jiǎn)單的數(shù)學(xué)模型來模擬生物神經(jīng)細(xì)胞的信號(hào)傳遞與激活。為了理解人工神經(jīng)網(wǎng)絡(luò)的運(yùn)作原理，我們先來看一個(gè)最簡(jiǎn)單的情形：?jiǎn)紊窠?jīng)元模型。如圖3.4所示，它只有一個(gè)輸入層單元、一個(gè)隱含層單元和一個(gè)輸出層單元。

x表示輸入的數(shù)據(jù)，y表示輸出的數(shù)據(jù)，它們都是實(shí)數(shù)。從輸入單元到隱含層的權(quán)重w、隱含層單元偏置b、隱含層到輸出層的權(quán)重w'都是可以任意取值的實(shí)數(shù)。

我們可以將這個(gè)最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)看成一個(gè)從x映射到y(tǒng)的函數(shù)，而w、b和w'是該函數(shù)的參數(shù)。該函數(shù)的方程如圖3.5中的方程式所示，其中σ表示sigmoid函數(shù)。當(dāng)w=1，w'=1，b=0的時(shí)候，這個(gè)函數(shù)的圖形如圖3.5所示。

這就是sigmoid函數(shù)的形狀及σ(x)的數(shù)學(xué)表達(dá)式。通過觀察該曲線，我們不難發(fā)現(xiàn)，當(dāng)x小于0的時(shí)候，σ(x)都是小于1/2的，而且x越小，σ(x)越接近于0；當(dāng)x大于0的時(shí)候，σ(x)都是大于1/2的，而且x越大，σ(x)越接近于1。在x=0的點(diǎn)附近存在著一個(gè)從0到1的突變。

當(dāng)我們變換w、b和w'這些參數(shù)的時(shí)候，函數(shù)的圖形也會(huì)發(fā)生相應(yīng)的改變。例如，我們不妨保持 w'=1， b=0不變，而變換w的大小，其函數(shù)圖形的變化如圖3.6所示。

由此可見，當(dāng)w>0的時(shí)候，它的大小控制著函數(shù)的彎曲程度，w越大，它在0點(diǎn)附近的彎曲程度就會(huì)越大，因此從x=0的突變也就越劇烈；當(dāng)w<0的時(shí)候，曲線發(fā)生了左右翻轉(zhuǎn)，它會(huì)從1突變到0。

再來看看參數(shù)b對(duì)曲線的影響，保持w=w'=1不變，如圖3.7所示。

可以清晰地看到，b控制著sigmoid函數(shù)曲線的水平位置。b>0，函數(shù)圖形往左平移；反之往右平移。最后，讓我們看看w'如何影響該曲線，如圖3.8所示。

不難看出，當(dāng)w' > 0的時(shí)候，w'控制著曲線的高矮；當(dāng)w' < 0的時(shí)候，曲線的方向發(fā)生上下顛倒。

可見，通過控制w、w'和b這3個(gè)參數(shù)，我們可以任意調(diào)節(jié)從輸入x到輸出y的函數(shù)形狀。但是，無論如何調(diào)節(jié)，這條曲線永遠(yuǎn)都是S形（包括倒S形）的。要想得到更加復(fù)雜的函數(shù)圖像，我們需要引入更多的神經(jīng)元。

3.2.3 兩個(gè)隱含層神經(jīng)元

下面我們把模型做得更復(fù)雜一些，看看兩個(gè)隱含層神經(jīng)元會(huì)對(duì)曲線有什么影響，如圖3.9所示。

輸入信號(hào)進(jìn)入網(wǎng)絡(luò)之后就會(huì)兵分兩路，一路從左側(cè)進(jìn)入第一個(gè)神經(jīng)元，另一路從右側(cè)進(jìn)入第二個(gè)神經(jīng)元。這兩個(gè)神經(jīng)元分別完成計(jì)算，并通過w'1和w'2進(jìn)行加權(quán)求和得到y(tǒng)。所以，輸出y實(shí)際上就是兩個(gè)神經(jīng)元的疊加。這個(gè)網(wǎng)絡(luò)仍然是一個(gè)將x映射到y(tǒng)的函數(shù)，函數(shù)方程為：

在這個(gè)公式中，有w1, w2, w'1, w'2, b1, b2這樣6個(gè)不同的參數(shù)。它們的組合也會(huì)對(duì)曲線的形狀有影響。

例如，我們可以取w1=w2=w'1=w'2=1，b1=-1，b2=0，則該函數(shù)的曲線形狀如圖3.10所示。

由此可見，合成的函數(shù)圖形變?yōu)榱艘粋€(gè)具有兩個(gè)階梯的曲線。

讓我們?cè)賮砜匆粋€(gè)參數(shù)組合，w1=w2=1，b1=0，b2=-1，w'1=1，w'2=-1，則函數(shù)圖形如圖3.11所示。

由此可見，我們合成了一個(gè)具有單一波峰的曲線，有點(diǎn)類似于正態(tài)分布的鐘形曲線。一般地，只要變換參數(shù)組合，我們就可以用兩個(gè)隱含層神經(jīng)元擬合出任意具有單峰的曲線。

那么，如果有4個(gè)或者6個(gè)甚至更多的隱含層神經(jīng)元，不難想象，就可以得到具有雙峰、三峰和任意多個(gè)峰的曲線，我們可以粗略地認(rèn)為兩個(gè)神經(jīng)元可以用來逼近一個(gè)波峰（波谷）。事實(shí)上，對(duì)于更一般的情形，科學(xué)家早已從理論上證明，用有限多的隱含層神經(jīng)元可以逼近任意的有限區(qū)間內(nèi)的曲線，這叫作通用逼近定理（universal approximation theorem）。

3.2.4 訓(xùn)練與運(yùn)行

在前面的討論中，我們看到，只要能夠調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)中各個(gè)參數(shù)的組合，就能得到任意想要的曲線?？蓡栴}是，我們應(yīng)該如何選取這些參數(shù)呢？答案就在于訓(xùn)練。

要想完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，首先要給這個(gè)神經(jīng)網(wǎng)絡(luò)定義一個(gè)損失函數(shù)，用來衡量網(wǎng)絡(luò)在現(xiàn)有的參數(shù)組合下輸出表現(xiàn)的好壞。這就類似于第2章利用線性回歸預(yù)測(cè)房?jī)r(jià)中的總誤差函數(shù)（即擬合直線與所有點(diǎn)距離的平方和）L。同樣地，在單車預(yù)測(cè)的例子中，我們也可以將損失函數(shù)定義為對(duì)于所有的數(shù)據(jù)樣本，神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的單車數(shù)量與實(shí)際數(shù)據(jù)中單車數(shù)量之差的平方和的均值，即：

這里，N為樣本總量，

為神經(jīng)網(wǎng)絡(luò)計(jì)算得來的預(yù)測(cè)單車數(shù)，

為實(shí)際數(shù)據(jù)中該時(shí)刻該地區(qū)的單車數(shù)。

有了這個(gè)損失函數(shù)L，我們就有了調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)的方向——盡可能地讓L最小化。因此，神經(jīng)網(wǎng)絡(luò)要學(xué)習(xí)的就是神經(jīng)元之間連邊上的權(quán)重及偏置，學(xué)習(xí)的目的是得到一組能夠使總誤差最小的參數(shù)值組合。

這是一個(gè)求極值的優(yōu)化問題，高等數(shù)學(xué)告訴我們，只需要令導(dǎo)數(shù)為零就可以求得。然而，由于神經(jīng)網(wǎng)絡(luò)一般非常復(fù)雜，包含大量非線性運(yùn)算，直接用數(shù)學(xué)求導(dǎo)數(shù)的方法行不通，所以，我們一般使用數(shù)值的方式來進(jìn)行求解，也就是梯度下降算法。每次迭代都向梯度的負(fù)方向前進(jìn)，使得誤差值逐步減小。參數(shù)的更新要用到反向傳播算法，將損失函數(shù)L沿著網(wǎng)絡(luò)一層一層地反向傳播，來修正每一層的參數(shù)。我們?cè)谶@里不會(huì)詳細(xì)介紹反向傳播算法，因?yàn)镻yTorch已經(jīng)自動(dòng)將這個(gè)復(fù)雜的算法變成了一個(gè)簡(jiǎn)單的命令：backward。只要調(diào)用該命令，PyTorch就會(huì)自動(dòng)執(zhí)行反向傳播算法，計(jì)算出每一個(gè)參數(shù)的梯度，我們只需要根據(jù)這些梯度更新參數(shù)，就可以完成一步學(xué)習(xí)。

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和運(yùn)行通常是交替進(jìn)行的。也就是說，在每一個(gè)周期，神經(jīng)網(wǎng)絡(luò)都會(huì)進(jìn)行前饋運(yùn)算，從輸入端運(yùn)算到輸出端；然后，根據(jù)輸出端的損失值來進(jìn)行反向傳播算法，從而調(diào)整神經(jīng)網(wǎng)絡(luò)上的各個(gè)參數(shù)。不停地重復(fù)這兩個(gè)步驟，就可以令神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得越來越好。

3.2.5 失敗的神經(jīng)預(yù)測(cè)器

在弄清楚了神經(jīng)網(wǎng)絡(luò)的工作原理之后，下面我們來看看如何用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)共享單車的曲線。我們希望仿照預(yù)測(cè)房?jī)r(jià)的做法，利用人工神經(jīng)網(wǎng)絡(luò)來擬合一個(gè)時(shí)間段內(nèi)的單車曲線，并給出在未來時(shí)間點(diǎn)單車使用量的曲線。

為了讓演示更加簡(jiǎn)單清晰，我們僅選擇了數(shù)據(jù)中的前50條記錄，繪制成如圖3.12所示的曲線。在這條曲線中，橫坐標(biāo)是數(shù)據(jù)記錄的編號(hào)，縱坐標(biāo)則是對(duì)應(yīng)的單車數(shù)量。

接下來，我們就要設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)，它的輸入x就是數(shù)據(jù)編號(hào)，輸出則是對(duì)應(yīng)的單車數(shù)量。通過觀察這條曲線，我們發(fā)現(xiàn)它至少有3個(gè)峰，采用10個(gè)隱含層單元就足以保證擬合這條曲線了。因此，我們的人工神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3.13所示。

接下來，我們就要?jiǎng)邮謱懗绦驅(qū)崿F(xiàn)這個(gè)網(wǎng)絡(luò)。首先導(dǎo)入本程序所使用的所有依賴庫。這里我們會(huì)用到pandas庫來讀取和操作數(shù)據(jù)。讀者需要先安裝這個(gè)程序包，在Anaconda環(huán)境下運(yùn)行conda install pandas即可。

import numpy as np
import pandas as pd #讀取csv文件的庫
import torch
from torch.autograd import Variable
import torch.optim as optim
import matplotlib.pyplot as plt
#讓輸出圖形直接在Notebook中顯示
%matplotlib inline

接著，要從硬盤文件中導(dǎo)入想要的數(shù)據(jù)。

data_path = 'hour.csv' #讀取數(shù)據(jù)到內(nèi)存，rides為一個(gè)dataframe對(duì)象
rides = pd.read_csv(data_path)
rides.head() #輸出部分?jǐn)?shù)據(jù)
counts = rides['cnt'][:50] #截取數(shù)據(jù)
x = np.arange(len(counts)) #獲取變量x
y = np.array(counts) #單車數(shù)量為y
plt.figure(figsize = (10, 7)) #設(shè)定繪圖窗口大小
plt.plot(x, y, 'o-') #繪制原始數(shù)據(jù)
plt.xlabel('X') #更改坐標(biāo)軸標(biāo)注
plt.ylabel('Y') #更改坐標(biāo)軸標(biāo)注

在這里，我們使用了pandas庫，從csv文件中快速導(dǎo)入數(shù)據(jù)存儲(chǔ)到rides里面。rides可以按照二維表的形式存儲(chǔ)數(shù)據(jù)，并可以像訪問數(shù)組一樣對(duì)其進(jìn)行訪問和操作。rides.head()的作用是打印輸出部分?jǐn)?shù)據(jù)記錄。

之后，我們從rides的所有記錄中選出前50條，并只篩選出了cnt字段放入counts數(shù)組中。這個(gè)數(shù)組就存儲(chǔ)了前50條自行車使用數(shù)量記錄。接著，我們將前50條記錄的圖畫出來，即圖3.13所示的效果。

準(zhǔn)備好了數(shù)據(jù)，我們就可以用PyTorch來搭建人工神經(jīng)網(wǎng)絡(luò)了。與第2章的線性回歸例子類似，我們首先需要定義一系列的變量，包括所有連邊的權(quán)重和偏置，并通過這些變量的運(yùn)算讓PyTorch自動(dòng)生成計(jì)算圖。

#輸入變量，1,2,3,...這樣的一維數(shù)組
x = Variable(torch.FloatTensor(np.arange(len(counts), dtype = float))) 
#輸出變量，它是從數(shù)據(jù)counts中讀取的每一時(shí)刻的單車數(shù)，共50個(gè)數(shù)據(jù)點(diǎn)的一維數(shù)組，作為標(biāo)準(zhǔn)答案
y = Variable(torch.FloatTensor(np.array(counts, dtype = float))) 

sz = 10 #設(shè)置隱含層神經(jīng)元的數(shù)量
#初始化輸入層到隱含層的權(quán)重矩陣，它的尺寸是(1,10)
weights = Variable(torch.randn(1, sz), requires_grad = True) 
#初始化隱含層節(jié)點(diǎn)的偏置向量，它是尺寸為10的一維向量
biases = Variable(torch.randn(sz), requires_grad = True) 
#初始化從隱含層到輸出層的權(quán)重矩陣，它的尺寸是(10,1)
weights2 = Variable(torch.randn(sz, 1), requires_grad = True)

設(shè)置好變量和神經(jīng)網(wǎng)絡(luò)的初始參數(shù)，接下來就要迭代地訓(xùn)練這個(gè)神經(jīng)網(wǎng)絡(luò)了。

learning_rate = 0.0001 #設(shè)置學(xué)習(xí)率
losses = [] #該數(shù)組記錄每一次迭代的損失函數(shù)值，以方便后續(xù)繪圖
for i in range(1000000):
 #從輸入層到隱含層的計(jì)算
 hidden = x.expand(sz, len(x)).t() * weights.expand(len(x), sz) + biases.expand(len(x), sz)
 #此時(shí)，hidden變量的尺寸是：(50,10)，即50個(gè)數(shù)據(jù)點(diǎn)，10個(gè)隱含層神經(jīng)元

 #將sigmoid函數(shù)作用在隱含層的每一個(gè)神經(jīng)元上
 hidden = torch.sigmoid(hidden)
 #隱含層輸出到輸出層，計(jì)算得到最終預(yù)測(cè)
 predictions = hidden.mm(weights2)
 #此時(shí)，predictions的尺寸為：(50,1)，即50個(gè)數(shù)據(jù)點(diǎn)的預(yù)測(cè)數(shù)值
 #通過與數(shù)據(jù)中的標(biāo)準(zhǔn)答案y做比較，計(jì)算均方誤差
 loss = torch.mean((predictions - y) ** 2) 
 #此時(shí)，loss為一個(gè)標(biāo)量，即一個(gè)數(shù)
 losses.append(loss.data.numpy())

 if i % 10000 == 0: #每隔10000個(gè)周期打印一下?lián)p失函數(shù)數(shù)值
 print('loss:', loss)

 #*****************************************
 #接下來開始梯度下降算法，將誤差反向傳播
 loss.backward() #對(duì)損失函數(shù)進(jìn)行梯度反傳

 #利用上一步計(jì)算中得到的weights，biases等梯度信息更新weights或biases的數(shù)值
 weights.data.add_(- learning_rate * weights.grad.data) 
 biases.data.add_(- learning_rate * biases.grad.data)
 weights2.data.add_(- learning_rate * weights2.grad.data)

 #清空所有變量的梯度值
 weights.grad.data.zero_()
 biases.grad.data.zero_()
 weights2.grad.data.zero_()

在上面這段代碼中，我們進(jìn)行了100 000步訓(xùn)練迭代。在每一次迭代中，我們都將50個(gè)數(shù)據(jù)點(diǎn)的x作為數(shù)組全部輸入神經(jīng)網(wǎng)絡(luò)，并讓神經(jīng)網(wǎng)絡(luò)按照從輸入層到隱含層、再從隱含層到輸出層的步驟，一步步完成計(jì)算，最終輸出對(duì)50個(gè)數(shù)據(jù)點(diǎn)的預(yù)測(cè)數(shù)組prediction。

之后，計(jì)算prediction和標(biāo)準(zhǔn)答案y之間的誤差，并計(jì)算出所有50個(gè)數(shù)據(jù)點(diǎn)的平均誤差值loss，這就是我們前面提到的損失函數(shù)L。接著，調(diào)用loss.backward()完成誤差順著神經(jīng)網(wǎng)絡(luò)的反向傳播過程，從而計(jì)算出計(jì)算圖上每一個(gè)葉節(jié)點(diǎn)的梯度更新數(shù)值，并記錄在每個(gè)變量的.grad屬性中。最后，我們用這個(gè)梯度數(shù)值來更新每個(gè)參數(shù)的數(shù)值，從而完成了一步迭代。

仔細(xì)對(duì)比這段代碼和第2章中的線性回歸代碼就會(huì)發(fā)現(xiàn)，除了中間的運(yùn)算過程和損失函數(shù)有所不同外，其他的操作全部相同。事實(shí)上，在本書中，幾乎所有的機(jī)器學(xué)習(xí)案例都采用了這樣的步驟，即前饋運(yùn)算、反向傳播計(jì)算梯度、根據(jù)梯度更新參數(shù)數(shù)值。

我們可以打印出Loss隨著一步步的迭代下降的曲線，這可以幫助我們直觀地看到神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程，如圖3.14所示。

plt.plot(losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')

由該曲線可以看出，隨著時(shí)間的推移，神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的誤差的確在一步步減小。而且，大約到20 000步后，誤差基本就不會(huì)呈現(xiàn)明顯的下降了。

接下來，我們可以把訓(xùn)練好的網(wǎng)絡(luò)在這50個(gè)數(shù)據(jù)點(diǎn)上的預(yù)測(cè)曲線繪制出來，并與標(biāo)準(zhǔn)答案y進(jìn)行對(duì)比，代碼如下：

x_data = x.data.numpy() #獲得x包裹的數(shù)據(jù)
plt.figure(figsize = (10, 7)) #設(shè)定繪圖窗口大小
xplot, = plt.plot(x_data, y.data.numpy(), 'o') #繪制原始數(shù)據(jù)
yplot, = plt.plot(x_data, predictions.data.numpy()) #繪制擬合數(shù)據(jù)
plt.xlabel('X') #更改坐標(biāo)軸標(biāo)注
plt.ylabel('Y') #更改坐標(biāo)軸標(biāo)注
plt.legend([xplot, yplot],['Data', 'Prediction under 1000000 epochs']) #繪制圖例
plt.show()

最后的可視化圖形如圖3.15所示。

可以看到，我們的預(yù)測(cè)曲線在第一個(gè)波峰比較好地?cái)M合了數(shù)據(jù)，但是在此后，它卻與真實(shí)數(shù)據(jù)相差甚遠(yuǎn)。這是為什么呢？

我們知道，x的取值范圍是1~50，而所有權(quán)重和偏置的初始值都是被設(shè)定在(-1, 1)的正態(tài)分布隨機(jī)數(shù)，那么輸入層到隱含層節(jié)點(diǎn)的數(shù)值范圍就成了-50~50，要想將sigmoid函數(shù)的多個(gè)峰值調(diào)節(jié)到我們期望的位置需要耗費(fèi)很多計(jì)算時(shí)間。事實(shí)上，如果讓訓(xùn)練時(shí)間更長(zhǎng)些，我們可以將曲線后面的部分?jǐn)M合得很好。

這個(gè)問題的解決方法是將輸入數(shù)據(jù)的范圍做歸一化處理，也就是讓x的輸入數(shù)值范圍為0~1。因?yàn)閿?shù)據(jù)中x的范圍是1~50，所以，我們只需要將每一個(gè)數(shù)值都除以50就可以了：

x = Variable(torch.FloatTensor(np.arange(len(counts), dtype = float) / len(counts)))

該操作會(huì)使x的取值范圍變?yōu)?.02, 0.04, …, 1。做了這些改進(jìn)后再來運(yùn)行程序，可以看到這次訓(xùn)練速度明顯加快，可視化后的擬合效果也更好了，如圖3.16所示。

我們看到，改進(jìn)后的模型出現(xiàn)了兩個(gè)波峰，也非常好地?cái)M合了這些數(shù)據(jù)點(diǎn)，形成一條優(yōu)美的曲線。

接下來，我們就需要用訓(xùn)練好的模型來做預(yù)測(cè)了。我們的預(yù)測(cè)任務(wù)是后面50條數(shù)據(jù)的單車數(shù)量。此時(shí)的x取值是51, 52, …, 100，同樣也要除以50。

counts_predict = rides['cnt'][50:100] #讀取待預(yù)測(cè)的后面50個(gè)數(shù)據(jù)點(diǎn)
x = Variable(torch.FloatTensor((np.arange(len(counts_predict), dtype = float) + len(counts)) / len(counts)))
#讀取后面50個(gè)點(diǎn)的y數(shù)值，不需要做歸一化
y = Variable(torch.FloatTensor(np.array(counts_predict, dtype = float))) 

#用x預(yù)測(cè)y
hidden = x.expand(sz, len(x)).t() * weights.expand(len(x), sz) #從輸入層到隱含層的計(jì)算
hidden = torch.sigmoid(hidden) #將sigmoid函數(shù)作用在隱含層的每一個(gè)神經(jīng)元上
predictions = hidden.mm(weights2) #從隱含層輸出到輸出層，計(jì)算得到最終預(yù)測(cè)
loss = torch.mean((predictions - y) ** 2) #計(jì)算預(yù)測(cè)數(shù)據(jù)上的損失函數(shù)
print(loss)

#將預(yù)測(cè)曲線繪制出來
x_data = x.data.numpy() #獲得x包裹的數(shù)據(jù)
plt.figure(figsize = (10, 7)) #設(shè)定繪圖窗口大小
xplot, = plt.plot(x_data, y.data.numpy(), 'o') #繪制原始數(shù)據(jù)
yplot, = plt.plot(x_data, predictions.data.numpy()) #繪制擬合數(shù)據(jù)
plt.xlabel('X') #更改坐標(biāo)軸標(biāo)注
plt.ylabel('Y') #更改坐標(biāo)軸標(biāo)注
plt.legend([xplot, yplot],['Data', 'Prediction']) #繪制圖例
plt.show()

最終，我們得到了如圖3.17所示的曲線。直線是我們的模型給出的預(yù)測(cè)曲線，圓點(diǎn)是實(shí)際數(shù)據(jù)所對(duì)應(yīng)的曲線。模型預(yù)測(cè)與實(shí)際數(shù)據(jù)竟然完全對(duì)不上！

為什么我們的神經(jīng)網(wǎng)絡(luò)可以非常好地?cái)M合已知的50個(gè)數(shù)據(jù)點(diǎn)，卻完全不能預(yù)測(cè)出更多的數(shù)據(jù)點(diǎn)呢？原因就在于：過擬合。

3.2.6 過擬合

所謂過擬合（over fitting）現(xiàn)象就是指模型可以在訓(xùn)練數(shù)據(jù)上進(jìn)行非常好的預(yù)測(cè)，但在全新的測(cè)試數(shù)據(jù)中卻得不到好的表現(xiàn)。在這個(gè)例子中，訓(xùn)練數(shù)據(jù)就是前50個(gè)數(shù)據(jù)點(diǎn)，測(cè)試數(shù)據(jù)就是后面的50個(gè)數(shù)據(jù)點(diǎn)。我們的模型可以通過調(diào)節(jié)參數(shù)順利地?cái)M合訓(xùn)練數(shù)據(jù)的曲線，但是這種刻意適合完全沒有推廣價(jià)值，導(dǎo)致這條擬合曲線與測(cè)試數(shù)據(jù)的標(biāo)準(zhǔn)答案相差甚遠(yuǎn)。我們的神經(jīng)網(wǎng)絡(luò)模型并沒有學(xué)習(xí)到數(shù)據(jù)中的模式。

那我們的神經(jīng)網(wǎng)絡(luò)為什么不能學(xué)習(xí)到曲線中的模式呢？原因就在于我們選擇了錯(cuò)誤的特征變量：我們嘗試用數(shù)據(jù)的下標(biāo)（1, 2, 3, …）或者它的歸一化（0.1, 0.2, …）來對(duì)y進(jìn)行預(yù)測(cè)。然而曲線的波動(dòng)模式（也就是單車的使用數(shù)量）顯然并不依賴于下標(biāo)，而是依賴于諸如天氣、風(fēng)速、星期幾和是否節(jié)假日等因素。然而，我們不管三七二十一，硬要用強(qiáng)大的人工神經(jīng)網(wǎng)絡(luò)來擬合整條曲線，這自然就導(dǎo)致了過擬合的現(xiàn)象，而且是非常嚴(yán)重的過擬合。

由這個(gè)例子可以看出，一味地追求人工智能技術(shù)，而不考慮實(shí)際問題的背景，很容易讓我們走彎路。當(dāng)我們面對(duì)大數(shù)據(jù)時(shí)，數(shù)據(jù)背后的意義往往可以指導(dǎo)我們更加快速地找到分析大數(shù)據(jù)的捷徑。

在這一節(jié)中，我們雖然費(fèi)了半天勁也沒有真正地解決問題，但是仍然學(xué)到了不少知識(shí)，包括神經(jīng)網(wǎng)絡(luò)的工作原理、如何根據(jù)問題的復(fù)雜度選擇隱含層的數(shù)量，以及如何調(diào)整數(shù)據(jù)讓訓(xùn)練速度更快。更重要的是，我們從血淋淋的教訓(xùn)中領(lǐng)教了什么叫作過擬合。

3.3 單車預(yù)測(cè)器2.0

接下來，就讓我們踏上正確解決問題的康莊大道。既然我們猜測(cè)到利用天氣、風(fēng)速、星期幾、是否是節(jié)假日等信息可以更好地預(yù)測(cè)單車使用數(shù)量，而且我們的原始數(shù)據(jù)中就包含了這些信息，那么我們不妨重新設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)，把這些相關(guān)信息都輸入進(jìn)去，從而預(yù)測(cè)單車的數(shù)量。

3.3.1 數(shù)據(jù)的預(yù)處理過程

然而，在我們動(dòng)手設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)之前，最好還是再認(rèn)真了解一下數(shù)據(jù)，因?yàn)樵鰪?qiáng)對(duì)數(shù)據(jù)的了解會(huì)起到更重要的作用。

深入觀察圖3.2中的數(shù)據(jù)，我們發(fā)現(xiàn)，所有的變量可以分成兩種：一種是類型變量，另一種是數(shù)值變量。

所謂的類型變量就是指這個(gè)變量可以在幾種不同的類別中取值，例如星期（week）這個(gè)變量就有1, 2, 3, …, 0這幾種類型，分別代表星期一、星期二、星期三……星期日這幾天。而天氣情況（weathersit）這個(gè)變量可以從1~4中取值。其中，1表示晴天，2表示多云，3表示小雨/雪，4表示大雨/雪。

另一種類型就是數(shù)值類型，這種變量會(huì)從一個(gè)數(shù)值區(qū)間中連續(xù)取值。例如，濕度（humidity）就是一個(gè)從[0, 1]區(qū)間中連續(xù)取值的變量。溫度、風(fēng)速也都是這種類型的變量。

我們不能將不同類型的變量不加任何處理地輸入神經(jīng)網(wǎng)絡(luò)，因?yàn)椴煌臄?shù)值代表完全不同的含義。在類型變量中，數(shù)字的大小實(shí)際上沒有任何意義。比如數(shù)字5比數(shù)字1大，但這并不代表周五會(huì)比周一更特殊。除此之外，不同的數(shù)值類型變量的變化范圍也都不一樣。如果直接把它們混合在一起，勢(shì)必會(huì)造成不必要的麻煩。綜合以上考慮，我們需要對(duì)兩種變量分別進(jìn)行預(yù)處理。

1. 類型變量的獨(dú)熱編碼

類型變量的大小沒有任何含義，只是為了區(qū)分不同的類型而已。比如季節(jié)這個(gè)變量可以等于1、2、3、4，即四季，數(shù)字僅僅是對(duì)它們的區(qū)分。我們不能將season變量直接輸入神經(jīng)網(wǎng)絡(luò)，因?yàn)閟eason數(shù)值并不表示相應(yīng)的信號(hào)強(qiáng)度。我們的解決方案是將類型變量轉(zhuǎn)化為“獨(dú)熱編碼”（one-hot），如表3.1所示。

采用這種編碼后，不同的數(shù)值就轉(zhuǎn)變?yōu)榱瞬煌南蛄?，這些向量的長(zhǎng)度都是4，而只有一個(gè)位置為1，其他位置都是0。1代表激活，于是獨(dú)熱編碼的向量就對(duì)應(yīng)了不同的激活模式。這樣的數(shù)據(jù)更容易被神經(jīng)網(wǎng)絡(luò)處理。更一般地，如果一個(gè)類型變量有n個(gè)不同的取值，那么我們的獨(dú)熱編碼所對(duì)應(yīng)的向量長(zhǎng)度就為n。

接下來，我們只需要在數(shù)據(jù)中將某一列類型變量轉(zhuǎn)化為多個(gè)列的獨(dú)熱編碼向量，就可以完成這種變量的預(yù)處理過程了，如圖3.18所示。

因此，原來的weekday這個(gè)屬性就轉(zhuǎn)變?yōu)?個(gè)不同的屬性，數(shù)據(jù)庫一下就增加了6列。

在程序上，pandas可以很容易實(shí)現(xiàn)上面的操作，代碼如下：

dummy_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday'] #所有類型編碼變量的名稱
for each in dummy_fields:
 #取出所有類型變量，并將它們轉(zhuǎn)變?yōu)楠?dú)熱編碼
 dummies = pd.get_dummies(rides[each], prefix=each, drop_first=False)
 #將新的獨(dú)熱編碼變量與原有的所有變量合并到一起
 rides = pd.concat([rides, dummies], axis=1)

#將原來的類型變量從數(shù)據(jù)表中刪除
fields_to_drop = ['instant', 'dteday', 'season', 'weathersit', 'weekday', 'atemp', 'mnth', 'workingday', 
 'hr'] #要?jiǎng)h除的類型變量的名稱
data = rides.drop(fields_to_drop, axis=1) #將它們從數(shù)據(jù)庫的變量中刪除

經(jīng)過這一番處理之后，原本只有17列的數(shù)據(jù)一下子變?yōu)榱?9列，部分?jǐn)?shù)據(jù)片段如圖3.19所示。

** 2. 數(shù)值類型變量的處理**

數(shù)值類型變量的問題在于每個(gè)變量的變化范圍都不一樣，單位也不一樣，因此不同的變量就不能進(jìn)行比較。我們采取的解決方法就是對(duì)這種變量進(jìn)行標(biāo)準(zhǔn)化處理，也就是用變量的均值和標(biāo)準(zhǔn)差來對(duì)該變量做標(biāo)準(zhǔn)化，從而都轉(zhuǎn)變?yōu)閇-1, 1]區(qū)間內(nèi)波動(dòng)的數(shù)值。比如，對(duì)于溫度temp這個(gè)變量來說，它在整個(gè)數(shù)據(jù)庫中取值的平均值為mean(temp)，方差為std(temp)，那么，歸一化的溫度計(jì)算為：

temp'是一個(gè)位于[-1, 1]區(qū)間的數(shù)。這樣做的好處就是可以將不同取值范圍的變量設(shè)置為處于平等的地位。

我們可以用以下代碼來實(shí)現(xiàn)這些變量的標(biāo)準(zhǔn)化處理：

quant_features = ['cnt', 'temp', 'hum', 'windspeed'] #數(shù)值類型變量的名稱
scaled_features = {} #將每一個(gè)變量的均值和方差都存儲(chǔ)到scaled_features變量中
for each in quant_features:
 #計(jì)算這些變量的均值和方差
 mean, std = data[each].mean(), data[each].std()
 scaled_features[each] = [mean, std]
 #對(duì)每一個(gè)變量進(jìn)行歸一化
 data.loc[:, each] = (data[each] - mean)/std

** 3. 數(shù)據(jù)集的劃分**

預(yù)處理做完以后，我們的數(shù)據(jù)集包含了17 379條記錄、59個(gè)變量。接下來，我們將對(duì)這個(gè)數(shù)據(jù)集進(jìn)行劃分。

首先，在變量集合上，我們分為了特征和目標(biāo)兩個(gè)集合。其中，特征變量集合包括：年份（yr）、是否節(jié)假日（holiday）、溫度（temp）、濕度（hum）、風(fēng)速（windspeed）、季節(jié)1~4（season）、天氣1~4（weathersit，不同天氣種類）、月份1~12（mnth）、小時(shí)0~23（hr）和星期0~6（weekday），它們是輸入給神經(jīng)網(wǎng)絡(luò)的變量。目標(biāo)變量包括：用戶數(shù)（cnt）、臨時(shí)用戶數(shù)（casual），以及注冊(cè)用戶數(shù)（registered）。其中我們僅僅將cnt作為目標(biāo)變量，另外兩個(gè)暫時(shí)不做任何處理。我們將利用56個(gè)特征變量作為神經(jīng)網(wǎng)絡(luò)的輸入，來預(yù)測(cè)1個(gè)變量作為神經(jīng)網(wǎng)絡(luò)的輸出。

接下來，我們?cè)賹?7 379條記錄劃分為兩個(gè)集合：前16 875條記錄作為訓(xùn)練集，用來訓(xùn)練我們的神經(jīng)網(wǎng)絡(luò)；后21天的數(shù)據(jù)（504條記錄）作為測(cè)試集，用來檢驗(yàn)?zāi)Ｐ偷念A(yù)測(cè)效果。這一部分?jǐn)?shù)據(jù)是不參與神經(jīng)網(wǎng)絡(luò)訓(xùn)練的，如圖3.20所示。

數(shù)據(jù)處理代碼如下：

test_data = data[-21*24:] #選出訓(xùn)練集
train_data = data[:-21*24] #選出測(cè)試集

#目標(biāo)列包含的字段
target_fields = ['cnt','casual', 'registered'] 

#訓(xùn)練集劃分成特征變量列和目標(biāo)特征列
features, targets = train_data.drop(target_fields, axis=1), train_data[target_fields]

#測(cè)試集劃分成特征變量列和目標(biāo)特征列
test_features, test_targets = test_data.drop(target_fields, axis=1), test_data[target_fields]

#將數(shù)據(jù)類型轉(zhuǎn)換為NumPy數(shù)組
X = features.values #將數(shù)據(jù)從pandas dataframe轉(zhuǎn)換為NumPy
Y = targets['cnt'].values
Y = Y.astype(float)

Y = np.reshape(Y, [len(Y),1])
losses = []

3.3.2 構(gòu)建神經(jīng)網(wǎng)絡(luò)

在數(shù)據(jù)處理完畢后，我們將構(gòu)建新的人工神經(jīng)網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)有3層：輸入層、隱含層和輸出層。每個(gè)層的尺寸（神經(jīng)元個(gè)數(shù)）分別是56、10和1（如圖3.21所示）。其中，輸入層和輸出層的神經(jīng)元個(gè)數(shù)分別由數(shù)據(jù)決定，隱含層神經(jīng)元個(gè)數(shù)則根據(jù)我們對(duì)數(shù)據(jù)復(fù)雜度的預(yù)估決定。通常，數(shù)據(jù)越復(fù)雜，數(shù)據(jù)量越大，就需要越多的神經(jīng)元。但是神經(jīng)元過多容易造成過擬合。

除了前面講的用手工實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的張量計(jì)算完成神經(jīng)網(wǎng)絡(luò)搭建以外，PyTorch還實(shí)現(xiàn)了自動(dòng)調(diào)用現(xiàn)成的函數(shù)來完成同樣的操作，這樣的代碼更加簡(jiǎn)潔，如下所示：

#定義神經(jīng)網(wǎng)絡(luò)架構(gòu)，features.shape[1]個(gè)輸入層單元，10個(gè)隱含層，1個(gè)輸出層
input_size = features.shape[1]
hidden_size = 10
output_size = 1
batch_size = 128
neu = torch.nn.Sequential(
 torch.nn.Linear(input_size, hidden_size),
 torch.nn.Sigmoid(),
 torch.nn.Linear(hidden_size, output_size),
)

在這段代碼里，我們可以調(diào)用torch.nn.Sequential()來構(gòu)造神經(jīng)網(wǎng)絡(luò)，并存放到neu變量中。torch.nn.Sequential()這個(gè)函數(shù)的作用是將一系列的運(yùn)算模塊按順序搭建成一個(gè)多層的神經(jīng)網(wǎng)絡(luò)。在本例中，這些模塊包括從輸入層到隱含層的線性映射Linear(input_size, hidden_size)、隱含層的非線性sigmoid函數(shù)torch.nn.Sigmoid()，以及從隱含層到輸出層的線性映射torch.nn.Linear(hidden_size, output_size)。值得注意的是，Sequential里面的層次并不與神經(jīng)網(wǎng)絡(luò)的層次嚴(yán)格對(duì)應(yīng)，而是指多步的運(yùn)算，它與動(dòng)態(tài)計(jì)算圖的層次相對(duì)應(yīng)。

我們也可以使用PyTorch自帶的損失函數(shù)：

cost = torch.nn.MSELoss()

這是PyTorch自帶的一個(gè)封裝好的計(jì)算均方誤差的損失函數(shù)，它是一個(gè)函數(shù)指針，賦予了變量cost。在計(jì)算的時(shí)候，我們只需要調(diào)用cost(x,y)就可以計(jì)算預(yù)測(cè)向量x和目標(biāo)向量y之間的均方誤差。

除此之外，PyTorch還自帶了優(yōu)化器來自動(dòng)實(shí)現(xiàn)優(yōu)化算法：

optimizer = torch.optim.SGD(neu.parameters(), lr = 0.01)

torch.optim.SGD()調(diào)用了PyTorch自帶的隨機(jī)梯度下降算法（stochastic gradient descent，SGD）作為優(yōu)化器。在初始化optimizer的時(shí)候，我們需要待優(yōu)化的所有參數(shù)（在本例中，傳入的參數(shù)包括神經(jīng)網(wǎng)絡(luò)neu包含的所有權(quán)重和偏置，即neu.parameters()），以及執(zhí)行梯度下降算法的學(xué)習(xí)率lr=0.01。在一切材料都準(zhǔn)備好之后，我們便可以實(shí)施訓(xùn)練了。

數(shù)據(jù)的分批處理

然而，在進(jìn)行訓(xùn)練循環(huán)的時(shí)候，我們還會(huì)遇到一個(gè)問題。在前面的例子中，在每一個(gè)訓(xùn)練周期，我們都將所有的數(shù)據(jù)一股腦地兒輸入神經(jīng)網(wǎng)絡(luò)。這在數(shù)據(jù)量不大的情況下沒有任何問題。但是，現(xiàn)在的數(shù)據(jù)量是16 875條，在這么大數(shù)據(jù)量的情況下，如果在每個(gè)訓(xùn)練周期都處理所有數(shù)據(jù)，則會(huì)出現(xiàn)運(yùn)算速度過慢、迭代可能不收斂等問題。

解決方法通常是采取批處理（batch processing）的模式，也就是將所有的數(shù)據(jù)記錄劃分成一個(gè)批次大?。╞atch size）的小數(shù)據(jù)集，然后在每個(gè)訓(xùn)練周期給神經(jīng)網(wǎng)絡(luò)輸入一批數(shù)據(jù)，如圖3.22所示。批量的大小依問題的復(fù)雜度和數(shù)據(jù)量的大小而定，在本例中，我們?cè)O(shè)定batch_size=128。

采用分批處理后的訓(xùn)練代碼如下：

#神經(jīng)網(wǎng)絡(luò)訓(xùn)練循環(huán)
losses = []
for i in range(1000):
 #每128個(gè)樣本點(diǎn)被劃分為一批，在循環(huán)的時(shí)候一批一批地讀取
 batch_loss = []
 #start和end分別是提取一批數(shù)據(jù)的起始和終止下標(biāo)
 for start in range(0, len(X), batch_size):
 end = start + batch_size if start + batch_size < len(X) else len(X)
 xx = Variable(torch.FloatTensor(X[start:end]))
 yy = Variable(torch.FloatTensor(Y[start:end]))
 predict = neu(xx)
 loss = cost(predict, yy)
 optimizer.zero_grad()
 loss.backward()
 optimizer.step()
 batch_loss.append(loss.data.numpy())

 #每隔100步輸出損失值
 if i % 100==0:
 losses.append(np.mean(batch_loss))
 print(i, np.mean(batch_loss))

#打印輸出損失值
plt.plot(np.arange(len(losses))*100,losses)
plt.xlabel('epoch')
plt.ylabel('MSE')

運(yùn)行這段程序，我們便可以訓(xùn)練這個(gè)神經(jīng)網(wǎng)絡(luò)了。圖3.23展示的是隨著訓(xùn)練周期的運(yùn)行，損失函數(shù)的下降情況。其中，橫坐標(biāo)表示訓(xùn)練周期，縱坐標(biāo)表示平均誤差?？梢钥吹剑骄`差隨訓(xùn)練周期快速下降。

3.3.3 測(cè)試神經(jīng)網(wǎng)絡(luò)

接下來，我們便可以用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在測(cè)試集上進(jìn)行預(yù)測(cè)，并且將后21天的預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)畫在一起進(jìn)行比較。

targets = test_targets['cnt'] #讀取測(cè)試集的cnt數(shù)值
targets = targets.values.reshape([len(targets),1]) #將數(shù)據(jù)轉(zhuǎn)換成合適的tensor形式
targets = targets.astype(float) #保證數(shù)據(jù)為實(shí)數(shù)

#將特征變量和目標(biāo)變量包裹在Variable型變量中
x = Variable(torch.FloatTensor(test_features.values))
y = Variable(torch.FloatTensor(targets))

#用神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)
predict = neu(x)
predict = predict.data.numpy()

fig, ax = plt.subplots(figsize = (10, 7))

mean, std = scaled_features['cnt']
ax.plot(predict * std + mean, label='Prediction')
ax.plot(targets * std + mean, label='Data')
ax.legend()
ax.set_xlabel('Date-time')
ax.set_ylabel('Counts')
dates = pd.to_datetime(rides.loc[test_data.index]['dteday'])
dates = dates.apply(lambda d: d.strftime('%b %d'))
ax.set_xticks(np.arange(len(dates))[12::24])
_ = ax.set_xticklabels(dates[12::24], rotation=45)

實(shí)際曲線與預(yù)測(cè)曲線的對(duì)比如圖3.24所示。其中，橫坐標(biāo)是不同的日期，縱坐標(biāo)是預(yù)測(cè)或真實(shí)數(shù)據(jù)的值。虛線為預(yù)測(cè)曲線，實(shí)線為實(shí)際數(shù)據(jù)。

可以看到，兩個(gè)曲線基本是吻合的，但是在12月25日前后幾天的實(shí)際值和預(yù)測(cè)值偏差較大。為什么這段時(shí)間的表現(xiàn)這么差呢？

仔細(xì)觀察數(shù)據(jù)，我們發(fā)現(xiàn)12月25日正好是圣誕節(jié)。對(duì)于歐美國(guó)家來說，圣誕節(jié)就相當(dāng)于我們的春節(jié)，在圣誕節(jié)假期前后，人們的出行習(xí)慣會(huì)與往日有很大的不同。但是，在我們的訓(xùn)練樣本中，因?yàn)檎麄€(gè)數(shù)據(jù)僅有兩年的長(zhǎng)度，所以包含圣誕節(jié)前后的樣本僅有一次，這就導(dǎo)致我們沒辦法對(duì)這一特殊假期的模式進(jìn)行很好的預(yù)測(cè)。

3.4 剖析神經(jīng)網(wǎng)絡(luò)Neu

按理說，目前我們的工作已經(jīng)全部完成了。但是，我們還希望對(duì)人工神經(jīng)網(wǎng)絡(luò)的工作原理有更加透徹的了解。因此，我們將對(duì)這個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)Neu進(jìn)行剖析，看看它究竟為什么能夠在一些數(shù)據(jù)上表現(xiàn)優(yōu)異，而在另一些數(shù)據(jù)上表現(xiàn)欠佳。

對(duì)于我們來說，神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的時(shí)候發(fā)生了什么完全是黑箱，但是，神經(jīng)網(wǎng)絡(luò)連邊的權(quán)重實(shí)際上就存在于計(jì)算機(jī)的存儲(chǔ)中，我們是可以把感興趣的數(shù)據(jù)提取出來分析的。

我們定義了一個(gè)函數(shù)feature()，用于提取神經(jīng)網(wǎng)絡(luò)中存儲(chǔ)在連邊和節(jié)點(diǎn)中的所有參數(shù)。代碼如下：

def feature(X, net):
 #定義一個(gè)函數(shù)，用于提取網(wǎng)絡(luò)的權(quán)重信息，所有的網(wǎng)絡(luò)參數(shù)信息全部存儲(chǔ)在neu的named_parameters集合中
 X = Variable(torch.from_numpy(X).type(torch.FloatTensor), requires_grad = False)
 dic = dict(net.named_parameters()) #提取這個(gè)集合
 weights = dic['0.weight'] #可以按照“層數(shù).名稱”來索引集合中的相應(yīng)參數(shù)值
 biases = dic['0.bias'] 
 h = torch.sigmoid(X.mm(weights.t()) + biases.expand([len(X), len(biases)])) #隱含層的計(jì)算過程
 return h #輸出層的計(jì)算

在這段代碼中，我們用net.named_parameters()命令提取出神經(jīng)網(wǎng)絡(luò)的所有參數(shù)，其中包括了每一層的權(quán)重和偏置，并且把它們放到Python字典中。接下來就可以通過如上代碼來提取，例如可以通過dic['0.weight']和dic['0.bias']的方式得到第一層的所有權(quán)重和偏置。此外，我們還可以通過遍歷參數(shù)字典dic獲取所有可提取的參數(shù)名稱。

由于數(shù)據(jù)量較大，我們選取了一部分?jǐn)?shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)，并提取出網(wǎng)絡(luò)的激活模式。我們知道，預(yù)測(cè)不準(zhǔn)的日期有12月22日、12月23日、12月24日這3天。所以，就將這3天的數(shù)據(jù)聚集到一起，存入subset和subtargets變量中。

bool1 = rides['dteday'] == '2012-12-22'
bool2 = rides['dteday'] == '2012-12-23'
bool3 = rides['dteday'] == '2012-12-24'

#將3個(gè)布爾型數(shù)組求與
bools = [any(tup) for tup in zip(bool1,bool2,bool3) ]
#將相應(yīng)的變量取出來
subset = test_features.loc[rides[bools].index]
subtargets = test_targets.loc[rides[bools].index]
subtargets = subtargets['cnt']
subtargets = subtargets.values.reshape([len(subtargets),1])

將這3天的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)中，用前面定義的feature()函數(shù)讀出隱含層神經(jīng)元的激活數(shù)值，存入results中。為了閱讀方便，可以將歸一化輸出的預(yù)測(cè)值還原為原始數(shù)據(jù)的數(shù)值范圍。

#將數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中，讀取隱含層神經(jīng)元的激活數(shù)值，存入results中
results = feature(subset.values, neu).data.numpy()
#這些數(shù)據(jù)對(duì)應(yīng)的預(yù)測(cè)值（輸出層）
predict = neu(Variable(torch.FloatTensor(subset.values))).data.numpy()
#將預(yù)測(cè)值還原為原始數(shù)據(jù)的數(shù)值范圍
mean, std = scaled_features['cnt']
predict = predict * std + mean
subtargets = subtargets * std + mean

接下來，我們就將隱含層神經(jīng)元的激活情況全部畫出來。同時(shí)，為了比較，我們將這些曲線與模型預(yù)測(cè)的數(shù)值畫在一起，可視化的結(jié)果如圖3.25所示。

#將所有的神經(jīng)元激活水平畫在同一張圖上
fig, ax = plt.subplots(figsize = (8, 6))
ax.plot(results[:,:],'.:',alpha = 0.1)
ax.plot((predict - min(predict)) / (max(predict) - min(predict)),'bo-',label='Prediction')
ax.plot((subtargets - min(predict)) / (max(predict) - min(predict)),'ro-',label='Real')
ax.plot(results[:, 6],'.:',alpha=1,label='Neuro 7')

ax.set_xlim(right=len(predict))
ax.legend()
plt.ylabel('Normalized Values')

dates = pd.to_datetime(rides.loc[subset.index]['dteday'])
dates = dates.apply(lambda d: d.strftime('%b %d'))
ax.set_xticks(np.arange(len(dates))[12::24])
_ = ax.set_xticklabels(dates[12::24], rotation=45)

圖中方塊曲線是模型的預(yù)測(cè)數(shù)值，圓點(diǎn)曲線是真實(shí)的數(shù)值，不同顏色和線型的虛線是每個(gè)神經(jīng)元的輸出值?？梢园l(fā)現(xiàn)，6號(hào)神經(jīng)元（Neuro 6）的輸出曲線與真實(shí)輸出曲線比較接近。因此，我們可以認(rèn)為該神經(jīng)元對(duì)提高預(yù)測(cè)準(zhǔn)確性有更高的貢獻(xiàn)。

同時(shí)，我們還想知道Neuro 6神經(jīng)元表現(xiàn)較好的原因以及它的激活是由誰決定的。進(jìn)一步分析它的影響因素，可以知道是從輸入層指向它的權(quán)重，如圖3.26所示。

我們可以通過下列代碼將這些權(quán)重進(jìn)行可視化。

#找到與峰值對(duì)應(yīng)的神經(jīng)元，將其到輸入層的權(quán)重輸出
dic = dict(neu.named_parameters())
weights = dic['0.weight']
plt.plot(weights.data.numpy()[6, :],'o-')
plt.xlabel('Input Neurons')
plt.ylabel('Weight')

結(jié)果如圖3.27所示。橫軸代表了不同的權(quán)重，也就是輸入神經(jīng)元的編號(hào)；縱軸代表神經(jīng)網(wǎng)絡(luò)訓(xùn)練后的連邊權(quán)重。例如，橫軸的第10個(gè)數(shù)，對(duì)應(yīng)輸入層的第10個(gè)神經(jīng)元，對(duì)應(yīng)到輸入數(shù)據(jù)中，是檢測(cè)天氣類別的類型變量。第32個(gè)數(shù)，是小時(shí)數(shù)，也是類型變量，檢測(cè)的是早6點(diǎn)這種模式。我們可以理解為，縱軸的值為正就是促進(jìn)，值為負(fù)就是抑制。所以，圖中的波峰就是讓該神經(jīng)元激活，波谷就是神經(jīng)元未激活。

我們看到，這條曲線在hr_12, weekday_0,6方面有較高的權(quán)重，這表示神經(jīng)元Neuro 6正在檢測(cè)現(xiàn)在的時(shí)間點(diǎn)是不是中午12點(diǎn)，同時(shí)也在檢測(cè)今天是不是周日或者周六。如果滿足這些條件，則神經(jīng)元就會(huì)被激活。與此相對(duì)的是，神經(jīng)元在weathersit_3和hr_6這兩個(gè)輸入上的權(quán)重值為負(fù)值，并且剛好是低谷，這意味著該神經(jīng)元會(huì)在下雨或下雪，以及早上6點(diǎn)的時(shí)候被抑制。通過翻看萬年歷我們知道，2012年的12月22日和23日剛好是周六和周日，因此Neuro 6被激活了，它們對(duì)正確預(yù)測(cè)這兩天的正午高峰做了貢獻(xiàn)。但是，由于圣誕節(jié)即將到來，人們可能早早回去為圣誕做準(zhǔn)備，因此這個(gè)周末比較特殊，并未出現(xiàn)往常周末的大量騎行需求，于是Neuro 6給出的激活值導(dǎo)致了過高的正午單車數(shù)量預(yù)測(cè)。

與此類似，我們可以找到導(dǎo)致12月24日早晚高峰過高預(yù)測(cè)的原因。我們發(fā)現(xiàn)4號(hào)神經(jīng)元起到了主要作用，因?yàn)樗牟▌?dòng)形狀剛好跟預(yù)測(cè)曲線在24日的早晚高峰負(fù)相關(guān)，如圖3.28所示。

同理，這個(gè)神經(jīng)元對(duì)應(yīng)的權(quán)重及其檢測(cè)的模式如圖3.29所示。

這個(gè)神經(jīng)元檢測(cè)的模式和Neuro 6相似卻相反，它在早晚高峰的時(shí)候受到抑制，在節(jié)假日和周末激活。進(jìn)一步考察從隱含層到輸出層的連接，我們發(fā)現(xiàn)Neuro 4的權(quán)重為負(fù)數(shù)，但是這個(gè)負(fù)值又沒有那么大。所以，這就導(dǎo)致了在12月24日早晚高峰的時(shí)候被抑制，但是這個(gè)信號(hào)抑制的效果并不顯著，無法導(dǎo)致預(yù)測(cè)尖峰的出現(xiàn)。

所以，我們分析出神經(jīng)預(yù)測(cè)器Neu在這3天預(yù)測(cè)不準(zhǔn)的原因是圣誕假期的反常模式。12月24日是圣誕夜，該網(wǎng)絡(luò)對(duì)節(jié)假日早晚高峰抑制單元的抑制不夠，所以導(dǎo)致了預(yù)測(cè)不準(zhǔn)。如果有更多的訓(xùn)練數(shù)據(jù)，我們有可能將4號(hào)神經(jīng)元的權(quán)重調(diào)節(jié)得更低，這樣就有可能提高預(yù)測(cè)的準(zhǔn)確度。

3.5 小結(jié)

本章我們以預(yù)測(cè)某地共享單車數(shù)量的問題作為切入點(diǎn)，介紹了人工神經(jīng)網(wǎng)絡(luò)的工作原理。通過調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)，我們可以得到任意形狀的曲線。接著，我們嘗試用具有單輸入、單輸出的神經(jīng)網(wǎng)絡(luò)擬合了共享單車數(shù)據(jù)并嘗試預(yù)測(cè)。

但是，預(yù)測(cè)的效果卻非常差。經(jīng)過分析，我們發(fā)現(xiàn)，由于采用的特征變量為數(shù)據(jù)的編號(hào)，而這與單車的數(shù)量沒有任何關(guān)系，完美擬合的假象只不過是一種過擬合的結(jié)果。所以，我們嘗試了新的預(yù)測(cè)方式，利用每一條數(shù)據(jù)中的特征變量，包括天氣、風(fēng)速、星期幾、是否是假期、時(shí)間點(diǎn)等特征來預(yù)測(cè)單車使用數(shù)量，并取得了成功。

在第二次嘗試中，我們還學(xué)會(huì)了如何對(duì)數(shù)據(jù)進(jìn)行劃分，以及如何用PyTorch自帶的封裝函數(shù)來實(shí)現(xiàn)我們的人工神經(jīng)網(wǎng)絡(luò)、損失函數(shù)以及優(yōu)化器。同時(shí)，我們引入了批處理的概念，即將數(shù)據(jù)切分成批，在每一步訓(xùn)練周期中，都用一小批數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并讓它調(diào)整參數(shù)。這種批處理的方法既可以加速程序的運(yùn)行，又讓神經(jīng)網(wǎng)絡(luò)能夠穩(wěn)步地調(diào)節(jié)參數(shù)。

最后，我們對(duì)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行了剖析。了解了人工神經(jīng)元是如何通過監(jiān)測(cè)數(shù)據(jù)中的固有模式而在不同條件下激活的。我們也清楚地看到，神經(jīng)網(wǎng)絡(luò)之所以在一些數(shù)據(jù)上工作不好，是因?yàn)樵跀?shù)據(jù)中很難遇到假期這種特殊條件。

3.6 Q&A

本書內(nèi)容源于張江老師在“集智AI學(xué)園”開設(shè)的網(wǎng)絡(luò)課程“火炬上的深度學(xué)習(xí)”，為了幫助讀者快速疏通思路或解決常見的實(shí)踐問題，我們挑選了課程學(xué)員提出的具有代表性的問題，并附上張江老師的解答，組成“Q&A”小節(jié)，附于相關(guān)章節(jié)的末尾。如果讀者在閱讀過程中產(chǎn)生了相似的疑問，希望可以從中得到解答。

Q：神經(jīng)元是不是越多越好？

A：當(dāng)然不是越多越好。神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)能力不只和神經(jīng)元的個(gè)數(shù)有關(guān)，還與神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和輸入數(shù)據(jù)有關(guān)。

Q：在預(yù)測(cè)共享單車使用量的實(shí)驗(yàn)中，為什么要做梯度清空？

A：如果不清空梯度，backward()函數(shù)是會(huì)累加梯度的。我們?cè)谶M(jìn)行一次訓(xùn)練后，就立即進(jìn)行梯度反傳，所以不需要系統(tǒng)累加梯度。如果不清空梯度，有可能導(dǎo)致模型無法收斂。

Q：對(duì)于神經(jīng)網(wǎng)絡(luò)來說，非收斂函數(shù)也可以逼近嗎？

A：在一定的閉區(qū)間里是可以的。因?yàn)樵陂]區(qū)間里，一個(gè)函數(shù)不可能無窮發(fā)散，總會(huì)有一個(gè)界限，那么就可以使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行逼近。對(duì)于一個(gè)無窮的區(qū)間來說，神經(jīng)網(wǎng)絡(luò)模型就不行了，因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型中用于擬合的神經(jīng)元數(shù)量是有限的。

Q：在預(yù)測(cè)共享單車的例子中，模型對(duì)圣誕節(jié)期間的單車使用量預(yù)測(cè)得不夠準(zhǔn)確。那么是不是可以通過增加訓(xùn)練數(shù)據(jù)的方法提高神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性？

A：是可行的。如果使用更多的包含圣誕節(jié)期間單車使用情況的訓(xùn)練數(shù)據(jù)訓(xùn)練模型，那么模型對(duì)圣誕節(jié)期間的單車使用情況的預(yù)測(cè)會(huì)更加準(zhǔn)確。

Q：既然預(yù)測(cè)共享單車使用量的模型可以被解析和剖析，那么是不是每個(gè)神經(jīng)網(wǎng)絡(luò)都可以這樣剖析？

A：這個(gè)不一定。因?yàn)轭A(yù)測(cè)共享單車使用量的模型結(jié)構(gòu)比較簡(jiǎn)單，隱藏層神經(jīng)元只有10個(gè)。當(dāng)網(wǎng)絡(luò)模型中神經(jīng)元的個(gè)數(shù)較多或者有多層神經(jīng)元的時(shí)候，神經(jīng)網(wǎng)絡(luò)模型的某個(gè)“決策”會(huì)難以歸因到單個(gè)神經(jīng)元里。這時(shí)就難以用“剖析”的方式來分析神經(jīng)網(wǎng)絡(luò)模型了。

Q：在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的時(shí)候，講到了“訓(xùn)練集/測(cè)試集=k”，那么比例k是多少才合理，k對(duì)預(yù)測(cè)的收斂速度和誤差有影響嗎？

A：在數(shù)據(jù)量比較少的情況下，我們一般按照10∶1的比例來選擇測(cè)試集；而在數(shù)據(jù)量比較大的情況下，比如，數(shù)據(jù)有十萬條以上，就不一定必須按照比例來劃分訓(xùn)練集和測(cè)試集了。

總結(jié)

以上所述是小編給大家介紹的運(yùn)用PyTorch動(dòng)手搭建一個(gè)共享單車預(yù)測(cè)器,希望對(duì)大家有所幫助，如果大家有任何疑問請(qǐng)給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持！
如果你覺得本文對(duì)你有幫助，歡迎轉(zhuǎn)載，煩請(qǐng)注明出處，謝謝！

您可能感興趣的文章: