Python機(jī)器學(xué)習(xí)多層感知機(jī)原理解析
隱藏層
我們?cè)谇懊婷枋隽朔律渥儞Q,它是一個(gè)帶有偏置項(xiàng)的線性變換。首先,回想下之前下圖中所示的softmax回歸的模型結(jié)構(gòu)。該模型通過(guò)單個(gè)仿射變換將我們的輸入直接映射到輸出,然后進(jìn)行softmax操作。如果我們的標(biāo)簽通過(guò)仿射變換后確實(shí)與我們的輸入數(shù)據(jù)相關(guān),那么這種方法就足夠了。但是,仿射變換中的線性是一個(gè)很強(qiáng)的假設(shè)。
我們的數(shù)據(jù)可能會(huì)有一種表示,這種表示會(huì)考慮到我們的特征之間的相關(guān)交互作用。在此表示的基礎(chǔ)上建立一個(gè)線性模型可能會(huì)是合適的,但我們不知道如何手動(dòng)計(jì)算這么一種表示。對(duì)于深度神經(jīng)網(wǎng)絡(luò),我們使用觀測(cè)數(shù)據(jù)來(lái)聯(lián)合學(xué)習(xí)隱藏層表示和應(yīng)用于該表示的線性預(yù)測(cè)器。
我們可以通過(guò)在網(wǎng)絡(luò)中加入一個(gè)或多個(gè)隱藏層來(lái)克服線性模型的限制,使其能處理更普遍的函數(shù)關(guān)系類型。要做到這一點(diǎn),最簡(jiǎn)單的方法是將許多全連接層堆疊在一起。每一層都輸出到上面的層,直到生成最后的輸出。我們可以把前L−1層看作表示,把最后一層看作線性預(yù)測(cè)器。這種架構(gòu)通常稱為多層感知機(jī)(multilayer perceptron),通??s寫(xiě)為MLP。下面,我們以圖的方式描述了多層感知機(jī)。
這個(gè)多層感知機(jī)有4個(gè)輸入,3個(gè)輸出,其隱藏層包含5個(gè)隱藏單元。輸入層不涉及任何計(jì)算,因此使用此網(wǎng)絡(luò)產(chǎn)生輸出只需要實(shí)現(xiàn)隱藏層和輸出層的計(jì)算;因此,這個(gè)多層感知機(jī)的層數(shù)為2。注意,這個(gè)層都是全連接的。每個(gè)輸入都會(huì)影響隱藏層中的每個(gè)神經(jīng)元,而隱藏層中的每個(gè)神經(jīng)元又會(huì)影響輸出層的每個(gè)神經(jīng)元。
然而,具有全連接層的多層感知機(jī)的參數(shù)開(kāi)銷可能會(huì)高得令人望而卻步,即使在不改變輸入和輸出大小的情況下,也可能促使在參數(shù)節(jié)約和模型有效性之間進(jìn)行權(quán)衡。
從線性到非線性
注意,在添加隱藏層之后,模型現(xiàn)在需要跟蹤和更新額外的參數(shù)。
可我們能從中得到什么好處呢?這里我們會(huì)驚訝地發(fā)現(xiàn):在上面定義的模型里,我們沒(méi)有好處。上面的隱藏單元由輸入的仿射函數(shù)給出,而輸出(softmax操作前)只是隱藏單元的仿射函數(shù)。仿射函數(shù)的仿射函數(shù)本身就是仿射函數(shù)。但是我們之前的線性模型已經(jīng)能夠表示任何仿射函數(shù)。
由于 X中的每一行對(duì)應(yīng)于小批量中的一個(gè)樣本,處于記號(hào)習(xí)慣的考量,我們定義非線性函數(shù) σ也以按行的方式作用于其輸入,即一次計(jì)算一個(gè)樣本。我們?cè)谥耙韵嗤姆绞绞褂昧藄oftmax符號(hào)來(lái)表示按行操作。但是在本節(jié)中,我們應(yīng)用于隱藏層的激活函數(shù)通常不僅僅是按行的,而且也是按元素。這意味著在計(jì)算每一層的線性部分之后,我們可以計(jì)算每個(gè)激活值,而不需要查看其他隱藏單元所取的值。對(duì)于大多數(shù)激活函數(shù)都是這樣。
激活函數(shù)
激活函數(shù)通過(guò)計(jì)算加權(quán)和并加上偏置來(lái)確定神經(jīng)元是否應(yīng)該被激活。它們是輸入信號(hào)轉(zhuǎn)換為輸出的可微運(yùn)算。大多數(shù)激活函數(shù)都是非線性的。由于激活函數(shù)是深度學(xué)習(xí)的基礎(chǔ),下面簡(jiǎn)要介紹一些常見(jiàn)的激活函數(shù)。
import torch from d2l import torch as d2l
ReLU函數(shù)
最受歡迎的選擇是線性整流單元,因?yàn)樗鼘?shí)現(xiàn)簡(jiǎn)單,同時(shí)在各種預(yù)測(cè)任務(wù)中表現(xiàn)良好。ReLU提供了一種非常簡(jiǎn)單的非線性變換。給定元素x ,ReLU函數(shù)被定義為該元素與0的最大值:
通俗地說(shuō),ReLU函數(shù)通過(guò)將相應(yīng)的激活值設(shè)為0來(lái)僅保留正元素并丟棄所有負(fù)元素。為了直觀感受下,我們可以畫(huà)出函數(shù)的曲線圖。下圖所示,激活函數(shù)是分段線性的。
x = torch.arange(-8, 8, 0.1, requires_grad=True) y = torch.relu(x) d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))
注意,當(dāng)輸入值精確等于0時(shí),ReLU函數(shù)不可導(dǎo)。在此時(shí),我們默認(rèn)使用左側(cè)的導(dǎo)數(shù),即當(dāng)輸入為0時(shí)導(dǎo)數(shù)為0。我們可以忽略這種情況,因?yàn)檩斎肟赡苡肋h(yuǎn)都不會(huì)是0。這里用上一句古老的諺語(yǔ),“如果微妙的邊界條件很重要,我們很可能是在研究數(shù)學(xué)而非工程”,這個(gè)觀點(diǎn)正好適用于這里。下面我們繪制ReLU函數(shù)的導(dǎo)數(shù)。
y.backward(torch.ones_ilke(x), retain_graph=True) d2l.plot(x.detach(), x.grad, 'x', 'grad of relu', figsize=(5, 2.5))
使用ReLU的原因是,它求導(dǎo)表現(xiàn)得特別好,要么讓參數(shù)消失,要么讓參數(shù)通過(guò)。這使得優(yōu)化表現(xiàn)得更好,并且ReLU減輕了困擾以往神經(jīng)網(wǎng)絡(luò)梯度消失問(wèn)題。
注意,ReLU函數(shù)有許多變體,包括參數(shù)化ReLU函數(shù)(Parameterized ReLU)。該變體為ReLU添加了一個(gè)線性項(xiàng),因此即使參數(shù)是負(fù)的,某些信息仍然可以通過(guò):
sigmoid函數(shù)
在最早的神經(jīng)網(wǎng)絡(luò)中,科學(xué)家們感興趣的是對(duì)“激發(fā)”或“不激發(fā)”的生物神經(jīng)元進(jìn)行建模。因此,這一領(lǐng)域的先驅(qū),如人工神經(jīng)元的發(fā)明者麥卡洛克和皮茨,從他們開(kāi)始就專注于閾值單元。閾值單元在其輸入低于某個(gè)閾值時(shí)取值為0,當(dāng)輸入超過(guò)閾值時(shí)取1。
當(dāng)人們的注意力逐漸轉(zhuǎn)移到梯度的學(xué)習(xí)時(shí),sigmoid函數(shù)是一個(gè)自然的選擇,因?yàn)樗且粋€(gè)平滑的、可微的閾值單元近似。當(dāng)我們想要將輸出視作二分類問(wèn)題的概率時(shí),sigmoid仍然被廣泛用作輸出單元上的激活函數(shù)(可以將sigmoid視為softmax的特例)。然而, sigmoid在隱藏層中已經(jīng)較少使用,它在大部分時(shí)候已經(jīng)被更簡(jiǎn)單、更容易訓(xùn)練的ReLU所取代。
tanh函數(shù)
與sigmoid函數(shù)類似,tanh(雙曲正切)函數(shù)也能將其輸入壓縮轉(zhuǎn)換到區(qū)間(-1,1)上。tanh函數(shù)的公式如下:
下面我們繪制tanh函數(shù)。注意,當(dāng)輸入在0附近時(shí),tanh函數(shù)接近線性變換。函數(shù)的形狀類似于sigmoid函數(shù),不同的是tanh函數(shù)關(guān)于坐標(biāo)系原點(diǎn)中心對(duì)稱。
以上就是Python機(jī)器學(xué)習(xí)多層感知機(jī)原理解析的詳細(xì)內(nèi)容,更多關(guān)于Python機(jī)器學(xué)習(xí)多層感知機(jī)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- python機(jī)器學(xué)習(xí)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)示例解析
- Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作之京東評(píng)論分類
- Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作之Seq2seq的用法
- Python機(jī)器學(xué)習(xí)利用隨機(jī)森林對(duì)特征重要性計(jì)算評(píng)估
- Python機(jī)器學(xué)習(xí)pytorch交叉熵?fù)p失函數(shù)的深刻理解
- Python機(jī)器學(xué)習(xí)pytorch模型選擇及欠擬合和過(guò)擬合詳解
- Python 機(jī)器學(xué)習(xí)第一章環(huán)境配置圖解流程
相關(guān)文章
Python入門(mén)之三角函數(shù)tan()函數(shù)實(shí)例詳解
這篇文章主要介紹了Python入門(mén)之三角函數(shù)tan()的相關(guān)內(nèi)容,介紹了tan()函數(shù)的描述,語(yǔ)法以及簡(jiǎn)單實(shí)例,具有一定參考價(jià)值,需要的朋友可以了解下。2017-11-11python通過(guò)cmd創(chuàng)建虛擬環(huán)境的實(shí)現(xiàn)(pip方式)
Python的虛擬環(huán)境是正常的現(xiàn)實(shí)環(huán)境相對(duì)應(yīng)的,在虛擬環(huán)境中安裝的包是與現(xiàn)實(shí)環(huán)境隔離的,本文主要介紹了python通過(guò)cmd創(chuàng)建虛擬環(huán)境的實(shí)現(xiàn),感興趣的可以了解一下2023-11-11SpringBoot調(diào)用python接口的實(shí)現(xiàn)步驟
本文主要介紹如何利用Springboot框架調(diào)用python腳本,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-12-12TensorFlow實(shí)現(xiàn)自定義Op方式
今天小編就為大家分享一篇TensorFlow實(shí)現(xiàn)自定義Op方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02如何設(shè)置PyCharm中的Python代碼模版(推薦)
這篇文章主要介紹了如何設(shè)置PyCharm中的Python代碼模版,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11pytorch sampler對(duì)數(shù)據(jù)進(jìn)行采樣的實(shí)現(xiàn)
今天小編就為大家分享一篇pytorch sampler對(duì)數(shù)據(jù)進(jìn)行采樣的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12Python之list對(duì)應(yīng)元素求和的方法
今天小編就為大家分享一篇Python之list對(duì)應(yīng)元素求和的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-06-06