GELU激活函數(shù)算法
Gaussian Error Linerar Units(GELUS)
論文鏈接:https://arxiv.org/abs/1606.08415
最近在看bert源碼,發(fā)現(xiàn)里邊的激活函數(shù)不是Relu等常見(jiàn)的函數(shù),是一個(gè)新的激活函數(shù)GELUs, 這里記錄分析一下該激活函數(shù)的特點(diǎn)。
不管其他領(lǐng)域的鄙視鏈,在激活函數(shù)領(lǐng)域,大家公式的鄙視鏈應(yīng)該是:Elus > Relu > Sigmoid ,這些激活函數(shù)都有自身的缺陷, sigmoid容易飽和,Elus與Relu缺乏隨機(jī)因素。
在神經(jīng)網(wǎng)絡(luò)的建模過(guò)程中,模型很重要的性質(zhì)就是非線性,同時(shí)為了模型泛化能力,需要加入隨機(jī)正則,例如dropout(隨機(jī)置一些輸出為0,其實(shí)也是一種變相的隨機(jī)非線性激活), 而隨機(jī)正則與非線性激活是分開的兩個(gè)事情, 而其實(shí)模型的輸入是由非線性激活與隨機(jī)正則兩者共同決定的。
GELUs正是在激活中引入了隨機(jī)正則的思想,是一種對(duì)神經(jīng)元輸入的概率描述,直觀上更符合自然的認(rèn)識(shí),同時(shí)實(shí)驗(yàn)效果要比Relus與ELUs都要好。
翻看bert源碼給出的GELU代碼表示如下:
def gelu(input_tensor): cdf = 0.5 * (1.0 + tf.erf(input_tensor / tf.sqrt(2.0))) return input_tesnsor*cdf
感覺(jué)bert源碼中的近似計(jì)算更簡(jiǎn)單,具體怎么近似的,我猜不出來(lái)。
下面貼一些論文的實(shí)驗(yàn)圖,就是證明GELU學(xué)習(xí)更快且更好:
以上就是GELU激活函數(shù)算法的詳細(xì)內(nèi)容,更多關(guān)于GELU激活函數(shù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
用python腳本24小時(shí)刷瀏覽器的訪問(wèn)量方法
今天小編就為大家分享一篇用python腳本24小時(shí)刷瀏覽器的訪問(wèn)量方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12python tkinter實(shí)現(xiàn)連連看游戲
這篇文章主要介紹了python tkinter實(shí)現(xiàn)連連看游戲的示例,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-11-11Python爬蟲實(shí)戰(zhàn)JS逆向AES逆向加密爬取
一個(gè)建筑行業(yè)的堂哥為了搞一些商業(yè)數(shù)據(jù)前前后后花了1w,辣條我半個(gè)小時(shí)就能解決的事情,這就是技術(shù)的魅力!聲明:爬取是的公開數(shù)據(jù)2021-10-10Python requests.post()方法中data和json參數(shù)的使用方法
這篇文章主要介紹了Python requests.post()方法中data和json參數(shù)的使用方法,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感興趣的小伙伴可以參考一下2022-08-08Python算法的時(shí)間復(fù)雜度和空間復(fù)雜度(實(shí)例解析)
算法復(fù)雜度分為時(shí)間復(fù)雜度和空間復(fù)雜度,簡(jiǎn)單而講時(shí)間復(fù)雜度指的是語(yǔ)句執(zhí)行次數(shù),空間復(fù)雜度指的是算法所占的存儲(chǔ)空間,本文通過(guò)代碼給大家介紹Python算法的時(shí)間復(fù)雜度和空間復(fù)雜度問(wèn)題,感興趣的朋友一起看看吧2019-11-11django執(zhí)行原生SQL查詢的實(shí)現(xiàn)
本文主要介紹了django執(zhí)行原生SQL查詢的實(shí)現(xiàn),主要有兩種方法實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08python smtplib模塊自動(dòng)收發(fā)郵件功能(二)
這篇文章主要為大家詳細(xì)介紹了python smtplib模塊自動(dòng)收發(fā)郵件功能的第二篇,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-05-05