1.2125, 0.0171], grad_fn=<LeakyReluBackward0>) 從上面可以看出,這個(gè)LayerNorm的歸一化,并不是將數(shù)據(jù)限定在0-1之間,也沒有進(jìn)行一個(gè)類似于高斯分布一樣的分?jǐn)?shù),只是將其進(jìn)行了一個(gè)處理,對(duì)應(yīng)的數(shù)值得到了一些變化,相同數(shù)值的變化也是相同的。 Relu的則是單純將小于0的數(shù)變成了0,減少了梯度消失的可能性 PRelu是...
www.dbjr.com.cn/article/2133...htm 2025-6-6