TensorFlow實(shí)現(xiàn)批量歸一化操作的示例
批量歸一化
在對神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法中,有一種使用十分廣泛的方法——批量歸一化,使得神經(jīng)網(wǎng)絡(luò)的識別準(zhǔn)確度得到了極大的提升。
在網(wǎng)絡(luò)的前向計(jì)算過程中,當(dāng)輸出的數(shù)據(jù)不再同一分布時(shí),可能會使得loss的值非常大,使得網(wǎng)絡(luò)無法進(jìn)行計(jì)算。產(chǎn)生梯度爆炸的原因是因?yàn)榫W(wǎng)絡(luò)的內(nèi)部協(xié)變量轉(zhuǎn)移,即正向傳播的不同層參數(shù)會將反向訓(xùn)練計(jì)算時(shí)參照的數(shù)據(jù)樣本分布改變。批量歸一化的目的,就是要最大限度地保證每次的正向傳播輸出在同一分布上,這樣反向計(jì)算時(shí)參照的數(shù)據(jù)樣本分布就會與正向計(jì)算時(shí)的數(shù)據(jù)分布一樣了,保證分布的統(tǒng)一。
了解了原理,批量正則化的做法就會變得簡單,即將每一層運(yùn)算出來的數(shù)據(jù)都?xì)w一化成均值為0方差為1的標(biāo)準(zhǔn)高斯分布。這樣就會在保留樣本分布特征的同時(shí),又消除層與層間的分布差異。在實(shí)際的應(yīng)用中,批量歸一化的收斂非???,并且有很強(qiáng)的泛化能力,在一些情況下,完全可以代替前面的正則化,dropout。
批量歸一化的定義
在TensorFlow中有自帶的BN函數(shù)定義:
tf.nn.batch_normalization(x,
maen,
variance,
offset,
scale,
variance_epsilon)
各個(gè)參數(shù)的含義如下:
x:代表輸入
mean:代表樣本的均值
variance:代表方差
offset:代表偏移量,即相加一個(gè)轉(zhuǎn)化值,通常是用激活函數(shù)來做。
scale:代表縮放,即乘以一個(gè)轉(zhuǎn)化值,同理,一般是1
variance_epsilon:為了避免分母是0的情況,給分母加一個(gè)極小值。
要使用這個(gè)函數(shù),還需要另外的一個(gè)函數(shù)的配合:tf.nn.moments(),由此函數(shù)來計(jì)算均值和方差,然后就可以使用BN了,給函數(shù)的定義如下:
tf.nn.moments(x, axes, name, keep_dims=False),axes指定那個(gè)軸求均值和方差。
為了更好的效果,我們使用平滑指數(shù)衰減的方法來優(yōu)化每次的均值和方差,這里可以使用
tf.train.ExponentialMovingAverage()函數(shù),它的作用是讓上一次的值對本次的值有一個(gè)衰減后的影響,從而使的每次的值連起來后會相對平滑一下。
批量歸一化的簡單用法
下面介紹具體的用法,在使用的時(shí)候需要引入頭文件。
from tensorflow.contrib.layers.python.layers import batch_norm
函數(shù)的定義如下:
batch_norm(inputs,
decay,
center,
scale,
epsilon,
activation_fn,
param_initializers=None,
param_regularizers=None,
updates_collections=ops.GraphKeys.UPDATE_OPS,
is_training=True,
reuse=None,
variables_collections=None,
outputs_collections=None,
trainable=True,
batch_weights=None,
fused=False,
data_format=DATA_FORMAT_NHWC,
zero_debias_moving_mean=False,
scope=None,
renorm=False,
renorm_clipping=None,
renorm_decay=0.99)
各參數(shù)的具體含義如下:
inputs:輸入
decay:移動平均值的衰減速度,使用的是平滑指數(shù)衰減的方法更新均值方差,一般會設(shè)置0.9,值太小會導(dǎo)致更新太快,值太大會導(dǎo)致幾乎沒有衰減,容易出現(xiàn)過擬合。
scale:是否進(jìn)行變換,通過乘以一個(gè)gamma值進(jìn)行縮放,我們常習(xí)慣在BN后面接一個(gè)線性變化,如relu。
epsilon:為了避免分母為0,給分母加上一個(gè)極小值,一般默認(rèn)。
is_training:當(dāng)為True時(shí),代表訓(xùn)練過程,這時(shí)會不斷更新樣本集的均值和方差,當(dāng)測試時(shí),要設(shè)置為False,這樣就會使用訓(xùn)練樣本的均值和方差。
updates_collections:在訓(xùn)練時(shí),提供一種內(nèi)置的均值方差更新機(jī)制,即通過圖中的tf.GraphKeys.UPDATE_OPS變量來更新。但它是在每次當(dāng)前批次訓(xùn)練完成后才更新均值和方差,這樣導(dǎo)致當(dāng)前數(shù)據(jù)總是使用前一次的均值和方差,沒有得到最新的值,所以一般設(shè)置為None,讓均值和方差及時(shí)更新,但在性能上稍慢。
reuse:支持變量共享。
具體的代碼如下:
x = tf.placeholder(dtype=tf.float32, shape=[None, 32, 32, 3])
y = tf.placeholder(dtype=tf.float32, shape=[None, 10])
train = tf.Variable(tf.constant(False))
x_images = tf.reshape(x, [-1, 32, 32, 3])
def batch_norm_layer(value, train=False, name='batch_norm'):
if train is not False:
return batch_norm(value, decay=0.9, updates_collections=None, is_training=True)
else:
return batch_norm(value, decay=0.9, updates_collections=None, is_training=False)
w_conv1 = init_cnn.weight_variable([3, 3, 3, 64]) # [-1, 32, 32, 3]
b_conv1 = init_cnn.bias_variable([64])
h_conv1 = tf.nn.relu(batch_norm_layer((init_cnn.conv2d(x_images, w_conv1) + b_conv1), train))
h_pool1 = init_cnn.max_pool_2x2(h_conv1)
w_conv2 = init_cnn.weight_variable([3, 3, 64, 64]) # [-1, 16, 16, 64]
b_conv2 = init_cnn.bias_variable([64])
h_conv2 = tf.nn.relu(batch_norm_layer((init_cnn.conv2d(h_pool1, w_conv2) + b_conv2), train))
h_pool2 = init_cnn.max_pool_2x2(h_conv2)
w_conv3 = init_cnn.weight_variable([3, 3, 64, 32]) # [-1, 18, 8, 32]
b_conv3 = init_cnn.bias_variable([32])
h_conv3 = tf.nn.relu(batch_norm_layer((init_cnn.conv2d(h_pool2, w_conv3) + b_conv3), train))
h_pool3 = init_cnn.max_pool_2x2(h_conv3)
w_conv4 = init_cnn.weight_variable([3, 3, 32, 16]) # [-1, 18, 8, 32]
b_conv4 = init_cnn.bias_variable([16])
h_conv4 = tf.nn.relu(batch_norm_layer((init_cnn.conv2d(h_pool3, w_conv4) + b_conv4), train))
h_pool4 = init_cnn.max_pool_2x2(h_conv4)
w_conv5 = init_cnn.weight_variable([3, 3, 16, 10]) # [-1, 4, 4, 16]
b_conv5 = init_cnn.bias_variable([10])
h_conv5 = tf.nn.relu(batch_norm_layer((init_cnn.conv2d(h_pool4, w_conv5) + b_conv5), train))
h_pool5 = init_cnn.avg_pool_4x4(h_conv5) # [-1, 4, 4, 10]
y_pool = tf.reshape(h_pool5, shape=[-1, 10])
cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=y_pool))
optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cross_entropy)
加上了BN層之后,識別的準(zhǔn)確率顯著的得到了提升,并且計(jì)算速度也是飛起。
到此這篇關(guān)于TensorFlow實(shí)現(xiàn)批量歸一化操作的示例的文章就介紹到這了,更多相關(guān)TensorFlow 批量歸一化操作內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python+OpenCV實(shí)現(xiàn)圖像融合的原理及代碼
這篇文章主要介紹了Python+OpenCV實(shí)現(xiàn)圖像融合的原理及代碼,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2018-12-12
python數(shù)據(jù)挖掘Apriori算法實(shí)現(xiàn)關(guān)聯(lián)分析
這篇文章主要為大家介紹了python數(shù)據(jù)挖掘Apriori算法實(shí)現(xiàn)關(guān)聯(lián)分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05
Python實(shí)現(xiàn)批量讀取word中表格信息的方法
這篇文章主要介紹了Python實(shí)現(xiàn)批量讀取word中表格信息的方法,可實(shí)現(xiàn)針對word文檔的讀取功能,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07
Python利用itchat對微信中好友數(shù)據(jù)實(shí)現(xiàn)簡單分析的方法
Python 熱度一直很高,我感覺這就是得益于擁有大量的包資源,極大的方便了開發(fā)人員的需求。下面這篇文章主要給大家介紹了關(guān)于Python利用itchat實(shí)現(xiàn)對微信中好友數(shù)據(jù)進(jìn)行簡單分析的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考下。2017-11-11
基于python實(shí)現(xiàn)把json數(shù)據(jù)轉(zhuǎn)換成Excel表格
這篇文章主要介紹了基于python實(shí)現(xiàn)把json數(shù)據(jù)轉(zhuǎn)換成Excel表格,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05
Python3日期與時(shí)間戳轉(zhuǎn)換的幾種方法詳解
我們可以利用內(nèi)置模塊 datetime 獲取當(dāng)前時(shí)間,然后將其轉(zhuǎn)換為對應(yīng)的時(shí)間戳。這篇文章主要介紹了Python3日期與時(shí)間戳轉(zhuǎn)換的幾種方法,需要的朋友可以參考下2019-06-06
利用python創(chuàng)建和識別PDF文件包的方法
PDF 文件包(Portfolio)是將多個(gè)文件組合成一個(gè)單獨(dú)的 PDF 文檔,它作為一種綜合且交互式的展示形式,可以展示各種類型的內(nèi)容,本文將介紹如何使用 Spire.PDF for Python 在 Python 中創(chuàng)建和識別 PDF 文件包,需要的朋友可以參考下2024-05-05

