快捷導(dǎo)航

Keras框架中的epoch、bacth、batch size、iteration使用介紹

更新時(shí)間：2020年06月10日 10:23:31 作者：msmw2

這篇文章主要介紹了Keras框架中的epoch、bacth、batch size、iteration使用介紹，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

1、epoch

Keras官方文檔中給出的解釋是：“簡(jiǎn)單說(shuō)，epochs指的就是訓(xùn)練過(guò)程接中數(shù)據(jù)將被“輪”多少次”

（1）釋義：

訓(xùn)練過(guò)程中當(dāng)一個(gè)完整的數(shù)據(jù)集通過(guò)了神經(jīng)網(wǎng)絡(luò)一次并且返回了一次，這個(gè)過(guò)程稱為一個(gè)epoch，網(wǎng)絡(luò)會(huì)在每個(gè)epoch結(jié)束時(shí)報(bào)告關(guān)于模型學(xué)習(xí)進(jìn)度的調(diào)試信息。

（2）為什么要訓(xùn)練多個(gè)epoch，即數(shù)據(jù)要被“輪”多次

在神經(jīng)網(wǎng)絡(luò)中傳遞完整的數(shù)據(jù)集一次是不夠的，對(duì)于有限的數(shù)據(jù)集（是在批梯度下降情況下），使用一個(gè)迭代過(guò)程，更新權(quán)重一次或者說(shuō)使用一個(gè)epoch是不夠的，需要將完整的數(shù)據(jù)集在同樣的神經(jīng)網(wǎng)絡(luò)中傳遞多次，隨著epoch次數(shù)增加，神經(jīng)網(wǎng)絡(luò)中的權(quán)重的更新次數(shù)也增加，模型從欠擬合變得過(guò)擬合。

2、batch

（1）keras官方文檔中給出的解釋：

深度學(xué)習(xí)的優(yōu)化算法，說(shuō)白了就是梯度下降。每次的參數(shù)更新有兩種方式：

第一種，遍歷全部數(shù)據(jù)集算一次損失函數(shù)，然后算函數(shù)對(duì)各個(gè)參數(shù)的梯度，更新梯度。這種方法每更新一次參數(shù)都要把數(shù)據(jù)集里的所有樣本都看一遍，計(jì)算量開(kāi)銷大，計(jì)算速度慢，不支持在線學(xué)習(xí)，這種稱為Batch gradient descent,批梯度下降

另一種，每看一個(gè)數(shù)據(jù)就算一下?lián)p失函數(shù)，然后求梯度更新參數(shù)，這個(gè)稱為隨機(jī)梯度下降，stochastic gradient descent.這個(gè)方法速度比較快，但是收斂性能不太好，可能在最優(yōu)點(diǎn)附近晃來(lái)晃去，hit不到最優(yōu)點(diǎn)，兩次參數(shù)的更新也有可能互相抵消掉，造成目標(biāo)函數(shù)震蕩的比較劇烈。

為了克服兩種方法的缺點(diǎn)，現(xiàn)在一般采用的是一種折中手段，mini-batch gradient decent，小批的梯度下降，這種方法把數(shù)據(jù)分為若干個(gè)批，按批來(lái)更新參數(shù)，這樣，一個(gè)批中的一組數(shù)據(jù)共同決定了本次梯度的方向，下降起來(lái)就不容易跑偏，減少了隨機(jī)性。另一方面因?yàn)榕臉颖緮?shù)與整個(gè)數(shù)據(jù)集相比小了很多，計(jì)算量也不是很大。

（2）batch_size:

Keras中參數(shù)更新是按批進(jìn)行的，就是小批梯度下降算法，把數(shù)據(jù)分為若干組，稱為batch，按批更新參數(shù)，這樣，一個(gè)批中的一組數(shù)據(jù)共同決定了本次梯度的方向，一批數(shù)據(jù)中包含的樣本數(shù)量稱為batch_size。

3、iteration

將數(shù)據(jù)分為幾個(gè)batch而不是一次性通過(guò)神經(jīng)網(wǎng)絡(luò)時(shí)，iteration是batch需要完成一個(gè)epoch的次數(shù)，也就是number of batches (區(qū)別于 batch size) ，在一次epoch中 number of batches = iteration = 訓(xùn)練樣本總數(shù) / batch size

比如，對(duì)于一個(gè)有2000個(gè)訓(xùn)練樣本的數(shù)據(jù)集，將2000個(gè)樣本分成大小為500的batch，那么完成一個(gè)epoch需要4個(gè)iteration

4、batch size 和 epoch 的選取

（1）訓(xùn)練網(wǎng)絡(luò)過(guò)程中，一個(gè)batch中的樣本規(guī)模大小，即batch size 和epoch個(gè)數(shù)一起通過(guò)影響更新權(quán)重的頻率定義了網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的速度。

對(duì)于固定的epoch：

（a）在合理范圍內(nèi)，隨著batch size增大，跑完一次epoch所需的迭代數(shù)減少，對(duì)于相同數(shù)據(jù)量的處理速度進(jìn)一步加快，確定的下降方向越準(zhǔn)，引起的訓(xùn)練震蕩越小。

（b）batch size 過(guò)大時(shí)，跑完一次epoch所需的迭代數(shù)減少，想要達(dá)到相同的精度，所花費(fèi)的時(shí)間大大增加了，從而對(duì)參數(shù)的修正也變得緩慢，batch size增大到一定程度，其確定的下降方向已經(jīng)基本不再變化

對(duì)于固定的batch size:

（a）在合理范圍內(nèi)隨著epoch的增加，訓(xùn)練集和測(cè)試集的誤差呈下降趨勢(shì)，模型的訓(xùn)練有了效果

（b）隨著epoch的繼續(xù)增加，訓(xùn)練集的誤差呈下降而測(cè)試集的誤差呈上升趨勢(shì)，模型過(guò)擬合訓(xùn)練集對(duì)測(cè)試集性能不好

（2）實(shí)驗(yàn)實(shí)驗(yàn)，通過(guò)實(shí)驗(yàn)+經(jīng)驗(yàn)選取合適的batch size 和 epoch

補(bǔ)充知識(shí)：keras指定batchsize

具體的測(cè)試可以將keras中的第6.4程序

1、Sequential情況下

如果想要指定批次的大小，需要在第一層的輸入形狀中使用batch_input_shape

而不能使用input_shape，因?yàn)閕nput_shape不能指定批次的大小，批次只能為None

input_shape和batch_input_shape。

input_shape 不包含批量大小，

batch_input_shape是全情投入的形狀，包括批量大小。