Keras SGD 隨機梯度下降優(yōu)化器參數(shù)設置方式

更新時間：2020年06月19日 15:37:26 作者：DexterLeiX

這篇文章主要介紹了Keras SGD 隨機梯度下降優(yōu)化器參數(shù)設置方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

SGD 隨機梯度下降

Keras 中包含了各式優(yōu)化器供我們使用，但通常我會傾向于使用 SGD 驗證模型能否快速收斂，然后調(diào)整不同的學習速率看看模型最后的性能，然后再嘗試使用其他優(yōu)化器。

Keras 中文文檔中對 SGD 的描述如下：

keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)

隨機梯度下降法，支持動量參數(shù)，支持學習衰減率，支持Nesterov動量

參數(shù)：

lr：大或等于0的浮點數(shù)，學習率

momentum：大或等于0的浮點數(shù)，動量參數(shù)

decay：大或等于0的浮點數(shù)，每次更新后的學習率衰減值

nesterov：布爾值，確定是否使用Nesterov動量

參數(shù)設置

Time-Based Learning Rate Schedule

Keras 已經(jīng)內(nèi)置了一個基于時間的學習速率調(diào)整表，并通過上述參數(shù)中的 decay 來實現(xiàn)，學習速率的調(diào)整公式如下：

LearningRate = LearningRate * 1/(1 + decay * epoch)

當我們初始化參數(shù)為：

LearningRate = 0.1
decay = 0.001

大致變化曲線如下（非實際曲線，僅示意）：

當然，方便起見，我們可以將優(yōu)化器設置如下，使其學習速率隨著訓練輪次變化：

sgd = SGD(lr=learning_rate, decay=learning_rate/nb_epoch, momentum=0.9, nesterov=True)

Drop-Based Learning Rate Schedule

另外一種學習速率的調(diào)整方法思路是保持一個恒定學習速率一段時間后立即降低，是一種突變的方式。通常整個變化趨勢為指數(shù)形式。

對應的學習速率變化公式如下：

LearningRate = InitialLearningRate * DropRate^floor(Epoch / EpochDrop)

實現(xiàn)需要使用 Keras 中的 LearningRateScheduler 模塊：

from keras.callbacks import LearningRateScheduler
# learning rate schedule
def step_decay(epoch):
 initial_lrate = 0.1
 drop = 0.5
 epochs_drop = 10.0
 lrate = initial_lrate * math.pow(drop, math.floor((1+epoch)/epochs_drop))
 return lrate

lrate = LearningRateScheduler(step_decay)

# Compile model
sgd = SGD(lr=0.0, momentum=0.9, decay=0.0, nesterov=False)
model.compile(loss=..., optimizer=sgd, metrics=['accuracy'])

# Fit the model
model.fit(X, Y, ..., callbacks=[lrate])

補充知識：keras中的BGD和SGD

關于BGD和SGD

首先BGD為批梯度下降，即所有樣本計算完畢后才進行梯度更新；而SGD為隨機梯度下降，隨機計算一次樣本就進行梯度下降，所以速度快很多但容易陷入局部最優(yōu)值。

折中的辦法是采用小批的梯度下降，即把數(shù)據(jù)分成若干個批次，一批來進行一次梯度下降，減少隨機性，計算量也不是很大。 mini-batch

keras中的batch_size就是小批梯度下降。

以上這篇Keras SGD 隨機梯度下降優(yōu)化器參數(shù)設置方式就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: