快捷導航

PyTorch的Optimizer訓練工具的實現(xiàn)

更新時間：2019年08月18日 08:48:14 作者：Steven·簡談

這篇文章主要介紹了PyTorch的Optimizer訓練工具的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

torch.optim 是一個實現(xiàn)了各種優(yōu)化算法的庫。大部分常用的方法得到支持，并且接口具備足夠的通用性，使得未來能夠集成更加復雜的方法。

使用 torch.optim，必須構(gòu)造一個 optimizer 對象。這個對象能保存當前的參數(shù)狀態(tài)并且基于計算梯度更新參數(shù)。

例如：

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr = 0.0001)

構(gòu)造方法

Optimizer 的 __init__ 函數(shù)接收兩個參數(shù)：第一個是需要被優(yōu)化的參數(shù)，其形式必須是 Tensor 或者 dict；第二個是優(yōu)化選項，包括學習率、衰減率等。

被優(yōu)化的參數(shù)一般是 model.parameters()，當有特殊需求時可以手動寫一個 dict 來作為輸入。

例如：

optim.SGD([
  {'params': model.base.parameters()},
  {'params': model.classifier.parameters(), 'lr': 1e-3}
], lr=1e-2, momentum=0.9)

這樣 model.base 或者說大部分的參數(shù)使用 1e-2 的學習率，而 model.classifier 的參數(shù)使用 1e-3 的學習率，并且 0.9 的 momentum 被用于所有的參數(shù)。

梯度控制

在進行反向傳播之前，必須要用 zero_grad() 清空梯度。具體的方法是遍歷 self.param_groups 中全部參數(shù)，根據(jù) grad 屬性做清除。

例如：

for input, target in dataset:
  def closure():
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    return loss
  optimizer.step(closure)

調(diào)整學習率

lr_scheduler 用于在訓練過程中根據(jù)輪次靈活調(diào)控學習率。調(diào)整學習率的方法有很多種，但是其使用方法是大致相同的：用一個 Schedule 把原始 Optimizer 裝飾上，然后再輸入一些相關(guān)參數(shù)，然后用這個 Schedule 做 step()。

比如以 LambdaLR 舉例：

lambda1 = lambda epoch: epoch // 30
lambda2 = lambda epoch: 0.95 ** epoch
scheduler = LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])
for epoch in range(100):
 train(...)
 validate(...)
 scheduler.step()

上面用了兩種優(yōu)化器

優(yōu)化方法

optim 庫中實現(xiàn)的算法包括 Adadelta、Adagrad、Adam、基于離散張量的 Adam、基于 ∞ \infty∞ 范式的 Adam（Adamax）、Averaged SGD、L-BFGS、RMSProp、resilient BP、基于 Nesterov 的 SGD 算法。

以 SGD 舉例：

optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
optimizer.zero_grad()
loss_fn(model(input), target).backward()
optimizer.step()

其它方法的使用也一樣：

opt_Adam = torch.optim.Adam(net_Adam.parameters(), lr=0.1, betas=(0.9, 0.99)
opt_RMSprop = torch.optim.RMSprop(net_RMSprop.parameters(), lr=0.1, alpha=0.9)
...
...

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: