快捷導(dǎo)航

解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題

更新時間：2020年06月23日 09:23:20 作者：tsq292978891

這篇文章主要介紹了解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

背景

在公司用多卡訓(xùn)練模型，得到權(quán)值文件后保存，然后回到實驗室，沒有多卡的環(huán)境，用單卡訓(xùn)練，加載模型時出錯，因為單卡機器上，沒有使用DataParallel來加載模型，所以會出現(xiàn)加載錯誤。

原因

DataParallel包裝的模型在保存時，權(quán)值參數(shù)前面會帶有module字符，然而自己在單卡環(huán)境下，沒有用DataParallel包裝的模型權(quán)值參數(shù)不帶module。本質(zhì)上保存的權(quán)值文件是一個有序字典。

解決方法

1.在單卡環(huán)境下，用DataParallel包裝模型。

2.自己重寫Load函數(shù)，靈活。

from collections import OrderedDict
def myOwnLoad(model, check):
  modelState = model.state_dict()
  tempState = OrderedDict()
  for i in range(len(check.keys())-2):
    print modelState.keys()[i], check.keys()[i]
    tempState[modelState.keys()[i]] = check[check.keys()[i]]
  temp = [[0.02]*1024 for i in range(200)] # mean=0, std=0.02
  tempState['myFc.weight'] = torch.normal(mean=0, std=torch.FloatTensor(temp)).cuda()
  tempState['myFc.bias']  = torch.normal(mean=0, std=torch.FloatTensor([0]*200)).cuda()

  model.load_state_dict(tempState)
  return model

補充知識：Pytorch：多GPU訓(xùn)練網(wǎng)絡(luò)與單GPU訓(xùn)練網(wǎng)絡(luò)保存模型的區(qū)別

測試環(huán)境：Python3.6 + Pytorch0.4

在pytorch中，使用多GPU訓(xùn)練網(wǎng)絡(luò)需要用到【nn.DataParallel】：

gpu_ids = [0, 1, 2, 3]
device = t.device("cuda:0" if t.cuda.is_available() else "cpu") # 只能單GPU運行
net = LeNet()
if len(gpu_ids) > 1:
  net = nn.DataParallel(net, device_ids=gpu_ids)
net = net.to(device)

而使用單GPU訓(xùn)練網(wǎng)絡(luò)：

device = t.device("cuda:0" if t.cuda.is_available() else "cpu") # 只能單GPU運行
net = LeNet().to(device)

由于多GPU訓(xùn)練使用了 nn.DataParallel(net, device_ids=gpu_ids) 對網(wǎng)絡(luò)進行封裝，因此在原始網(wǎng)絡(luò)結(jié)構(gòu)中添加了一層module。網(wǎng)絡(luò)結(jié)構(gòu)如下：

DataParallel(
 (module): LeNet(
  (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
 )
)

而不使用多GPU訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)如下：

LeNet(
 (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
 (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
 (fc1): Linear(in_features=400, out_features=120, bias=True)
 (fc2): Linear(in_features=120, out_features=84, bias=True)
 (fc3): Linear(in_features=84, out_features=10, bias=True)
)

由于在測試模型時不需要用到多GPU測試，因此在保存模型時應(yīng)該把module層去掉。如下：

if len(gpu_ids) > 1:
  t.save(net.module.state_dict(), "model.pth")
else:
  t.save(net.state_dict(), "model.pth")

以上這篇解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具