pytorch 實(shí)現(xiàn)凍結(jié)部分參數(shù)訓(xùn)練另一部分
1)添加下面一句話(huà)到模型中
for p in self.parameters(): p.requires_grad = False
比如加載了resnet預(yù)訓(xùn)練模型之后,在resenet的基礎(chǔ)上連接了新的??欤瑀esenet模塊那部分可以先暫時(shí)凍結(jié)不更新,只更新其他部分的參數(shù),那么可以在下面加入上面那句話(huà)
class RESNET_MF(nn.Module): def __init__(self, model, pretrained): super(RESNET_MF, self).__init__() self.resnet = model(pretrained) for p in self.parameters(): p.requires_grad = False #預(yù)訓(xùn)練模型加載進(jìn)來(lái)后全部設(shè)置為不更新參數(shù),然后再后面加層 self.f = SpectralNorm(nn.Conv2d(2048, 512, 1)) self.g = SpectralNorm(nn.Conv2d(2048, 512, 1)) self.h = SpectralNorm(nn.Conv2d(2048, 2048, 1)) ...
同時(shí)在優(yōu)化器中添加:
filter(lambda p: p.requires_grad, model.parameters())
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.001, \ betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)
2) 參數(shù)保存在有序的字典中,那么可以通過(guò)查找參數(shù)的名字對(duì)應(yīng)的id值,進(jìn)行凍結(jié)
查看每一層的代碼:
model_dict = torch.load('net.pth.tar').state_dict() dict_name = list(model_dict) for i, p in enumerate(dict_name): print(i, p)
打印一下這個(gè)文件,可以看到大致是這個(gè)樣子的:
0 gamma 1 resnet.conv1.weight 2 resnet.bn1.weight 3 resnet.bn1.bias 4 resnet.bn1.running_mean 5 resnet.bn1.running_var 6 resnet.layer1.0.conv1.weight 7 resnet.layer1.0.bn1.weight 8 resnet.layer1.0.bn1.bias 9 resnet.layer1.0.bn1.running_mean ....
同樣在模型中添加這樣的代碼:
for i,p in enumerate(net.parameters()): if i < 165: p.requires_grad = False
在優(yōu)化器中添加上面的那句話(huà)可以實(shí)現(xiàn)參數(shù)的屏蔽
補(bǔ)充:pytorch 加載預(yù)訓(xùn)練模型 + 斷點(diǎn)恢復(fù) + 凍結(jié)訓(xùn)練(避坑版本)
1、 預(yù)訓(xùn)練模型網(wǎng)絡(luò)結(jié)構(gòu) = 你要加載模型的網(wǎng)絡(luò)結(jié)構(gòu)
那么直接 套用
path="你的 .pt文件路徑" model = "你的網(wǎng)絡(luò)" checkpoint = torch.load(path, map_location=device) model.load_state_dict(checkpoint)
2、 預(yù)訓(xùn)練模型網(wǎng)絡(luò)結(jié)構(gòu) 與你的網(wǎng)絡(luò)結(jié)構(gòu)不一致
當(dāng)你直接套用上面公式,會(huì)出現(xiàn)類(lèi)似unexpected key module.xxx.weight問(wèn)題
這種情況下,需要具體分析一下網(wǎng)絡(luò)信息,再?zèng)Q定如何加載。
# model_dict 是一個(gè)字典,保存網(wǎng)絡(luò) 各層名稱(chēng)和參數(shù), model_dict = model.state_dict() print(model_dict.keys() # 這里打印出 網(wǎng)絡(luò) 各層名稱(chēng)
checkpoint = torch.load(path,map_location=device) for k, v in checkpoint.items(): print("keys:".k) # 這里打印出 預(yù)訓(xùn)練模型網(wǎng)絡(luò) 各層名稱(chēng), 是字典 【鍵】顯示的另一種方式。
然后,對(duì)比兩者網(wǎng)絡(luò)結(jié)構(gòu)參數(shù) 的異同,
若各層網(wǎng)絡(luò)名稱(chēng) 基本不一致,那這個(gè)預(yù)訓(xùn)練模型基本就沒(méi)法用了,直接換模型吧
若兩者網(wǎng)絡(luò)參數(shù)有很多 類(lèi)似的地方,但又不完全一致,那可以采取如下方式。
(1) 部分網(wǎng)絡(luò)關(guān)鍵字 ---- 完全匹配的情況
model.load_state_dict(checkpoint, strict=True)
load_state_dict 函數(shù)添加 參數(shù) strict=True, 它直接忽略那些沒(méi)有的dict,有相同的就復(fù)制,沒(méi)有就直接放棄賦值!他要求預(yù)訓(xùn)練模型的關(guān)鍵字必須確切地嚴(yán)格地和 網(wǎng)絡(luò)的 state_dict() 函數(shù)返回的關(guān)鍵字相匹配才能賦值。
strict 也不是很智能,適用于那些 網(wǎng)絡(luò)關(guān)鍵字 基本能夠匹配的情況。否則即使加載成功,網(wǎng)絡(luò)參數(shù)也是空的。
(2)大部分網(wǎng)絡(luò)關(guān)鍵字 ---- 部分匹配 (不完全相同,但類(lèi)似),例如
網(wǎng)絡(luò)關(guān)鍵字: backbone.stage0.rbr_dense.conv.weight
預(yù)訓(xùn)練模型 關(guān)鍵字:stage0.rbr_dense.conv.weight
可以看到,網(wǎng)絡(luò)關(guān)鍵字 比預(yù)訓(xùn)練模型 多了一個(gè)前綴,其它完全一致,這種情況下,可以把 預(yù)訓(xùn)練模型的 stage0.rbr_dense.conv.weight 讀入 網(wǎng)絡(luò)的 backbone.stage0.rbr_dense.conv.weight 中。
# 對(duì)于 字典而言,in 或 not in 運(yùn)算符都是基于 key 來(lái)判斷的 model_dict = model.state_dict() checkpoint = torch.load(path,map_location=device) # k 是預(yù)訓(xùn)練模型的一個(gè)關(guān)鍵字, ss是 網(wǎng)絡(luò)的有一個(gè)關(guān)鍵字 for k, v in checkpoint.items(): flag = False for ss in model_dict.keys(): if k in ss: # 在每一個(gè)元素內(nèi)部匹配 s = ss; flag = True; break else: continue if flag: checkpoint[k] = model_dict[s]
3、斷點(diǎn)恢復(fù)
我感覺(jué)這個(gè)和常規(guī)【模型保存加載】方法的區(qū)別主要是 epoch的恢復(fù)
# 模型保存 state = { 'epoch': epoch, 'state_dict': model.state_dict(), 'optimizer': optimizer.state_dict(), ... # 有其他希望保存的內(nèi)容,也可自定義 } torch.save(state, filepath) # 加載模型,恢復(fù)訓(xùn)練 model.load_state_dict(state['state_dict']) optimizer.load_state_dict(state['optimizer']) start_epoch = checkpoint['epoch'] + 1
4、凍結(jié)訓(xùn)練
一般凍結(jié)訓(xùn)練都是針對(duì)【backbone】來(lái)說(shuō)的,較多應(yīng)用于【遷移學(xué)習(xí)】
例如,0-49 Epoch:凍結(jié) backbone進(jìn)行訓(xùn)練;50-99:不凍結(jié)訓(xùn)練。
Init_Epoch = 0 Freeze_Epoch = 50 Unfreeze_Epoch =100 #------------------------------------# # 凍結(jié)一定部分訓(xùn)練 #------------------------------------# for param in model.backbone.parameters(): param.requires_grad = False for epoch in range(Init_Epoch,Freeze_Epoch): # I`m Freeze-training !! pass #------------------------------------# # 解凍后訓(xùn)練 #------------------------------------# for param in model.backbone.parameters(): param.requires_grad = True for epoch in range(Freeze_Epoch,Unfreeze_Epoch): # I`m unfreeze-training !! pass
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
django數(shù)據(jù)模型on_delete, db_constraint的使用詳解
這篇文章主要介紹了django數(shù)據(jù)模型on_delete, db_constraint的使用詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-12-12爬山算法簡(jiǎn)介和Python實(shí)現(xiàn)實(shí)例
這篇文章主要介紹了爬山算法,爬山法(climbing method)是一種優(yōu)化算法,其一般從一個(gè)隨機(jī)的解開(kāi)始,然后逐步找到一個(gè)最優(yōu)解(局部最優(yōu))然后用Python實(shí)現(xiàn)了這個(gè)算法,需要的朋友可以參考下2014-04-04Python用access判斷文件是否被占用的實(shí)例方法
在本篇文章里小編給大家整理的是一篇關(guān)于Python用access判斷文件是否被占用的實(shí)例方法,有興趣的朋友們可以學(xué)習(xí)下。2020-12-12python 與GO中操作slice,list的方式實(shí)例代碼
這篇文章主要介紹了python 與GO中操作slice,list的方式實(shí)例代碼的相關(guān)資料,需要的朋友可以參考下2017-03-03使用python編寫(xiě)一個(gè)語(yǔ)音朗讀鬧鐘功能的示例代碼
這篇文章主要介紹了使用python編寫(xiě)一個(gè)語(yǔ)音朗讀鬧鐘,本文通過(guò)示例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-07-07python使用html2text庫(kù)實(shí)現(xiàn)從HTML轉(zhuǎn)markdown的方法詳解
這篇文章主要介紹了python使用html2text庫(kù)實(shí)現(xiàn)從HTML轉(zhuǎn)markdown的方法,需要的朋友可以參考下2020-02-02Django模板獲取field的verbose_name實(shí)例
這篇文章主要介紹了Django模板獲取field的verbose_name實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05使用Python制作一個(gè)數(shù)據(jù)預(yù)處理小工具(多種操作一鍵完成)
這篇文章主要介紹了使用Python制作一個(gè)數(shù)據(jù)預(yù)處理小工具(多種操作一鍵完成),本文通過(guò)圖文實(shí)例相結(jié)合給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-02-02python中關(guān)于eval函數(shù)的使用及說(shuō)明
這篇文章主要介紹了python中關(guān)于eval函數(shù)的使用及說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-05-05