Pytorch圖像處理注意力機制解析及代碼詳解
什么是注意力機制
注意力機制是一個非常有效的trick,注意力機制的實現(xiàn)方式有許多,我們一起來學(xué)習(xí)一下
注意力機制是深度學(xué)習(xí)常用的一個小技巧,它有多種多樣的實現(xiàn)形式,盡管實現(xiàn)方式多樣,但是每一種注意力機制的實現(xiàn)的核心都是類似的,就是注意力。
注意力機制的核心重點就是讓網(wǎng)絡(luò)關(guān)注到它更需要關(guān)注的地方。
當(dāng)我們使用卷積神經(jīng)網(wǎng)絡(luò)去處理圖片的時候,我們會更希望卷積神經(jīng)網(wǎng)絡(luò)去注意應(yīng)該注意的地方,而不是什么都關(guān)注,我們不可能手動去調(diào)節(jié)需要注意的地方,這個時候,如何讓卷積神經(jīng)網(wǎng)絡(luò)去自適應(yīng)的注意重要的物體變得極為重要。
注意力機制就是實現(xiàn)網(wǎng)絡(luò)自適應(yīng)注意的一個方式。
一般而言,注意力機制可以分為通道注意力機制,空間注意力機制,以及二者的結(jié)合。
注意力機制的實現(xiàn)方式
在深度學(xué)習(xí)中,常見的注意力機制的實現(xiàn)方式有SENet,CBAM,ECA等等。
1、SENet的實現(xiàn)
SENet是通道注意力機制的典型實現(xiàn)。
2017年提出的SENet是最后一屆ImageNet競賽的冠軍,其實現(xiàn)示意圖如下所示,對于輸入進(jìn)來的特征層,我們關(guān)注其每一個通道的權(quán)重,對于SENet而言,其重點是獲得輸入進(jìn)來的特征層,每一個通道的權(quán)值。利用SENet,我們可以讓網(wǎng)絡(luò)關(guān)注它最需要關(guān)注的通道。
其具體實現(xiàn)方式就是:
1、對輸入進(jìn)來的特征層進(jìn)行全局平均池化。
2、然后進(jìn)行兩次全連接,第一次全連接神經(jīng)元個數(shù)較少,第二次全連接神經(jīng)元個數(shù)和輸入特征層相同。
3、在完成兩次全連接后,我們再取一次Sigmoid將值固定到0-1之間,此時我們獲得了輸入特征層每一個通道的權(quán)值(0-1之間)。
4、在獲得這個權(quán)值后,我們將這個權(quán)值乘上原輸入特征層即可。
實現(xiàn)代碼如下:
import torch import torch.nn as nn import math class se_block(nn.Module): def __init__(self, channel, ratio=16): super(se_block, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.fc = nn.Sequential( nn.Linear(channel, channel // ratio, bias=False), nn.ReLU(inplace=True), nn.Linear(channel // ratio, channel, bias=False), nn.Sigmoid() ) def forward(self, x): b, c, _, _ = x.size() y = self.avg_pool(x).view(b, c) y = self.fc(y).view(b, c, 1, 1) return x * y
2、CBAM的實現(xiàn)
CBAM將通道注意力機制和空間注意力機制進(jìn)行一個結(jié)合,相比于SENet只關(guān)注通道的注意力機制可以取得更好的效果。其實現(xiàn)示意圖如下所示,CBAM會對輸入進(jìn)來的特征層,分別進(jìn)行通道注意力機制的處理和空間注意力機制的處理。
下圖是通道注意力機制和空間注意力機制的具體實現(xiàn)方式:
圖像的上半部分為通道注意力機制,通道注意力機制的實現(xiàn)可以分為兩個部分,我們會對輸入進(jìn)來的單個特征層,分別進(jìn)行全局平均池化和全局最大池化。之后對平均池化和最大池化的結(jié)果,利用共享的全連接層進(jìn)行處理,我們會對處理后的兩個結(jié)果進(jìn)行相加,然后取一個sigmoid,此時我們獲得了輸入特征層每一個通道的權(quán)值(0-1之間)。
在獲得這個權(quán)值后,我們將這個權(quán)值乘上原輸入特征層即可。
圖像的下半部分為空間注意力機制,我們會對輸入進(jìn)來的特征層,在每一個特征點的通道上取最大值和平均值。之后將這兩個結(jié)果進(jìn)行一個堆疊,利用一次通道數(shù)為1的卷積調(diào)整通道數(shù),然后取一個sigmoid,此時我們獲得了輸入特征層每一個特征點的權(quán)值(0-1之間)。
在獲得這個權(quán)值后,我們將這個權(quán)值乘上原輸入特征層即可。
實現(xiàn)代碼如下:
class ChannelAttention(nn.Module): def __init__(self, in_planes, ratio=8): super(ChannelAttention, self).__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.max_pool = nn.AdaptiveMaxPool2d(1) # 利用1x1卷積代替全連接 self.fc1 = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False) self.relu1 = nn.ReLU() self.fc2 = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x)))) max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x)))) out = avg_out + max_out return self.sigmoid(out) class SpatialAttention(nn.Module): def __init__(self, kernel_size=7): super(SpatialAttention, self).__init__() assert kernel_size in (3, 7), 'kernel size must be 3 or 7' padding = 3 if kernel_size == 7 else 1 self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = torch.mean(x, dim=1, keepdim=True) max_out, _ = torch.max(x, dim=1, keepdim=True) x = torch.cat([avg_out, max_out], dim=1) x = self.conv1(x) return self.sigmoid(x) class cbam_block(nn.Module): def __init__(self, channel, ratio=8, kernel_size=7): super(cbam_block, self).__init__() self.channelattention = ChannelAttention(channel, ratio=ratio) self.spatialattention = SpatialAttention(kernel_size=kernel_size) def forward(self, x): x = x * self.channelattention(x) x = x * self.spatialattention(x) return x
3、ECA的實現(xiàn)
ECANet是也是通道注意力機制的一種實現(xiàn)形式。ECANet可以看作是SENet的改進(jìn)版。
ECANet的作者認(rèn)為SENet對通道注意力機制的預(yù)測帶來了副作用,捕獲所有通道的依賴關(guān)系是低效并且是不必要的。
在ECANet的論文中,作者認(rèn)為卷積具有良好的跨通道信息獲取能力。
ECA模塊的思想是非常簡單的,它去除了原來SE模塊中的全連接層,直接在全局平均池化之后的特征上通過一個1D卷積進(jìn)行學(xué)習(xí)。
既然使用到了1D卷積,那么1D卷積的卷積核大小的選擇就變得非常重要了,了解過卷積原理的同學(xué)很快就可以明白,1D卷積的卷積核大小會影響注意力機制每個權(quán)重的計算要考慮的通道數(shù)量。用更專業(yè)的名詞就是跨通道交互的覆蓋率。
如下圖所示,左圖是常規(guī)的SE模塊,右圖是ECA模塊。ECA模塊用1D卷積替換兩次全連接。
實現(xiàn)代碼如下:
class eca_block(nn.Module): def __init__(self, channel, b=1, gamma=2): super(eca_block, self).__init__() kernel_size = int(abs((math.log(channel, 2) + b) / gamma)) kernel_size = kernel_size if kernel_size % 2 else kernel_size + 1 self.avg_pool = nn.AdaptiveAvgPool2d(1) self.conv = nn.Conv1d(1, 1, kernel_size=kernel_size, padding=(kernel_size - 1) // 2, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): y = self.avg_pool(x) y = self.conv(y.squeeze(-1).transpose(-1, -2)).transpose(-1, -2).unsqueeze(-1) y = self.sigmoid(y) return x * y.expand_as(x)
注意力機制的應(yīng)用
注意力機制是一個即插即用的模塊,理論上可以放在任何一個特征層后面,可以放在主干網(wǎng)絡(luò),也可以放在加強特征提取網(wǎng)絡(luò)。
由于放置在主干會導(dǎo)致網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重?zé)o法使用,本文以YoloV4-tiny為例,將注意力機制應(yīng)用加強特征提取網(wǎng)絡(luò)上。
如下圖所示,我們在主干網(wǎng)絡(luò)提取出來的兩個有效特征層上增加了注意力機制,同時對上采樣后的結(jié)果增加了注意力機制。
實現(xiàn)代碼如下:
attention_block = [se_block, cbam_block, eca_block] #---------------------------------------------------# # 特征層->最后的輸出 #---------------------------------------------------# class YoloBody(nn.Module): def __init__(self, anchors_mask, num_classes, phi=0): super(YoloBody, self).__init__() self.phi = phi self.backbone = darknet53_tiny(None) self.conv_for_P5 = BasicConv(512,256,1) self.yolo_headP5 = yolo_head([512, len(anchors_mask[0]) * (5 + num_classes)],256) self.upsample = Upsample(256,128) self.yolo_headP4 = yolo_head([256, len(anchors_mask[1]) * (5 + num_classes)],384) if 1 <= self.phi and self.phi <= 3: self.feat1_att = attention_block[self.phi - 1](256) self.feat2_att = attention_block[self.phi - 1](512) self.upsample_att = attention_block[self.phi - 1](128) def forward(self, x): #---------------------------------------------------# # 生成CSPdarknet53_tiny的主干模型 # feat1的shape為26,26,256 # feat2的shape為13,13,512 #---------------------------------------------------# feat1, feat2 = self.backbone(x) if 1 <= self.phi and self.phi <= 3: feat1 = self.feat1_att(feat1) feat2 = self.feat2_att(feat2) # 13,13,512 -> 13,13,256 P5 = self.conv_for_P5(feat2) # 13,13,256 -> 13,13,512 -> 13,13,255 out0 = self.yolo_headP5(P5) # 13,13,256 -> 13,13,128 -> 26,26,128 P5_Upsample = self.upsample(P5) # 26,26,256 + 26,26,128 -> 26,26,384 if 1 <= self.phi and self.phi <= 3: P5_Upsample = self.upsample_att(P5_Upsample) P4 = torch.cat([P5_Upsample,feat1],axis=1) # 26,26,384 -> 26,26,256 -> 26,26,255 out1 = self.yolo_headP4(P4) return out0, out1
以上就是Pytorch圖像處理注意力機制解析及代碼詳解的詳細(xì)內(nèi)容,更多關(guān)于Pytorch圖像處理注意力機制的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python產(chǎn)生Gnuplot繪圖數(shù)據(jù)的方法
今天小編就為大家分享一篇Python產(chǎn)生Gnuplot繪圖數(shù)據(jù)的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11Python基于sklearn庫的分類算法簡單應(yīng)用示例
這篇文章主要介紹了Python基于sklearn庫的分類算法,結(jié)合簡單實例形式分析了Python使用sklearn庫封裝樸素貝葉斯、K近鄰、邏輯回歸、SVM向量機等常見機器學(xué)習(xí)算法的分類調(diào)用相關(guān)操作技巧,需要的朋友可以參考下2018-07-07通過python爬蟲mechanize庫爬取本機ip地址的方法
python中的mechanize算是一個比較古老的庫了,在python2的時代中,使用的多一些,在python3以后就很少使用了,現(xiàn)在已經(jīng)是2202年了,可能很多人都沒聽說過mechanize,這不要緊,我們先來簡單的講解一下,如何使用mechanize,感興趣的朋友一起看看吧2022-08-08