快捷導(dǎo)航

Pytorch圖像處理注意力機(jī)制解析及代碼詳解

更新時(shí)間：2022年05月07日 16:38:37 作者：Bubbliiiing

這篇文章主要為大家介紹了Pytorch圖像處理注意力機(jī)制解析及代碼詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

什么是注意力機(jī)制

注意力機(jī)制是一個(gè)非常有效的trick，注意力機(jī)制的實(shí)現(xiàn)方式有許多，我們一起來學(xué)習(xí)一下

注意力機(jī)制是深度學(xué)習(xí)常用的一個(gè)小技巧，它有多種多樣的實(shí)現(xiàn)形式，盡管實(shí)現(xiàn)方式多樣，但是每一種注意力機(jī)制的實(shí)現(xiàn)的核心都是類似的，就是注意力。

注意力機(jī)制的核心重點(diǎn)就是讓網(wǎng)絡(luò)關(guān)注到它更需要關(guān)注的地方。

當(dāng)我們使用卷積神經(jīng)網(wǎng)絡(luò)去處理圖片的時(shí)候，我們會(huì)更希望卷積神經(jīng)網(wǎng)絡(luò)去注意應(yīng)該注意的地方，而不是什么都關(guān)注，我們不可能手動(dòng)去調(diào)節(jié)需要注意的地方，這個(gè)時(shí)候，如何讓卷積神經(jīng)網(wǎng)絡(luò)去自適應(yīng)的注意重要的物體變得極為重要。

注意力機(jī)制就是實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)注意的一個(gè)方式。

一般而言，注意力機(jī)制可以分為通道注意力機(jī)制，空間注意力機(jī)制，以及二者的結(jié)合。

代碼下載

注意力機(jī)制的實(shí)現(xiàn)方式

在深度學(xué)習(xí)中，常見的注意力機(jī)制的實(shí)現(xiàn)方式有SENet，CBAM，ECA等等。

1、SENet的實(shí)現(xiàn)

SENet是通道注意力機(jī)制的典型實(shí)現(xiàn)。

2017年提出的SENet是最后一屆ImageNet競賽的冠軍，其實(shí)現(xiàn)示意圖如下所示，對于輸入進(jìn)來的特征層，我們關(guān)注其每一個(gè)通道的權(quán)重，對于SENet而言，其重點(diǎn)是獲得輸入進(jìn)來的特征層，每一個(gè)通道的權(quán)值。利用SENet，我們可以讓網(wǎng)絡(luò)關(guān)注它最需要關(guān)注的通道。

其具體實(shí)現(xiàn)方式就是：

1、對輸入進(jìn)來的特征層進(jìn)行全局平均池化。

2、然后進(jìn)行兩次全連接，第一次全連接神經(jīng)元個(gè)數(shù)較少，第二次全連接神經(jīng)元個(gè)數(shù)和輸入特征層相同。

3、在完成兩次全連接后，我們再取一次Sigmoid將值固定到0-1之間，此時(shí)我們獲得了輸入特征層每一個(gè)通道的權(quán)值（0-1之間）。

4、在獲得這個(gè)權(quán)值后，我們將這個(gè)權(quán)值乘上原輸入特征層即可。

實(shí)現(xiàn)代碼如下：

import torch
import torch.nn as nn
import math
class se_block(nn.Module):
    def __init__(self, channel, ratio=16):
        super(se_block, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
                nn.Linear(channel, channel // ratio, bias=False),
                nn.ReLU(inplace=True),
                nn.Linear(channel // ratio, channel, bias=False),
                nn.Sigmoid()
        )
    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y

2、CBAM的實(shí)現(xiàn)

CBAM將通道注意力機(jī)制和空間注意力機(jī)制進(jìn)行一個(gè)結(jié)合，相比于SENet只關(guān)注通道的注意力機(jī)制可以取得更好的效果。其實(shí)現(xiàn)示意圖如下所示，CBAM會(huì)對輸入進(jìn)來的特征層，分別進(jìn)行通道注意力機(jī)制的處理和空間注意力機(jī)制的處理。

下圖是通道注意力機(jī)制和空間注意力機(jī)制的具體實(shí)現(xiàn)方式：

圖像的上半部分為通道注意力機(jī)制，通道注意力機(jī)制的實(shí)現(xiàn)可以分為兩個(gè)部分，我們會(huì)對輸入進(jìn)來的單個(gè)特征層，分別進(jìn)行全局平均池化和全局最大池化。之后對平均池化和最大池化的結(jié)果，利用共享的全連接層進(jìn)行處理，我們會(huì)對處理后的兩個(gè)結(jié)果進(jìn)行相加，然后取一個(gè)sigmoid，此時(shí)我們獲得了輸入特征層每一個(gè)通道的權(quán)值（0-1之間）。

在獲得這個(gè)權(quán)值后，我們將這個(gè)權(quán)值乘上原輸入特征層即可。

圖像的下半部分為空間注意力機(jī)制，我們會(huì)對輸入進(jìn)來的特征層，在每一個(gè)特征點(diǎn)的通道上取最大值和平均值。之后將這兩個(gè)結(jié)果進(jìn)行一個(gè)堆疊，利用一次通道數(shù)為1的卷積調(diào)整通道數(shù)，然后取一個(gè)sigmoid，此時(shí)我們獲得了輸入特征層每一個(gè)特征點(diǎn)的權(quán)值（0-1之間）。

在獲得這個(gè)權(quán)值后，我們將這個(gè)權(quán)值乘上原輸入特征層即可。

實(shí)現(xiàn)代碼如下：

class ChannelAttention(nn.Module):
    def __init__(self, in_planes, ratio=8):
        super(ChannelAttention, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)
        # 利用1x1卷積代替全連接
        self.fc1   = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False)
        self.relu1 = nn.ReLU()
        self.fc2   = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False)
        self.sigmoid = nn.Sigmoid()
    def forward(self, x):
        avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
        max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
        out = avg_out + max_out
        return self.sigmoid(out)
class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        super(SpatialAttention, self).__init__()
        assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
        padding = 3 if kernel_size == 7 else 1
        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
        self.sigmoid = nn.Sigmoid()
    def forward(self, x):
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        x = torch.cat([avg_out, max_out], dim=1)
        x = self.conv1(x)
        return self.sigmoid(x)
class cbam_block(nn.Module):
    def __init__(self, channel, ratio=8, kernel_size=7):
        super(cbam_block, self).__init__()
        self.channelattention = ChannelAttention(channel, ratio=ratio)
        self.spatialattention = SpatialAttention(kernel_size=kernel_size)
    def forward(self, x):
        x = x * self.channelattention(x)
        x = x * self.spatialattention(x)
        return x

3、ECA的實(shí)現(xiàn)

ECANet是也是通道注意力機(jī)制的一種實(shí)現(xiàn)形式。ECANet可以看作是SENet的改進(jìn)版。

ECANet的作者認(rèn)為SENet對通道注意力機(jī)制的預(yù)測帶來了副作用，捕獲所有通道的依賴關(guān)系是低效并且是不必要的。

在ECANet的論文中，作者認(rèn)為卷積具有良好的跨通道信息獲取能力。

ECA模塊的思想是非常簡單的，它去除了原來SE模塊中的全連接層，直接在全局平均池化之后的特征上通過一個(gè)1D卷積進(jìn)行學(xué)習(xí)。

既然使用到了1D卷積，那么1D卷積的卷積核大小的選擇就變得非常重要了，了解過卷積原理的同學(xué)很快就可以明白，1D卷積的卷積核大小會(huì)影響注意力機(jī)制每個(gè)權(quán)重的計(jì)算要考慮的通道數(shù)量。用更專業(yè)的名詞就是跨通道交互的覆蓋率。

如下圖所示，左圖是常規(guī)的SE模塊，右圖是ECA模塊。ECA模塊用1D卷積替換兩次全連接。

實(shí)現(xiàn)代碼如下：

class eca_block(nn.Module):
    def __init__(self, channel, b=1, gamma=2):
        super(eca_block, self).__init__()
        kernel_size = int(abs((math.log(channel, 2) + b) / gamma))
        kernel_size = kernel_size if kernel_size % 2 else kernel_size + 1
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.conv = nn.Conv1d(1, 1, kernel_size=kernel_size, padding=(kernel_size - 1) // 2, bias=False) 
        self.sigmoid = nn.Sigmoid()
    def forward(self, x):
        y = self.avg_pool(x)
        y = self.conv(y.squeeze(-1).transpose(-1, -2)).transpose(-1, -2).unsqueeze(-1)
        y = self.sigmoid(y)
        return x * y.expand_as(x)

注意力機(jī)制的應(yīng)用

注意力機(jī)制是一個(gè)即插即用的模塊，理論上可以放在任何一個(gè)特征層后面，可以放在主干網(wǎng)絡(luò)，也可以放在加強(qiáng)特征提取網(wǎng)絡(luò)。

由于放置在主干會(huì)導(dǎo)致網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重?zé)o法使用，本文以YoloV4-tiny為例，將注意力機(jī)制應(yīng)用加強(qiáng)特征提取網(wǎng)絡(luò)上。

如下圖所示，我們在主干網(wǎng)絡(luò)提取出來的兩個(gè)有效特征層上增加了注意力機(jī)制，同時(shí)對上采樣后的結(jié)果增加了注意力機(jī)制。

實(shí)現(xiàn)代碼如下：

attention_block = [se_block, cbam_block, eca_block]
#---------------------------------------------------#
#   特征層->最后的輸出
#---------------------------------------------------#
class YoloBody(nn.Module):
    def __init__(self, anchors_mask, num_classes, phi=0):
        super(YoloBody, self).__init__()
        self.phi            = phi
        self.backbone       = darknet53_tiny(None)
        self.conv_for_P5    = BasicConv(512,256,1)
        self.yolo_headP5    = yolo_head([512, len(anchors_mask[0]) * (5 + num_classes)],256)
        self.upsample       = Upsample(256,128)
        self.yolo_headP4    = yolo_head([256, len(anchors_mask[1]) * (5 + num_classes)],384)
        if 1 <= self.phi and self.phi <= 3:
            self.feat1_att      = attention_block[self.phi - 1](256)
            self.feat2_att      = attention_block[self.phi - 1](512)
            self.upsample_att   = attention_block[self.phi - 1](128)
    def forward(self, x):
        #---------------------------------------------------#
        #   生成CSPdarknet53_tiny的主干模型
        #   feat1的shape為26,26,256
        #   feat2的shape為13,13,512
        #---------------------------------------------------#
        feat1, feat2 = self.backbone(x)
        if 1 <= self.phi and self.phi <= 3:
            feat1 = self.feat1_att(feat1)
            feat2 = self.feat2_att(feat2)
        # 13,13,512 -> 13,13,256
        P5 = self.conv_for_P5(feat2)
        # 13,13,256 -> 13,13,512 -> 13,13,255
        out0 = self.yolo_headP5(P5) 
        # 13,13,256 -> 13,13,128 -> 26,26,128
        P5_Upsample = self.upsample(P5)
        # 26,26,256 + 26,26,128 -> 26,26,384
        if 1 <= self.phi and self.phi <= 3:
            P5_Upsample = self.upsample_att(P5_Upsample)
        P4 = torch.cat([P5_Upsample,feat1],axis=1)
        # 26,26,384 -> 26,26,256 -> 26,26,255
        out1 = self.yolo_headP4(P4)
        return out0, out1

以上就是Pytorch圖像處理注意力機(jī)制解析及代碼詳解的詳細(xì)內(nèi)容，更多關(guān)于Pytorch圖像處理注意力機(jī)制的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: