快捷導(dǎo)航

PyTorch使用CNN實(shí)現(xiàn)圖像分類(lèi)

更新時(shí)間：2025年03月13日 08:49:47 作者：夢(mèng)想畫(huà)家

圖像分類(lèi)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)基本任務(wù),也是深度學(xué)習(xí)技術(shù)的一個(gè)常見(jiàn)應(yīng)用,近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)（cnn）和PyTorch庫(kù)的結(jié)合由于其易用性和魯棒性已經(jīng)成為執(zhí)行圖像分類(lèi)的流行選擇,所以本文給大家介紹了PyTorch使用CNN實(shí)現(xiàn)圖像分類(lèi)的示例,需要的朋友可以參考下

理解卷積神經(jīng)網(wǎng)絡(luò)（cnn）

卷積神經(jīng)網(wǎng)絡(luò)是一類(lèi)深度神經(jīng)網(wǎng)絡(luò)，對(duì)分析視覺(jué)圖像特別有效。他們利用多層構(gòu)建一個(gè)可以直接從圖像中識(shí)別模式的模型。這些模型對(duì)于圖像識(shí)別和分類(lèi)等任務(wù)特別有用，因?yàn)樗鼈儾恍枰謩?dòng)提取特征。

cnn的關(guān)鍵組成部分

卷積層：這些層對(duì)輸入應(yīng)用卷積操作，將結(jié)果傳遞給下一層。每個(gè)過(guò)濾器（或核）可以捕獲不同的特征，如邊緣、角或其他模式。
池化層：這些層減少了表示的空間大小，以減少參數(shù)的數(shù)量并加快計(jì)算速度。池化層簡(jiǎn)化了后續(xù)層的處理。
完全連接層：在這些層中，神經(jīng)元與前一層的所有激活具有完全連接，就像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)一樣。它們有助于對(duì)前一層識(shí)別的對(duì)象進(jìn)行分類(lèi)。

使用PyTorch進(jìn)行圖像分類(lèi)

PyTorch是開(kāi)源的深度學(xué)習(xí)庫(kù)，提供了極大的靈活性和多功能性。研究人員和從業(yè)人員廣泛使用它來(lái)輕松有效地實(shí)現(xiàn)尖端的機(jī)器學(xué)習(xí)模型。

設(shè)置PyTorch

首先，確保在開(kāi)發(fā)環(huán)境中安裝了PyTorch。你可以通過(guò)pip安裝它：

pip install torch torchvision

用PyTorch創(chuàng)建簡(jiǎn)單的CNN示例

下面是如何定義簡(jiǎn)單的CNN來(lái)使用PyTorch對(duì)圖像進(jìn)行分類(lèi)的示例。

import torch
import torch.nn as nn
import torch.nn.functional as F

# 定義CNN模型（修復(fù)了變量引用問(wèn)題）
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)      # 第一個(gè)卷積層：3輸入通道，6輸出通道，5x5卷積核
        self.pool = nn.MaxPool2d(2, 2)        # 最大池化層：2x2窗口，步長(zhǎng)2
        self.conv2 = nn.Conv2d(6, 16, 5)     # 第二個(gè)卷積層：6輸入通道，16輸出通道，5x5卷積核
        self.fc1 = nn.Linear(16 * 5 * 5, 120)# 全連接層1：400輸入 -> 120輸出
        self.fc2 = nn.Linear(120, 84)      # 全連接層2：120輸入 -> 84輸出
        self.fc3 = nn.Linear(84, 10)       # 輸出層：84輸入 -> 10類(lèi) logits

    def forward(self, x):
        # 輸入形狀：[batch_size, 3, 32, 32]
        x = self.pool(F.relu(self.conv1(x)))  # -> [batch, 6, 14, 14]（池化后尺寸減半）
        x = self.pool(F.relu(self.conv2(x)))  # -> [batch, 16, 5, 5] 
        x = x.view(-1, 16 * 5 * 5)            # 展平為一維向量：16 * 5 * 5=400
        x = F.relu(self.fc1(x))             # -> [batch, 120]
        x = F.relu(self.fc2(x))             # -> [batch, 84]
        x = self.fc3(x)                     # -> [batch, 10]（未應(yīng)用softmax，配合CrossEntropyLoss使用）
        return x

這個(gè)特殊的網(wǎng)絡(luò)接受一個(gè)輸入圖像，通過(guò)兩組卷積和池化層，然后是三個(gè)完全連接的層。根據(jù)數(shù)據(jù)集的復(fù)雜性和大小調(diào)整網(wǎng)絡(luò)的架構(gòu)和超參數(shù)。

模型定義：

SimpleCNN 繼承自 nn.Module
使用兩個(gè)卷積層提取特征，三個(gè)全連接層進(jìn)行分類(lèi)
最終輸出未應(yīng)用 softmax，而是直接輸出 logits（與 CrossEntropyLoss 配合使用）

訓(xùn)練網(wǎng)絡(luò)

對(duì)于訓(xùn)練，你需要一個(gè)數(shù)據(jù)集。PyTorch通過(guò)torchvision包提供了用于數(shù)據(jù)加載和預(yù)處理的實(shí)用程序。

import torchvision.transforms as transforms
import torchvision
from torch.utils.data import DataLoader

# 初始化模型、損失函數(shù)和優(yōu)化器
net = SimpleCNN()               # 實(shí)例化模型
criterion = nn.CrossEntropyLoss()  # 使用交叉熵?fù)p失函數(shù)（自動(dòng)處理softmax）
optimizer = torch.optim.SGD(net.parameters(), 
                            lr=0.001,      # 學(xué)習(xí)率
                            momentum=0.9)   # 動(dòng)量參數(shù)

# 數(shù)據(jù)預(yù)處理和加載
transform = transforms.Compose([
    transforms.ToTensor(),          
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  

# 加載CIFAR-10訓(xùn)練集
trainset = torchvision.datasets.CIFAR10(
    root='./data', train=True,
    download=True,  # 自動(dòng)下載數(shù)據(jù)集
    transform=transform
)

trainloader = DataLoader(trainset, 
                     batch_size=4,   # 每個(gè)batch包含4張圖像
                     shuffle=True)  # 打亂數(shù)據(jù)順序

模型配置：

損失函數(shù)：CrossEntropyLoss（自動(dòng)包含 softmax 和 log_softmax）
優(yōu)化器：SGD with momentum，學(xué)習(xí)率 0.001

數(shù)據(jù)加載：

使用 torchvision.datasets.CIFAR10 加載數(shù)據(jù)集
batch_size：4（根據(jù) GPU 內(nèi)存調(diào)整，CIFAR-10 建議 batch size ≥ 32）
transforms.Compose 定義數(shù)據(jù)預(yù)處理流程：
- ToTensor()：將圖像轉(zhuǎn)換為 PyTorch Tensor
- Normalize()：標(biāo)準(zhǔn)化圖像像素值到 [-1, 1]

加載數(shù)據(jù)后，訓(xùn)練過(guò)程包括通過(guò)數(shù)據(jù)集進(jìn)行多次迭代，使用反向傳播和合適的損失函數(shù)：

# 訓(xùn)練循環(huán)
for epoch in range(2):  # 進(jìn)行2個(gè)epoch的訓(xùn)練
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        
        # 前向傳播
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        
        # 反向傳播和優(yōu)化
        optimizer.zero_grad()   # 清空梯度
        loss.backward()         # 計(jì)算梯度
        optimizer.step()       # 更新參數(shù)
        
        running_loss += loss.item()
        
        # 每2000個(gè)batch打印一次
        if i % 2000 == 1999:
            avg_loss = running_loss / 2000
            print(f'Epoch [{epoch+1}/{2}], Batch [{i+1}/2000], Loss: {avg_loss:.3f}')
            running_loss = 0.0

print("訓(xùn)練完成！")

訓(xùn)練循環(huán)：

epoch：完整遍歷數(shù)據(jù)集一次
batch：數(shù)據(jù)加載器中的一個(gè)批次
梯度清零：每次反向傳播前需要清空梯度
損失計(jì)算：outputs 的形狀為 [batch_size, 10]，labels 為整數(shù)標(biāo)簽

完整代碼

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.transforms as transforms
import torchvision
from torch.utils.data import DataLoader

# 定義CNN模型（修復(fù)了變量引用問(wèn)題）
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)      # 第一個(gè)卷積層：3輸入通道，6輸出通道，5x5卷積核
        self.pool = nn.MaxPool2d(2, 2)        # 最大池化層：2x2窗口，步長(zhǎng)2
        self.conv2 = nn.Conv2d(6, 16, 5)     # 第二個(gè)卷積層：6輸入通道，16輸出通道，5x5卷積核
        self.fc1 = nn.Linear(16 * 5 * 5, 120)# 全連接層1：400輸入 -> 120輸出
        self.fc2 = nn.Linear(120, 84)      # 全連接層2：120輸入 -> 84輸出
        self.fc3 = nn.Linear(84, 10)       # 輸出層：84輸入 -> 10類(lèi) logits

    def forward(self, x):
        # 輸入形狀：[batch_size, 3, 32, 32]
        x = self.pool(F.relu(self.conv1(x)))  # -> [batch, 6, 14, 14]（池化后尺寸減半）
        x = self.pool(F.relu(self.conv2(x)))  # -> [batch, 16, 5, 5] 
        x = x.view(-1, 16 * 5 * 5)            # 展平為一維向量：16 * 5 * 5=400
        x = F.relu(self.fc1(x))             # -> [batch, 120]
        x = F.relu(self.fc2(x))             # -> [batch, 84]
        x = self.fc3(x)                     # -> [batch, 10]（未應(yīng)用softmax，配合CrossEntropyLoss使用）
        return x

# 初始化模型、損失函數(shù)和優(yōu)化器
net = SimpleCNN()               # 實(shí)例化模型
criterion = nn.CrossEntropyLoss()  # 使用交叉熵?fù)p失函數(shù)（自動(dòng)處理softmax）
optimizer = torch.optim.SGD(net.parameters(), 
                            lr=0.001,      # 學(xué)習(xí)率
                            momentum=0.9)   # 動(dòng)量參數(shù)

# 數(shù)據(jù)預(yù)處理和加載
transform = transforms.Compose([
    transforms.ToTensor(),            
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  
])

# 加載CIFAR-10訓(xùn)練集
trainset = torchvision.datasets.CIFAR10(
    root='./data', train=True,
    download=True,  # 自動(dòng)下載數(shù)據(jù)集
    transform=transform
)
trainloader = DataLoader(trainset, 
                         batch_size=4,   # 每個(gè)batch包含4張圖像
                         shuffle=True)  # 打亂數(shù)據(jù)順序

# 訓(xùn)練循環(huán)
for epoch in range(2):  # 進(jìn)行2個(gè)epoch的訓(xùn)練
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        
        # 前向傳播
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        
        # 反向傳播和優(yōu)化
        optimizer.zero_grad()   # 清空梯度
        loss.backward()         # 計(jì)算梯度
        optimizer.step()       # 更新參數(shù)
        
        running_loss += loss.item()
        
        # 每2000個(gè)batch打印一次
        if i % 2000 == 1999:
            avg_loss = running_loss / 2000
            print(f'Epoch [{epoch+1}/{2}], Batch [{i+1}/2000], Loss: {avg_loss:.3f}')
            running_loss = 0.0

print("訓(xùn)練完成！")

最后總結(jié)

通過(guò)PyTorch和卷積神經(jīng)網(wǎng)絡(luò)，你可以有效地處理圖像分類(lèi)任務(wù)。借助PyTorch的靈活性，可以根據(jù)特定的數(shù)據(jù)集和應(yīng)用程序構(gòu)建、訓(xùn)練和微調(diào)模型。示例代碼僅為理論過(guò)程，實(shí)際項(xiàng)目中還有大量?jī)?yōu)化空間。

以上就是PyTorch使用CNN實(shí)現(xiàn)圖像分類(lèi)的詳細(xì)內(nèi)容，更多關(guān)于PyTorch CNN圖像分類(lèi)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: