Pytorch中的圖像增廣transforms類和預處理方法

更新時間：2023年04月01日 14:33:54 作者：北島寒沫

這篇文章主要介紹了Pytorch中的圖像增廣和預處理方法（transforms類）,本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下

1.隨機翻轉（水平和垂直）

torchvision.transforms.RandomVerticalFlip函數(shù)和torchvision.transforms.RandomHorizontalFlip函數(shù)是兩個可以實現(xiàn)數(shù)據(jù)增強的函數(shù)，可以將輸入的圖像進行隨機垂直翻轉和隨機水平翻轉，從而增加數(shù)據(jù)集的多樣性。

具體來說，torchvision.transforms.RandomVerticalFlip函數(shù)可以將輸入圖像在垂直方向上進行隨機翻轉，而torchvision.transforms.RandomHorizontalFlip函數(shù)可以將輸入圖像在水平方向上進行隨機翻轉。這兩個函數(shù)都可以通過設置參數(shù)來控制翻轉的概率。

下面是這兩個函數(shù)的使用方法：

import torch
import torchvision.transforms as transforms

# 定義隨機垂直翻轉和隨機水平翻轉的概率
vflip_probability = 0.5  # 隨機垂直翻轉的概率
hflip_probability = 0.5  # 隨機水平翻轉的概率

# 定義圖像變換
transform = transforms.Compose([
    transforms.RandomVerticalFlip(p=vflip_probability),
    transforms.RandomHorizontalFlip(p=hflip_probability)
])

在上述代碼中，我們首先通過transforms.Compose函數(shù)定義了一個圖像變換的序列，其中包含了隨機垂直翻轉和隨機水平翻轉兩個操作。

2.隨機裁剪縮放

torchvision.transforms.RandomResizedCrop函數(shù)可以進行隨機裁剪和縮放，從而增加數(shù)據(jù)集的多樣性。在實際使用中，這個函數(shù)有許多可調(diào)參數(shù)，下面是一個更加完整的介紹：

transforms.RandomResizedCrop(
    size,       # 輸出圖像的大小
    scale=(0.08, 1.0),  # 縮放范圍，將輸入圖像按照該范圍內(nèi)的隨機比例縮放
    ratio=(3.0/4.0, 4.0/3.0),   # 長寬比范圍，將輸入圖像按照該范圍內(nèi)的隨機比例進行裁剪
    interpolation=2     # 縮放時使用的插值方法，可選1、2、3、4中的一個，默認為PIL.Image.BILINEAR
)

下面是各個參數(shù)的詳細介紹：

size：輸出圖像的大小，可以是一個整數(shù)，表示輸出圖像的邊長，或者是一個二元組，表示輸出圖像的寬和高。例如，如果設置size=224，則輸出圖像的大小為 224 × 224 224\times224 224×224；如果設置size=(256,192)，則輸出圖像的大小為 256 × 192 256\times192 256×192。
scale：縮放范圍，將輸入圖像按照該范圍內(nèi)的隨機比例縮放。該參數(shù)是一個二元組，表示縮放比例的范圍，例如(0.08,1.0)表示將輸入圖像縮放到原來的 0.08 0.08 0.08到 1.0 1.0 1.0倍之間的隨機比例。默認值為(0.08, 1.0)。
ratio：長寬比范圍，將輸入圖像按照該范圍內(nèi)的隨機比例進行裁剪。該參數(shù)是一個二元組，表示長寬比的范圍，例如(3.0/4.0,4.0/3.0)表示將輸入圖像按照寬高比在 3 / 4 3/4 3/4到 4 / 3 4/3 4/3之間的隨機比例進行裁剪。默認值為(3.0/4.0, 4.0/3.0)。
interpolation：縮放時使用的插值方法，可選1、2、3、4中的一個，分別表示PIL.Image.NEAREST、PIL.Image.BILINEAR、PIL.Image.BICUBIC和PIL.Image.LANCZOS。默認值為PIL.Image.BILINEAR。

3.隨機修改顏色（顏色抖動）

在PyTorch中，torchvision.transforms.RandomColorJitter函數(shù)可以用于對圖像進行隨機顏色抖動，增加數(shù)據(jù)集的多樣性。這個函數(shù)可以隨機地改變圖像的亮度、對比度、飽和度和色相，并且還可以隨機地進行灰度化操作。下面是該函數(shù)的參數(shù)：

transforms.RandomColorJitter(
    brightness=0.1,    # 亮度調(diào)整的強度，默認值為0.1
    contrast=0.1,      # 對比度調(diào)整的強度，默認值為0.1
    saturation=0.1,    # 飽和度調(diào)整的強度，默認值為0.1
    hue=0.1,           # 色相調(diào)整的強度，默認值為0.1
    p=0.5,             # 執(zhí)行顏色抖動的概率，默認值為0.5
)

下面是各個參數(shù)的詳細介紹：

brightness：亮度調(diào)整的強度。默認值為0.1。如果設置為0，則不進行亮度調(diào)整。
contrast：對比度調(diào)整的強度。默認值為0.1。如果設置為0，則不進行對比度調(diào)整。
saturation：飽和度調(diào)整的強度。默認值為0.1。如果設置為0，則不進行飽和度調(diào)整。
hue：色相調(diào)整的強度。默認值為0.1。如果設置為0，則不進行色相調(diào)整。
p：執(zhí)行顏色抖動的概率。默認值為0.5。如果設置為1，則每個圖像都會執(zhí)行顏色抖動。

4.將圖像轉化為張量

在PyTorch的torchvision庫中，ToTensor函數(shù)是一種將PIL Image或numpy.ndarray格式的圖像轉換為PyTorch Tensor格式的函數(shù)。它可以將圖像中的像素值轉換為0到1之間的標準化數(shù)值，并調(diào)整圖像的通道順序，使其符合PyTorch模型的輸入要求。

ToTensor函數(shù)的使用方法如下：

from torchvision.transforms import ToTensor
transform = ToTensor()

一般來說，在使用Compose組合在一起的一組transform中，ToTensor函數(shù)應該放在最后一個位置，以便將圖像轉換為PyTorch Tensor格式的圖像，并確保其他所有的transform都在Tensor轉換之前完成。

5.標準化操作

在PyTorch的torchvision.transforms庫中，Normalize函數(shù)是一種對圖像進行標準化處理的函數(shù)。它可以將圖像中的像素值進行歸一化處理，使得圖像的像素值均值為0，標準差為1，從而增強模型的收斂速度和泛化性能。

Normalize函數(shù)的使用方法如下：

from torchvision.transforms import Normalize
transform = Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

在上述代碼中，我們首先導入了Normalize函數(shù)，并創(chuàng)建了一個名為transform的Normalize對象。其中，mean和std參數(shù)分別代表圖像各通道像素值的平均值和標準差。在這里，我們以ImageNet數(shù)據(jù)集的圖像均值和標準差為例進行了設置。

需要注意的是，Normalize函數(shù)應該在圖像轉換為PyTorch Tensor格式之后應用，即在ToTensor之后。這是因為Normalize需要對每個通道的像素值進行標準化，而ToTensor函數(shù)將圖像中的像素值轉換為PyTorch Tensor格式后，每個通道的像素值將存儲在不同的維度上，因此才需要在ToTensor之后進行標準化處理。

6.同時結合多種增廣方法

在PyTorch的torchvision庫中，Compose函數(shù)是一種將多個數(shù)據(jù)增強操作組合在一起的函數(shù)。它可以將多個數(shù)據(jù)增強操作按照一定的順序組合在一起，并將它們作為一個整體應用于數(shù)據(jù)集中的每個樣本。Compose函數(shù)可以幫助我們方便地實現(xiàn)復雜的數(shù)據(jù)增強操作，同時也可以使我們的代碼更加簡潔和易讀。

Compose函數(shù)的使用方法如下：

from torchvision.transforms import Compose
from torchvision.transforms import RandomCrop, RandomHorizontalFlip, ToTensor

transform = Compose([
    RandomCrop(32),
    RandomHorizontalFlip(),
    ToTensor()
])

在上述代碼中，我們首先導入了Compose函數(shù)和其他一些數(shù)據(jù)增強操作，然后創(chuàng)建了一個名為transform的Compose對象。該Compose對象由三個數(shù)據(jù)增強操作組成：隨機裁剪(RandomCrop)，隨機水平翻轉(RandomHorizontalFlip)和轉換為Tensor格式(ToTensor)。

到此這篇關于Pytorch中的圖像增廣和預處理方法（transforms類）的文章就介紹到這了,更多相關Pytorch圖像增廣和預處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: