腳本之家服務器常用軟件

快捷導航

軟件下載

android MAC 驅(qū)動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

pytorch 中transforms的使用詳解

更新時間：2022年06月06日 10:15:35 作者：頭發(fā)沒了還會再長

本文主要介紹了pytorch中transforms的使用詳解，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

transforms

按住Ctrl查看transforms的源碼可以知道，transforms就是一個python文件，里面定義了很多類，每一個類都是一個工具
在結構那里，可以看到有很多的類

ToTensor

Convert a PIL Image or numpy.ndarray to tensor. This transform does not support torchscript

通過ToTensor來學習transforms如何使用以及為什么使用tensor數(shù)據(jù)類型

transforms使用

transforms里面每一個類都可以看成是一個模具，我們可以用里面的模具做出一個具體的工具，如何用這個具體的工具來實現(xiàn)具體的功能

比如ToTensor的使用:

from torchvision import transforms
from PIL import Image

img_path = "data/train/ants_image/0013035.jpg"
img = Image.open(img_path)

tensor_trans = transforms.ToTensor()#模具（也就是這個類的對象）
tensor_img = tensor_trans(img)#實現(xiàn)ToTensor的功能，將一個input（PIL Image）轉化成tensor

print(tensor_img)

為什么需要tensor數(shù)據(jù)類型呢？

在使用tensorboard里面常用的add_image時，里面的第二個參數(shù)是圖片的數(shù)據(jù)類型，這個數(shù)據(jù)類型，可以是torch.Tensor, numpy.array, or string/blobname，上一篇博客用的是numpy.array，這里，其實可以直接得到tensor類型后直接用

from torchvision import transforms
from torch.utils.tensorboard import SummaryWriter
from PIL import Image

img_path = "data/train/ants_image/0013035.jpg"
img = Image.open(img_path)

tensor_trans = transforms.ToTensor()
tensor_img = tensor_trans(img)

writer = SummaryWriter("logs")
writer.add_image("Tensor_image", tensor_img)

writer.close()

常見的transforms

內(nèi)置方法call()

可以發(fā)現(xiàn)基本上transforms里面的每一個類都有一個內(nèi)置方法__call__()，這個方法和普通的方法的區(qū)別其實就是，普通方法一般是類的對象通過.的方式調(diào)用，但是call函數(shù)不需要，可以直接用對象加括號的形式調(diào)用

一個Person類，內(nèi)置方法__call__和hello都有一個參數(shù)name，然后兩個方法都輸出name，一個通過person(“”)形式調(diào)用，一個通過person.hello(“”)調(diào)用

Normalize

Normalize a tensor image with mean and standard deviation.

這個方法進行歸一化的時候，傳入的參數(shù)是有兩個列表一個是均值，一個是標準差，每個列表的n表示維度，是根據(jù)輸入的channel數(shù)量決定的，比如我們的圖片是rgb那n=3，它能將每個信道的輸入進行歸一化

根據(jù)公式可以知道計算的結果其實就是

代碼示例：

from PIL import Image
from torchvision import transforms

img_path = "data/train/ants_image/0013035.jpg"
img = Image.open(img_path)

trans_totensor = transforms.ToTensor()
img_tensor = trans_totensor(img)

print(img_tensor[0][0][0])
trans_norm = transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
img_norm = trans_norm(img_tensor)
print(img_norm[0][0][0])

writer = SummaryWriter("logs")
writer.add_image("Normalize", img_norm)

writer.close()

輸出：

tensor(0.3137)
tensor(-0.3725)

Resize

Resize the input image to the given size

參數(shù)：
可以給一個（H,W）這樣的參數(shù)，改變圖片的大小，也可以指定一個int，改變長和寬的比例

代碼示例

print(img.size)
trans_resize = transforms.Resize((512, 512))
img_resize = trans_resize(img)# 參數(shù)和返回值都是 img PIL
print(img_resize)

輸出結果：

變成了正方形

Compose

Composes several transforms together. This transform does not support torchscript.

可以將第一種類型轉化為第二種，參數(shù)一的類型做輸入，參數(shù)二的類型做輸出，輸入一定要對應，不然就會報錯

代碼示例

trans_totensor = transforms.ToTensor()
trans_resize_2 = transforms.Resize(512)
# PIL -> tensor
trans_compose = transforms.Compose([trans_resize_2, trans_totensor])
img_resize_2 = trans_compose(img)
writer.add_image("Resize", img_resize_2, 1)