詳解PyTorch預(yù)定義數(shù)據(jù)集類datasets.ImageFolder使用方法
datasets.ImageFolder是PyTorch提供的一個(gè)預(yù)定義數(shù)據(jù)集類,用于處理圖像數(shù)據(jù)。它可以方便地將一組圖像加載到內(nèi)存中,并為每個(gè)圖像分配標(biāo)簽。
數(shù)據(jù)集準(zhǔn)備和目錄結(jié)構(gòu)
要使用datasets.ImageFolder,我們需要準(zhǔn)備好一個(gè)包含圖像數(shù)據(jù)的目錄,并按照以下方式進(jìn)行組織:
root/
class1/
img1.jpg
img2.jpg
...
class2/
img1.jpg
img2.jpg
...
...
其中,root代表數(shù)據(jù)集根目錄,class1、class2等代表不同的分類標(biāo)簽,img1、img2等代表圖像文件名。每個(gè)類別(也稱為標(biāo)簽)應(yīng)該有一個(gè)單獨(dú)的子目錄,子目錄中包含這個(gè)類別的所有圖像文件。同時(shí),每個(gè)圖像文件在對(duì)應(yīng)的子目錄下,以其文件名作為其類別標(biāo)簽。這種目錄組織方式可以讓我們輕松獲取圖像和對(duì)應(yīng)的標(biāo)簽信息。
加載數(shù)據(jù)集
完成數(shù)據(jù)集準(zhǔn)備之后,我們就可以使用datasets.ImageFolder來加載它了。下面是一個(gè)示例代碼:
import torchvision.datasets as datasets
import torchvision.transforms as transforms
data_dir = "/path/to/data"
transforms = transforms.Compose([
transforms.Resize(size=(224, 224)),
transforms.ToTensor(),
])
dataset = datasets.ImageFolder(root=data_dir, transform=transforms)
在這個(gè)例子中,我們首先導(dǎo)入datasets和transforms模塊,然后指定數(shù)據(jù)集的根目錄data_dir。接下來,我們定義一個(gè) transforms 對(duì)象,它將圖像轉(zhuǎn)換為PyTorch張量,并調(diào)整大小為(224, 224)。
最后,我們使用datasets.ImageFolder來加載圖像數(shù)據(jù)集。ImageFolder類需要兩個(gè)參數(shù):root 和 transform。root是數(shù)據(jù)集根目錄;transform指定對(duì)每個(gè)圖像應(yīng)該執(zhí)行的預(yù)處理操作,例如調(diào)整大小、裁剪、翻轉(zhuǎn)等。
數(shù)據(jù)集劃分
對(duì)于機(jī)器學(xué)習(xí)任務(wù),我們通常需要將數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。在PyTorch中,我們可以使用torch.utils.data.random_split函數(shù)來完成數(shù)據(jù)集的劃分。下面是一個(gè)示例代碼:
from torch.utils.data import DataLoader, random_split # Split the dataset into train and test sets train_size = int(0.8 * len(dataset)) test_size = len(dataset) - train_size train_dataset, test_dataset = random_split(dataset, [train_size, test_size]) # Split train dataset into train and validation sets val_size = int(0.2 * len(train_dataset)) train_size = len(train_dataset) - val_size train_dataset, val_dataset = random_split(train_dataset, [train_size, val_size])
在這個(gè)例子中,我們先使用random_split函數(shù)將原始數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,在這里80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于測(cè)試。然后,我們?cè)俅问褂胷andom_split函數(shù)將訓(xùn)練集劃分為訓(xùn)練集和驗(yàn)證集,其中80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于驗(yàn)證。
數(shù)據(jù)加載器
最后,我們可以使用數(shù)據(jù)加載器(DataLoader)來加載數(shù)據(jù)集。數(shù)據(jù)加載器負(fù)責(zé)將圖像數(shù)據(jù)和標(biāo)簽封裝成批量,并提供多線程方式加載數(shù)據(jù)以加速訓(xùn)練過程。下面是一個(gè)示例代碼:
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False) test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)
在這里,我們創(chuàng)建了三個(gè)數(shù)據(jù)加載器train_loader、val_loader 和 test_loader,它們分別對(duì)應(yīng)訓(xùn)練集、驗(yàn)證集和測(cè)試集。batch_size參數(shù)指定了每個(gè)批次的大小,shuffle參數(shù)表示是否隨機(jī)化輸入數(shù)據(jù)(在訓(xùn)練集中設(shè)置為True,在驗(yàn)證集和測(cè)試集中設(shè)置為False)。
以上就是詳解PyTorch預(yù)定義數(shù)據(jù)集類datasets.ImageFolder使用方法的詳細(xì)內(nèi)容,更多關(guān)于PyTorch datasets.ImageFolder的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python中的print()函數(shù)end=' '的使用及說明
這篇文章主要介紹了python中的print()函數(shù)end=' '的使用及說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-02-02
Python數(shù)據(jù)擬合與廣義線性回歸算法學(xué)習(xí)
這篇文章主要為大家詳細(xì)介紹了Python數(shù)據(jù)擬合與廣義線性回歸算法,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-12-12
Python實(shí)現(xiàn)貪吃蛇小游戲(雙人模式)
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)雙人模式的貪吃蛇小游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-09-09
面向?qū)ο髮W(xué)習(xí)之pygame坦克大戰(zhàn)
這篇文章主要為大家詳細(xì)介紹了面向?qū)ο髮W(xué)習(xí)之pygame坦克大戰(zhàn),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-09-09
python實(shí)現(xiàn)使用遺傳算法進(jìn)行圖片擬合
最近做項(xiàng)目需要圖像擬合,本文主要介紹了python實(shí)現(xiàn)使用遺傳算法進(jìn)行圖片擬合,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-03-03

