快捷導(dǎo)航

詳解PyTorch預(yù)定義數(shù)據(jù)集類(lèi)datasets.ImageFolder使用方法

更新時(shí)間：2023年04月21日 10:13:01 作者：實(shí)力

這篇文章主要為大家介紹了PyTorch預(yù)定義數(shù)據(jù)集類(lèi)datasets.ImageFolder使用方法詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

數(shù)據(jù)集準(zhǔn)備和目錄結(jié)構(gòu)

要使用datasets.ImageFolder，我們需要準(zhǔn)備好一個(gè)包含圖像數(shù)據(jù)的目錄，并按照以下方式進(jìn)行組織：

root/
    class1/
        img1.jpg
        img2.jpg
        ...
    class2/
        img1.jpg
        img2.jpg
        ...
    ...

其中，root代表數(shù)據(jù)集根目錄，class1、class2等代表不同的分類(lèi)標(biāo)簽，img1、img2等代表圖像文件名。每個(gè)類(lèi)別（也稱(chēng)為標(biāo)簽）應(yīng)該有一個(gè)單獨(dú)的子目錄，子目錄中包含這個(gè)類(lèi)別的所有圖像文件。同時(shí)，每個(gè)圖像文件在對(duì)應(yīng)的子目錄下，以其文件名作為其類(lèi)別標(biāo)簽。這種目錄組織方式可以讓我們輕松獲取圖像和對(duì)應(yīng)的標(biāo)簽信息。

加載數(shù)據(jù)集

完成數(shù)據(jù)集準(zhǔn)備之后，我們就可以使用datasets.ImageFolder來(lái)加載它了。下面是一個(gè)示例代碼：

import torchvision.datasets as datasets
import torchvision.transforms as transforms
data_dir = "/path/to/data"
transforms = transforms.Compose([
    transforms.Resize(size=(224, 224)),
    transforms.ToTensor(),
])
dataset = datasets.ImageFolder(root=data_dir, transform=transforms)

在這個(gè)例子中，我們首先導(dǎo)入datasets和transforms模塊，然后指定數(shù)據(jù)集的根目錄data_dir。接下來(lái)，我們定義一個(gè) transforms 對(duì)象，它將圖像轉(zhuǎn)換為PyTorch張量，并調(diào)整大小為(224, 224)。

最后，我們使用datasets.ImageFolder來(lái)加載圖像數(shù)據(jù)集。ImageFolder類(lèi)需要兩個(gè)參數(shù)：root 和 transform。root是數(shù)據(jù)集根目錄；transform指定對(duì)每個(gè)圖像應(yīng)該執(zhí)行的預(yù)處理操作，例如調(diào)整大小、裁剪、翻轉(zhuǎn)等。

數(shù)據(jù)集劃分

對(duì)于機(jī)器學(xué)習(xí)任務(wù)，我們通常需要將數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。在PyTorch中，我們可以使用torch.utils.data.random_split函數(shù)來(lái)完成數(shù)據(jù)集的劃分。下面是一個(gè)示例代碼：

from torch.utils.data import DataLoader, random_split
# Split the dataset into train and test sets
train_size = int(0.8 * len(dataset))
test_size = len(dataset) - train_size
train_dataset, test_dataset = random_split(dataset, [train_size, test_size])
# Split train dataset into train and validation sets
val_size = int(0.2 * len(train_dataset))
train_size = len(train_dataset) - val_size
train_dataset, val_dataset = random_split(train_dataset, [train_size, val_size])

在這個(gè)例子中，我們先使用random_split函數(shù)將原始數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集，在這里80%的數(shù)據(jù)用于訓(xùn)練，20%的數(shù)據(jù)用于測(cè)試。然后，我們?cè)俅问褂胷andom_split函數(shù)將訓(xùn)練集劃分為訓(xùn)練集和驗(yàn)證集，其中80%的數(shù)據(jù)用于訓(xùn)練，20%的數(shù)據(jù)用于驗(yàn)證。

數(shù)據(jù)加載器

最后，我們可以使用數(shù)據(jù)加載器（DataLoader）來(lái)加載數(shù)據(jù)集。數(shù)據(jù)加載器負(fù)責(zé)將圖像數(shù)據(jù)和標(biāo)簽封裝成批量，并提供多線程方式加載數(shù)據(jù)以加速訓(xùn)練過(guò)程。下面是一個(gè)示例代碼：

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

在這里，我們創(chuàng)建了三個(gè)數(shù)據(jù)加載器train_loader、val_loader 和 test_loader，它們分別對(duì)應(yīng)訓(xùn)練集、驗(yàn)證集和測(cè)試集。batch_size參數(shù)指定了每個(gè)批次的大小，shuffle參數(shù)表示是否隨機(jī)化輸入數(shù)據(jù)（在訓(xùn)練集中設(shè)置為T(mén)rue，在驗(yàn)證集和測(cè)試集中設(shè)置為False）。

以上就是詳解PyTorch預(yù)定義數(shù)據(jù)集類(lèi)datasets.ImageFolder使用方法的詳細(xì)內(nèi)容，更多關(guān)于PyTorch datasets.ImageFolder的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: