快捷導(dǎo)航

Pytorch加載圖像數(shù)據(jù)集的方法

更新時(shí)間：2024年08月25日 10:01:59 作者：碼農(nóng)市民小劉

這篇文章主要介紹了Pytorch加載圖像數(shù)據(jù)集的方法,加載圖像數(shù)據(jù)集（這里以分類(lèi)為例）,通常都需要經(jīng)過(guò)兩個(gè)步驟：定義數(shù)據(jù)集和創(chuàng)建Dataloader數(shù)據(jù)加載器,本文通過(guò)代碼示例和圖文講解的非常詳細(xì),需要的朋友可以參考下

1. 簡(jiǎn)介

Pytorch深度學(xué)習(xí)框架，加載圖像數(shù)據(jù)集（這里以分類(lèi)為例），通常都需要經(jīng)過(guò)以下兩個(gè)步驟：

1、定義數(shù)據(jù)集：torch以及torchvision中提供了多種方法來(lái)簡(jiǎn)化數(shù)據(jù)集定義的過(guò)程。

2、創(chuàng)建Dataloader數(shù)據(jù)加載器：通過(guò)torch.utils.data.Dataloader實(shí)例化數(shù)據(jù)加載迭代器，傳入自定義的數(shù)據(jù)集，并配置相關(guān)參數(shù)。

其中，第一個(gè)步驟定義數(shù)據(jù)集又包含多種實(shí)現(xiàn)方式：

1、torchvision.datasets.ImageFolder：用于加載標(biāo)準(zhǔn)的開(kāi)源數(shù)據(jù)集。

2、torchvision.datasets.ImageFolder：從文件夾結(jié)構(gòu)加載圖像數(shù)據(jù)，自動(dòng)生成標(biāo)簽。

3、torchvision.datasets.DatasetFolder：更通用的工具，適用于自定義圖像數(shù)據(jù)集，其中，圖像和標(biāo)簽不一定按文件夾結(jié)構(gòu)組織。

4、torch.utils.data.Dataset：一個(gè)抽象基類(lèi)，用戶(hù)通過(guò)重寫(xiě)__init__、__len__、和 __getitem__ 方法以提供數(shù)據(jù)和標(biāo)簽。

第二個(gè)步驟，實(shí)例化數(shù)據(jù)加載迭代器 torch.utils.data.Dataloader 類(lèi)，涉及到的主要參數(shù)：

dataset ：數(shù)據(jù)集（可迭代對(duì)象）
batch_size ：批處理數(shù)量
shuffle ：每完成一個(gè)epoch，是否需要重新打亂數(shù)據(jù)
num_worker：采用多進(jìn)程讀取機(jī)制
collate_fn：可自定義函數(shù)，用于將一批數(shù)據(jù)合并成一個(gè)批次，默認(rèn)為 None
drop_last ：當(dāng)樣本數(shù)不能被batch_size整除時(shí)，是否舍棄最后一個(gè)batch的數(shù)據(jù)

在了解完數(shù)據(jù)集加載的兩步驟后，其實(shí)主要變化的是第一步如何定義數(shù)據(jù)集。所以，接下來(lái)都是圍繞不同的數(shù)據(jù)集定義方式，實(shí)現(xiàn)最終的數(shù)據(jù)加載。

2. torchvision.datasets.MNIST

目前，torchvision.datasets 庫(kù)中已經(jīng)收錄了多種類(lèi)型的數(shù)據(jù)集，一般都是各個(gè)圖像處理領(lǐng)域內(nèi)的開(kāi)源標(biāo)準(zhǔn)數(shù)據(jù)集，如下列舉了一些較為常見(jiàn)的數(shù)據(jù)集。

圖像分類(lèi)：MNIST，CIFAR10， CIFAR100，ImageNet
目標(biāo)檢測(cè)：COCO,VOC
圖像分割：COCO,VOC

這種開(kāi)源數(shù)據(jù)集的加載，還是非常簡(jiǎn)單的，因?yàn)榇罄袀兌家呀?jīng)封裝好方法了，直接調(diào)用API就實(shí)現(xiàn)了。這里以mnist手寫(xiě)數(shù)字識(shí)別數(shù)據(jù)集為例，代碼如下。

from torchvision import datasets, transforms
from torch.utils.data import DataLoader
 
# 數(shù)據(jù)轉(zhuǎn)換
transform = transforms.Compose([transforms.ToTensor()])
 
# 加載 MNIST 數(shù)據(jù)集，這里設(shè)置了下載數(shù)據(jù)集
train_dataset = datasets.MNIST(root='mnist_datasets', train=True, download=True,transform=transform)
 
test_dataset = datasets.MNIST(root='mnist_datasets', train=False, download=True,transform=transform)
 
#打印dataset
print(train_dataset[0])
 
# 創(chuàng)建數(shù)據(jù)加載迭代器，傳入數(shù)據(jù)集
train_loader = DataLoader(dataset=train_dataset, batch_size=256, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=256, shuffle=False)
 
# 使用加載器迭代輸出數(shù)據(jù)
for images, labels in train_loader:
    print("images:",images.shape)
    print("labels",labels.shape)

代碼執(zhí)行后的結(jié)果，首先在定義的root目錄下，下載了mnist數(shù)據(jù)集。

終端打印了train_dataset數(shù)據(jù)集中的第1個(gè)元素，前面也講過(guò)，定義的數(shù)據(jù)集必須是可迭代的結(jié)構(gòu)，也就是使用索引，可檢索出其中的內(nèi)容，其中內(nèi)容的格式如下：

（tensor，label_index），tensor是圖片，label_index是該圖片對(duì)應(yīng)的數(shù)字標(biāo)簽（模型中用到的標(biāo)簽，與現(xiàn)實(shí)中定義的標(biāo)簽不同，后續(xù)會(huì)講）。

另外，終端也迭代輸出了每一批次數(shù)據(jù)的形狀，每一批次喂入的數(shù)據(jù)量 batch_size = 256 ，每一張圖像形狀（1，28，28），單通道的灰色圖像，大小為28*28。

解釋下，前面提到的模型標(biāo)簽與現(xiàn)實(shí)中真是標(biāo)簽。debug模式下，調(diào)試上面代碼，可以看到定義的數(shù)據(jù)集train_dataset中的屬性，其中：

classes：真實(shí)的標(biāo)簽

class_to_index：影射了真實(shí)標(biāo)簽與模型標(biāo)簽的關(guān)系，可以看到模型標(biāo)簽以阿拉伯?dāng)?shù)字命名，從0開(kāi)始依次遞增+1。

總結(jié)：訓(xùn)練時(shí)喂入的分類(lèi)標(biāo)簽，是以阿拉伯?dāng)?shù)字，從0開(kāi)始依次遞增+1，這樣的命名規(guī)則。所以，在模型訓(xùn)練和推理階段，模型輸出的標(biāo)簽依然是阿拉伯，這時(shí)候定義的class_to_index就有作用了，將模型推理出的阿拉伯?dāng)?shù)字標(biāo)簽轉(zhuǎn)化為真正的類(lèi)名。

3. torchvision.datasets.ImageFolder

torchvision.datasets.ImageFolder 主要用于從文件夾中加載圖像數(shù)據(jù)集，指定根目錄下的每一個(gè)子文件夾表示一個(gè)類(lèi)別。該方法通常用于圖像分類(lèi)任務(wù)，并且可以很方便地使用Dataloader來(lái)加載批量數(shù)據(jù)。

文件夾的目錄結(jié)構(gòu)如下，root表示根目錄，class_0和class_1是以類(lèi)名命名的文件夾，里面分別包含屬于該類(lèi)的圖像。

root/

        class_0/

                images1.jpg

                images2.jpg

                ....

        class_1/

                images1.jpg

                images2:jpg

                ....

        ....

我測(cè)試的根目錄 root 是mnist數(shù)據(jù)集中的train目錄，共有10類(lèi)。其中第10類(lèi)，類(lèi)名為 ”九“，是我特意修改的，同樣也是為了驗(yàn)證真實(shí)標(biāo)簽與模型標(biāo)簽之間的關(guān)系。

這是第一類(lèi) 0 文件夾下的數(shù)據(jù)，均為手寫(xiě)數(shù)字0 的圖片。

接下里可直接使用代碼加載該數(shù)據(jù)集。

from torchvision import datasets, transforms
from torch.utils.data import DataLoader
 
# 定義數(shù)據(jù)預(yù)處理操作
transform = transforms.Compose([
    transforms.ToTensor(),          # 將圖像轉(zhuǎn)換為張量
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 標(biāo)準(zhǔn)化
])
 
# 創(chuàng)建ImageFolder數(shù)據(jù)集，根目錄用了絕對(duì)路徑
dataset = datasets.ImageFolder(root='F:\Amode\datasets\mnist\train', transform=transform)
 
# 打印數(shù)據(jù)集中第一項(xiàng)
print(dataset[0])
 
# 創(chuàng)建DataLoader數(shù)據(jù)加載迭代器
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)
 
#按照常例，迭代遍歷數(shù)據(jù)
for images,labels in data_loader:
    print("images:",images.shape)
    print("lables",labels)

執(zhí)行代碼，終端打印信息，首先還是數(shù)據(jù)集中的第一項(xiàng)，內(nèi)容格式仍然是：

（tensor，label_index）

同樣，更簡(jiǎn)便的方式，大家用debug模式調(diào)試代碼。

個(gè)人覺(jué)得，對(duì)于分類(lèi)數(shù)據(jù)集，這種加載方式是非常容易和輕松的。前提是需要將數(shù)據(jù)集整理成固定的結(jié)構(gòu) 。

4.torchvision.datasets.DatasetFolder

torchvision.datasets.DatasetFolder 是一個(gè)比 ImageFolder 更靈活的類(lèi)，而ImageFolder繼承的父類(lèi)就是它，它允許你自定義加載數(shù)據(jù)的方式，自定義數(shù)據(jù)集結(jié)構(gòu)。

因?yàn)楸容^靈活百變，更難理解和掌握。接下來(lái)先了解下該方法的源碼，初始化參數(shù)及重要屬性。

這部分內(nèi)容是初始化參數(shù)。

root 是數(shù)據(jù)集的根目錄。
loader 可自定義讀取數(shù)據(jù)樣本的方法，該方法傳入?yún)?shù)是樣本的路徑。
extension 擴(kuò)展名，指的是圖片的后綴類(lèi)型，以元組形式入?yún)ⅰ?/li>
is_valid_file （可調(diào)用對(duì)象，可選項(xiàng)參數(shù)），獲取文件路徑并核實(shí)文件是否有效，它和extension必須有一個(gè)。
allow_empty True 允許空文件被認(rèn)為是一個(gè)類(lèi),False反之。

既然ImageFolder的父類(lèi)就是它，可以先用它實(shí)現(xiàn)ImageFolder中要求的數(shù)據(jù)集目錄結(jié)構(gòu)（結(jié)構(gòu)在第3部門(mén)有說(shuō)明）。以下代碼和ImagesFolde的r實(shí)現(xiàn)效果一致。

from torchvision import datasets, transforms
from torch.utils.data import DataLoader
from PIL import Image
 
#自定義的圖像讀取方式
def custom_load(path):
    return Image.open(path).convert("RGB")
 
# 定義數(shù)據(jù)預(yù)處理操作
transform = transforms.Compose([
    transforms.ToTensor(),          # 將圖像轉(zhuǎn)換為張量
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 標(biāo)準(zhǔn)化
])
 
# 創(chuàng)建ImageFolder數(shù)據(jù)集，根目錄用了絕對(duì)路徑
dataset = datasets.DatasetFolder(
     root=r'F:\Amode\datasets\mnist\train',
     loader= custom_load,
     transform=transform,
     extensions=("jpg","png")
)
 
# 打印數(shù)據(jù)集中第一項(xiàng)
print(dataset[0])
 
# 創(chuàng)建DataLoader數(shù)據(jù)加載迭代器
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)
 
#按照常例，迭代遍歷數(shù)據(jù)
for images,labels in data_loader:
    print("images:",images.shape)
    print("lables",labels)

假設(shè)，換種數(shù)據(jù)集的目錄結(jié)構(gòu)呢，這里舉例一種比較常見(jiàn)的結(jié)構(gòu)，如下圖所示。

所有圖片都在同一目錄下，且圖片文件名稱(chēng)以 label_name的格式命名，即標(biāo)簽在文件名中體現(xiàn)。

接下來(lái)是實(shí)現(xiàn)的代碼，新定義了一個(gè)類(lèi)，繼承DatasetsFolder類(lèi)，重新定義了父類(lèi)中的find_class，make_dataset函數(shù)。想具體了解這兩個(gè)函數(shù)的可點(diǎn)進(jìn)父類(lèi)源碼中去看。

find_class：輸入根目錄root，輸出classes(列表)，所有的真實(shí)標(biāo)簽（str），輸出class_to_idx（字典），鍵為真實(shí)標(biāo)簽，值為類(lèi)別索引值。

make_dataset：輸入仍是初始化那些參數(shù)；輸出樣本列表，格式為[（file_path,class_indx）,.......]

import os
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
from PIL import Image
 
#自定義的圖像加載方式
def custom_load(path):
    return Image.open(path).convert("RGB")
 
# 定義數(shù)據(jù)預(yù)處理操作
transform = transforms.Compose([
    transforms.ToTensor(),          # 將圖像轉(zhuǎn)換為張量
    transforms.Resize((224, 224)),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  # 標(biāo)準(zhǔn)化
])
 
class custom_DatasetFolder(datasets.DatasetFolder):
    #重寫(xiě)find_classes函數(shù)
    def find_classes(self, directory):
        """
        傳參：根目錄;
        輸出：classes = [] ,classes_to_idx = {class:index}
        """
        lables = set()
        lables_to_indexs = {}
        #獲取目錄下文件列表
        file_list = os.listdir(self.root)
        #遍歷文件列表
        for f in file_list:
            #從文件名中分離出標(biāo)簽
            lable = f.split('_')[0]
            #添加到集合中，集合不允許重復(fù)元素
            lables.add(str(lable))
        #生成真實(shí)標(biāo)簽label與類(lèi)別索引class的映射字典
        for i,l in enumerate(list(lables)):
            lables_to_indexs[l] = int(i)
        return list(lables),lables_to_indexs
 
    def make_dataset(self,directory,class_to_idx,extensions,is_valid_file,allow_empty,):
        """
            傳參;
            輸出：sample[(path,class),......]
        """
 
        #獲取目錄下的文件列表
        file = os.listdir(directory)
        samp = []
        #遍歷文件
        for f in file:
            #分離出標(biāo)簽和文件后綴
            lab = f.split('_')[0]
            sufix = f.split('.')[-1]
            #文件后綴滿足擴(kuò)展要求
            if sufix in extensions:
                #根據(jù)標(biāo)簽找到類(lèi)別class
                cls = class_to_idx[lab]
                #文件完整路徑
                file_path = os.path.join(directory,f)
                #每個(gè)樣本以（path,class）格式添加到列表中
                samp.append((str(file_path),cls))
        return samp
 
 
 
# 創(chuàng)建ImageFolder數(shù)據(jù)集，根目錄用了絕對(duì)路徑
dataset = custom_DatasetFolder(
     root=r'F:\Amode\datasets\image_data',
     loader= custom_load,
     transform=transform,
     extensions=("jpg","png")
)
 
# 打印數(shù)據(jù)集中第一項(xiàng)
print(dataset[0])
 
# 創(chuàng)建DataLoader數(shù)據(jù)加載迭代器
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)
 
#按照常例，迭代遍歷數(shù)據(jù)
for images,labels in data_loader:
    print("images:",images.shape)
    print("lables",labels)

任意結(jié)構(gòu)的數(shù)據(jù)集，都可以使用基類(lèi)DatasetFolder實(shí)現(xiàn)，主要還是通過(guò)覆蓋上面兩個(gè)函數(shù)，實(shí)現(xiàn)獲取標(biāo)簽類(lèi)別屬性，以及樣本的路徑和類(lèi)別，還有自定義的加載圖片函數(shù)。

5. torch.utils.data.Datasets

繼上面內(nèi)容，這是唯一一個(gè)使用torch，定義數(shù)據(jù)集的方式。

翻譯一下上面的內(nèi)容：

該類(lèi)是一個(gè)抽象類(lèi)，所有表示從鍵到數(shù)據(jù)樣本映射的數(shù)據(jù)集都應(yīng)繼承此類(lèi)。所有子類(lèi)應(yīng)重寫(xiě) __getitem__ 方法，以支持根據(jù)給定的鍵獲取數(shù)據(jù)樣本。子類(lèi)還可以選擇性地重寫(xiě) __len__ 方法，這通常會(huì)返回?cái)?shù)據(jù)集的大小，torch.utils.data.Sampler 實(shí)現(xiàn)和 torch.utils.data.DataLoader 的默認(rèn)選項(xiàng)都期望這個(gè)方法的存在。子類(lèi)還可以選擇性地實(shí)現(xiàn) __getitems__ 方法，以加速批量樣本的加載。該方法接受一個(gè)樣本索引的列表，并返回這些樣本的列表。

那什么叫抽象類(lèi)呢？

抽象類(lèi)是一種不能直接實(shí)例化的類(lèi)，主要用于定義方法的基本結(jié)構(gòu)和要求，其作為父類(lèi)呢，通常讓子類(lèi)去繼承它，并且在子類(lèi)中必須實(shí)現(xiàn)這個(gè)抽象類(lèi)中定義的方法，也就是具體的實(shí)現(xiàn)交給子類(lèi)。

本節(jié)中用到的基類(lèi)torch.utils.data.Datasets，需要實(shí)現(xiàn)以下三種方法。

__init__: 初始化數(shù)據(jù)集對(duì)象，通常在這里加載和處理數(shù)據(jù)。
__len__: 返回?cái)?shù)據(jù)集的大?。颖緮?shù)量）。
__getitem__: 根據(jù)給定的索引返回?cái)?shù)據(jù)集中的樣本和標(biāo)簽。

這部分的演示代碼，使用的是上一小節(jié)中的數(shù)據(jù)集，數(shù)據(jù)集和實(shí)現(xiàn)代碼如下。

rom torch.utils.data import Dataset
from PIL import Image
import os
 
 
class CustomDataset(Dataset):
    def __init__(self, image_folder, transform=None):
        """
        Args:
            image_folder : 圖像所在文件夾的路徑
            transform : 應(yīng)用于樣本的轉(zhuǎn)換操作
        """
        self.image_folder = image_folder
        self.transform = transform
        self.class_to_idx = {}
        self.image_files = [f for f in os.listdir(image_folder) if f.endswith('.jpg')]
        self.__class_to_idx()
 
    def __len__(self):
        """返回?cái)?shù)據(jù)集中的樣本數(shù)量"""
        return len(self.image_files)
 
    def __class_to_idx(self):
        labels = set()
        for file in os.listdir(self.image_folder):
            if file.endswith('.jpg'):
                label = file.split('_')[0]
                labels.add(str(label))
        for i,l in enumerate(labels):
            self.class_to_idx[l] = int(i)
 
 
    def __getitem__(self, idx):
        """
        Args:
            idx (int): 索引
        Returns:
            dict: 包含圖像和標(biāo)簽的字典
        """
        img_name = os.path.join(self.image_folder, self.image_files[idx])
        image = Image.open(img_name).convert('RGB')
 
        if self.transform:
            image = self.transform(image)
 
        # 標(biāo)簽從文件名中提取
        lab_name = self.image_files[idx].split('_')[0]
        label = self.class_to_idx[lab_name]
        return image, label
 
 
from torch.utils.data import DataLoader
from torchvision import transforms
 
# 定義轉(zhuǎn)換操作
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor()
])
 
# 實(shí)例化自定義數(shù)據(jù)集
dataset = CustomDataset(image_folder='F:\Amode\datasets\image_data', transform=transform)
 
# 創(chuàng)建 DataLoader
data_loader = DataLoader(dataset, batch_size=4, shuffle=True)
 
print(dataset[0])
 
# 使用 DataLoader 遍歷數(shù)據(jù)
for images, labels in data_loader:
    # 在這里進(jìn)行訓(xùn)練或測(cè)試操作
    print(images.size(), labels)

以上就是Pytorch加載圖像數(shù)據(jù)集的方法的詳細(xì)內(nèi)容，更多關(guān)于Pytorch加載圖像數(shù)據(jù)集的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: