欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Pytorch數(shù)據(jù)讀取之Dataset和DataLoader知識(shí)總結(jié)

 更新時(shí)間:2021年05月23日 17:19:28   作者:群星閃耀  
Dataset和DataLoader都是Pytorch里面讀取數(shù)據(jù)的工具.現(xiàn)在對(duì)這兩種工具做一個(gè)概括和總結(jié),對(duì)正在學(xué)習(xí)Pytorch的小伙伴們很有幫助,需要的朋友可以參考下

一、前言

確保安裝

  • scikit-image
  • numpy

二、Dataset

一個(gè)例子:

# 導(dǎo)入需要的包
import torch
import torch.utils.data.dataset as Dataset
import numpy as np
 
# 編造數(shù)據(jù)
Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])
Label = np.asarray([[0], [1], [0], [2]])
# 數(shù)據(jù)[1,2],對(duì)應(yīng)的標(biāo)簽是[0],數(shù)據(jù)[3,4],對(duì)應(yīng)的標(biāo)簽是[1]
 
 
#創(chuàng)建子類
class subDataset(Dataset.Dataset):
    #初始化,定義數(shù)據(jù)內(nèi)容和標(biāo)簽
    def __init__(self, Data, Label):
        self.Data = Data
        self.Label = Label
    #返回?cái)?shù)據(jù)集大小
    def __len__(self):
        return len(self.Data)
    #得到數(shù)據(jù)內(nèi)容和標(biāo)簽
    def __getitem__(self, index):
        data = torch.Tensor(self.Data[index])
        label = torch.IntTensor(self.Label[index])
        return data, label
 
# 主函數(shù)
if __name__ == '__main__':
    dataset = subDataset(Data, Label)
    print(dataset)
    print('dataset大小為:', dataset.__len__())
    print(dataset.__getitem__(0))
    print(dataset[0])

 輸出的結(jié)果

我們有了對(duì)Dataset的一個(gè)整體的把握,再來分析里面的細(xì)節(jié):

#創(chuàng)建子類
class subDataset(Dataset.Dataset):

創(chuàng)建子類時(shí),繼承的時(shí)Dataset.Dataset,不是一個(gè)Dataset。因?yàn)镈ataset是module模塊,不是class類,所以需要調(diào)用module里的class才行,因此是Dataset.Dataset!

lengetitem這兩個(gè)函數(shù),前者給出數(shù)據(jù)集的大小**,后者是用于查找數(shù)據(jù)和標(biāo)簽。是最重要的兩個(gè)函數(shù),我們后續(xù)如果要對(duì)數(shù)據(jù)做一些操作基本上都是再這兩個(gè)函數(shù)的基礎(chǔ)上進(jìn)行。

三、DatasetLoader

DataLoader(dataset,
           batch_size=1,
           shuffle=False,
           sampler=None,
           batch_sampler=None,
           num_works=0,
           clollate_fn=None,
           pin_memory=False,
           drop_last=False,
           timeout=0,
           worker_init_fn=None,
           multiprocessing_context=None)

功能:構(gòu)建可迭代的數(shù)據(jù)裝載器;
dataset:Dataset類,決定數(shù)據(jù)從哪里讀取及如何讀??;數(shù)據(jù)集的路徑
batchsize:批大??;
num_works:是否多進(jìn)程讀取數(shù)據(jù);只對(duì)于CPU
shuffle:每個(gè)epoch是否打亂;
drop_last:當(dāng)樣本數(shù)不能被batchsize整除時(shí),是否舍棄最后一批數(shù)據(jù);
Epoch:所有訓(xùn)練樣本都已輸入到模型中,稱為一個(gè)Epoch;
Iteration:一批樣本輸入到模型中,稱之為一個(gè)Iteration;
Batchsize:批大小,決定一個(gè)Epoch中有多少個(gè)Iteration;

還是舉一個(gè)實(shí)例:

import torch
import torch.utils.data.dataset as Dataset
import torch.utils.data.dataloader as DataLoader
import numpy as np
 
Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])
Label = np.asarray([[0], [1], [0], [2]])
#創(chuàng)建子類
class subDataset(Dataset.Dataset):
    #初始化,定義數(shù)據(jù)內(nèi)容和標(biāo)簽
    def __init__(self, Data, Label):
        self.Data = Data
        self.Label = Label
    #返回?cái)?shù)據(jù)集大小
    def __len__(self):
        return len(self.Data)
    #得到數(shù)據(jù)內(nèi)容和標(biāo)簽
    def __getitem__(self, index):
        data = torch.Tensor(self.Data[index])
        label = torch.IntTensor(self.Label[index])
        return data, label
 
if __name__ == '__main__':
    dataset = subDataset(Data, Label)
    print(dataset)
    print('dataset大小為:', dataset.__len__())
    print(dataset.__getitem__(0))
    print(dataset[0])
 
    #創(chuàng)建DataLoader迭代器,相當(dāng)于我們要先定義好前面說的Dataset,然后再用Dataloader來對(duì)數(shù)據(jù)進(jìn)行一些操作,比如是否需要打亂,則shuffle=True,是否需要多個(gè)進(jìn)程讀取數(shù)據(jù)num_workers=4,就是四個(gè)進(jìn)程
 
    dataloader = DataLoader.DataLoader(dataset,batch_size= 2, shuffle = False, num_workers= 4)
    for i, item in enumerate(dataloader): #可以用enumerate來提取出里面的數(shù)據(jù)
        print('i:', i)
        data, label = item #數(shù)據(jù)是一個(gè)元組
        print('data:', data)
        print('label:', label)

四、將Dataset數(shù)據(jù)和標(biāo)簽放在GPU上(代碼執(zhí)行順序出錯(cuò)則會(huì)有bug)

這部分可以直接去看博客:Dataset和DataLoader

總結(jié)下來時(shí)有兩種方法解決

1.如果在創(chuàng)建Dataset的類時(shí),定義__getitem__方法的時(shí)候,將數(shù)據(jù)轉(zhuǎn)變?yōu)镚PU類型。則需要將Dataloader里面的參數(shù)num_workers設(shè)置為0,因?yàn)檫@個(gè)參數(shù)是對(duì)于CPU而言的。如果數(shù)據(jù)改成了GPU,則只能單進(jìn)程。如果是在Dataloader的部分,先多個(gè)子進(jìn)程讀取,再轉(zhuǎn)變?yōu)镚PU,則num_wokers不用修改。就是上述__getitem__部分的代碼,移到Dataloader部分。

2.不過一般來講,數(shù)據(jù)集和標(biāo)簽不會(huì)像我們上述編輯的那么簡(jiǎn)單。一般再kaggle上的標(biāo)簽都是存在CSV這種文件中。需要pandas的配合。

這個(gè)進(jìn)階可以看:WRITING CUSTOM DATASETS, DATALOADERS AND TRANSFORMS,他是用人臉圖片作為數(shù)據(jù)和人臉特征點(diǎn)作為標(biāo)簽。

到此這篇關(guān)于Pytorch數(shù)據(jù)讀取之Dataset和DataLoader知識(shí)總結(jié)的文章就介紹到這了,更多相關(guān)詳解Dataset和DataLoader內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 以視頻爬取實(shí)例講解Python爬蟲神器Beautiful Soup用法

    以視頻爬取實(shí)例講解Python爬蟲神器Beautiful Soup用法

    這篇文章主要以視頻爬取實(shí)例來講解Python爬蟲神器Beautiful Soup的用法,Beautiful Soup是一個(gè)為Python獲取數(shù)據(jù)而設(shè)計(jì)的包,簡(jiǎn)潔而強(qiáng)大,需要的朋友可以參考下
    2016-01-01
  • Python中函數(shù)帶括號(hào)和不帶括號(hào)的區(qū)別及說明

    Python中函數(shù)帶括號(hào)和不帶括號(hào)的區(qū)別及說明

    這篇文章主要介紹了Python中函數(shù)帶括號(hào)和不帶括號(hào)的區(qū)別及說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • python request 模塊詳細(xì)介紹

    python request 模塊詳細(xì)介紹

    這篇文章主要介紹了python request 模塊詳細(xì)介紹,幫助大家利用request 模塊學(xué)習(xí)爬蟲,感興趣的朋友可以了解下
    2020-11-11
  • Python 調(diào)用C++封裝的進(jìn)一步探索交流

    Python 調(diào)用C++封裝的進(jìn)一步探索交流

    這篇文章主要介紹了Python 調(diào)用C++封裝的進(jìn)一步探索交流,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2021-03-03
  • Anaconda徹底刪除虛擬環(huán)境的正確方法

    Anaconda徹底刪除虛擬環(huán)境的正確方法

    這篇文章主要給大家介紹了關(guān)于Anaconda徹底刪除虛擬環(huán)境的正確方法,要在Anaconda中刪除一個(gè)虛擬環(huán)境,可以按照本文以下步驟進(jìn)行操作,需要的朋友可以參考下
    2023-10-10
  • Python之日期與時(shí)間處理模塊(date和datetime)

    Python之日期與時(shí)間處理模塊(date和datetime)

    這篇文章主要介紹了Python之日期與時(shí)間處理模塊(date和datetime),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-02-02
  • Python使用pandas和openpyxl讀取Excel表格的方法詳解

    Python使用pandas和openpyxl讀取Excel表格的方法詳解

    這篇文章主要介紹了Python讀取Excel表格數(shù)據(jù)的方法,Python提供了多種讀取Excel文件的方式,最常用的庫是pandas和openpyxl,下面我將詳細(xì)介紹如何使用這兩個(gè)庫來讀取Excel文件,并包含一些實(shí)用示例,需要的朋友可以參考下
    2024-10-10
  • python opencv通過4坐標(biāo)剪裁圖片

    python opencv通過4坐標(biāo)剪裁圖片

    圖片剪裁是常用的方法,那么如何通過4坐標(biāo)剪裁圖片,本文就詳細(xì)的來介紹一下,感興趣的小伙伴們可以參考一下
    2021-06-06
  • Python中json庫的操作指南

    Python中json庫的操作指南

    JSON是存儲(chǔ)和交換文本信息的語法,類似XML,JSON比XML更小、更快,更易解析,且易于人閱讀和編寫,下面這篇文章主要給大家介紹了關(guān)于Python中json庫的操作指南,需要的朋友可以參考下
    2023-04-04
  • OpenAI?Function?Calling特性示例詳解

    OpenAI?Function?Calling特性示例詳解

    這篇文章主要為大家介紹了OpenAI?Function?Calling特性作用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-07-07

最新評(píng)論