pytorch中的自定義數(shù)據(jù)處理詳解
pytorch在數(shù)據(jù)中采用Dataset的數(shù)據(jù)保存方式,需要繼承data.Dataset類,如果需要自己處理數(shù)據(jù)的話,需要實(shí)現(xiàn)兩個(gè)基本方法。
:.getitem:返回一條數(shù)據(jù)或者一個(gè)樣本,obj[index] = obj.getitem(index). :.len:返回樣本的數(shù)量 。 len(obj) = obj.len()。
Dataset 在data里,調(diào)用的時(shí)候使用
from torch.utils import data import os from PIL import Image
數(shù)據(jù)在調(diào)用getitem的時(shí)候才會(huì)讀取圖片數(shù)據(jù),如果需要可以修改成自己的getitem函數(shù),根據(jù)自己的數(shù)據(jù)集來設(shè)定,比如
def _getitem_(self,index): img_path=self.imgs[index]; ##這里理解是加載了所有圖像的路徑,封裝成自身的格式 labels=[] ##根據(jù)自己的格式進(jìn)行處理 pil_img=Image.open(img_path); ##根據(jù)上面封裝好的格式進(jìn)行讀取 array=np.array(pil_img); ##將讀取的圖像轉(zhuǎn)成array數(shù)據(jù)表示的格式 data=t.from_numpy(array) #轉(zhuǎn)成Tensor格式,方便后面網(wǎng)絡(luò)操作 return data,label; def _len_(self): return len(self.imgs); ###imgs是一個(gè)絕對(duì)路徑
在主函數(shù)里調(diào)用的時(shí)候,只需使用
dataset=Dataset('') ##或者調(diào)用自定義的數(shù)據(jù)處理類 data,label=dataset[0]; ##相當(dāng)于調(diào)用了dataset.__getitem__(0) for img,label in dataset: ##里面也是以字典形式存放 print(img.size(),imf.float().mean(),label);
采用Dataset的缺點(diǎn)在于實(shí)際中圖像的大小不一,對(duì)數(shù)據(jù)處理中很不友好,其次數(shù)據(jù)太大,容易造成溢出,需要進(jìn)行歸一化,因此torchvision提供了transforms模塊對(duì)Image進(jìn)行和Tensor進(jìn)行操作。
對(duì)PIL_Image的常見操作:
Scale,調(diào)整圖像尺寸。centerCrop:randomcrop:randomsizecrop:裁剪圖片
pad:填充
ToTensor:將Image圖像轉(zhuǎn)化成tensor,并自動(dòng)歸一化到[0,1]
對(duì)Tensor的常見操作:
Normalize:標(biāo)準(zhǔn)化,減去均值,除以標(biāo)準(zhǔn)差。 ToPILImage:將Tensor轉(zhuǎn)變成PILImage格式,可以方便后續(xù)的可視化。
—————————我是分割線—————————
上面介紹了需要自定義的數(shù)據(jù)處理方法,pytorch早封裝好了比較常用方便的方法.
transforms中的ImageFolder, 該類的好處是,所有文件按照類別進(jìn)行保存,文件名就是類別名,不需要另外再生成label.txt了,也不需要像上面預(yù)處理下Label,該類會(huì)自動(dòng)生成標(biāo)簽,構(gòu)造函數(shù)如下:
ImageFolder(root,transform= None,target_transforms=None,loader=default_loader) ##其中root指定路徑,transform:對(duì)PIL_Image進(jìn)行轉(zhuǎn)換操作,輸入?yún)?shù)是loader的返回對(duì)象。target_transform:是label的轉(zhuǎn)換,loader:是指定加載圖片的函數(shù),默認(rèn)操作是讀取為PIL_Image對(duì)象。
通過該函數(shù)得到的Lable按照文件夾名順序排序后形成字典的,比如{類名:序號(hào)從0開始}
,一般最好把文件夾命名為從0開始的數(shù)字,和Imageloader的實(shí)際的Lable一致,如果不是,可以通過self.class_to_ids來查看你得到的數(shù)據(jù)的映射關(guān)系,比如你的文件夾是cat和dog,那么loader就是自動(dòng)從0開始標(biāo)簽,self.class_to_ids得到的就是{‘cat':0,'dog':1}。
dataset=ImageLoader('root'); dataset.imgs ##返回圖片路徑和對(duì)應(yīng)的標(biāo)簽 dataset[5][1] ;##返回第5張圖的標(biāo)簽 dataset[5][0]; ##返回第5張圖的圖像數(shù)據(jù),顯示出來的就是一副圖像,這時(shí)候并沒有轉(zhuǎn)成Tensor格式,所以需要手動(dòng)轉(zhuǎn)換 dataset[0][0].size(); ##輸出第一個(gè)圖像的大小 ##得到的結(jié)果如下,表示該圖像是3通道,大小為224*224 [3,224,224]; ###定義一個(gè)transform,對(duì)數(shù)據(jù)進(jìn)行各種預(yù)處理。 mytransform=T.Compose([ randomSize; T.ToTensor(), ##重點(diǎn)是要記得轉(zhuǎn)成Tensor格式 normlize; ]); dataset=ImageLoader('root',transform=mytransform);
調(diào)用ImageLoader把讀取的圖像轉(zhuǎn)成dataset存儲(chǔ)后,再使用DataLoader對(duì)上面得到的圖像tensor數(shù)據(jù)進(jìn)行抽樣,打亂和分批次操作,操作格式如下:
DataLoader(dataset,batch_size,shuffle=False,sampler=None,num_workers=0,collate_fn=default,pin_memory=False,drop_last=False);
其中:
dataset:加載得到的dataset對(duì)象,就是上面得到的DataSet和ImageLoader得到的對(duì)象(ImageLoader需要進(jìn)行tensor轉(zhuǎn)換后才行)。
batch_size:批處理的大小
shuffle:是否要把數(shù)據(jù)進(jìn)行打亂。(這樣可以防止連續(xù)多個(gè)樣本都是同一類別)
sampler:樣本抽樣.會(huì)改變本身dataset的大?。梢栽诓皇莃atch倍數(shù)的時(shí)候使用)
num_workers:多進(jìn)程數(shù)量,0表示不使用多進(jìn)程。
collate_fn:一般采用默認(rèn)的batch拼接方式。
pin_memory;是否將數(shù)據(jù)保存在pin_memory里,將這的數(shù)據(jù)轉(zhuǎn)到GPU會(huì)快一些。
drop_last:有可能不是batch的整數(shù)倍,將不足一個(gè)batch的數(shù)據(jù)丟棄。
dataloader是一個(gè)迭代對(duì)象,使用方法與一個(gè)迭代器相似,例如:
for batch_data, batch_label in dataloader: ##是按照一batch的數(shù)量進(jìn)行拼接的,以每batch進(jìn)行迭代。
--------torchvision數(shù)據(jù)處理和可視化常用工具--------------
models:保存了訓(xùn)練好的模型
datasets:保存了數(shù)據(jù)集,主要包括minist,imagenet等
transforms:提供常用的數(shù)據(jù)預(yù)處理操作。
make_grid: make_grid(dataloader[0],4):將第一個(gè)batch的圖像拼接成4*4網(wǎng)格
save_image:直接將tensor格式的數(shù)據(jù)保存成圖像
tensorboard是tensorflow框架使用的,但是也有針對(duì)pytorch的Tensorboardx,能讀取數(shù)據(jù)并進(jìn)行可視化,使用比tensorflow的更加方便,本文主要介紹另外一種工具visdom,pytorch的專屬可視化工具,支持?jǐn)?shù)據(jù),圖像,文本,視頻的顯示。visdom有以下兩種概念:
env:環(huán)境,默認(rèn)使用Main環(huán)境,不同用戶的環(huán)境可能不同,需要專門指定。
pane:窗格,用于進(jìn)行可視化,可以拖放,縮放和保存關(guān)閉,可以多個(gè)顯示。
可以使用pip install visdom直接進(jìn)行安裝,在使用visdom的時(shí)候需要注意,保存時(shí)候需要手動(dòng)指定保存的env,其次客戶端和服務(wù)端之間交互采用tornado框架,不會(huì)受其他程序的影響。visdom需要使用nohup python -m visdom.server命令啟動(dòng),放在后臺(tái)運(yùn)行。
import visdom vis=visdom.Visdom(env=u'test');指定一個(gè)環(huán)境,新建一個(gè)客戶端,還可以指定host和端口 x=; y=; vis.line(X=x,Y=y,win='sinx',opts={'title':'y=sinx'}; #畫圖 -line,-image,-text,-histgram,-scatter,-bar,-pie.
同時(shí)支持pytorch的tensor和Numpy結(jié)構(gòu),但不支持int float類型,vis.updateTrace更新之前的圖。
visdom的畫圖工具可以接受兩種,一種是image,接受二維或者三維的,前者是黑白的,后者是彩色圖像,Images接受一個(gè)4維向量的nch*w,c可以是1或者3,代表黑白或者彩色的,n表示圖片的數(shù)量。
--------臨時(shí)記錄下已有的Loss函數(shù)-------
nn.CrossEntropyLoss(); ##交叉熵函數(shù)
nn.MSELoss(); ##均方差函數(shù)
nn.NLLLoss()
nn.NLL2dLoss();
loss函數(shù)后面再學(xué)習(xí)。
以上這篇pytorch中的自定義數(shù)據(jù)處理詳解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python控制nao機(jī)器人身體動(dòng)作實(shí)例詳解
這篇文章主要為大家詳細(xì)介紹了python控制nao機(jī)器人身體動(dòng)作實(shí)例,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-04-04Python中實(shí)現(xiàn)輸入超時(shí)及如何通過變量獲取變量名
這篇文章主要介紹了Python中實(shí)現(xiàn)輸入超時(shí)以及通過變量獲取變量的名字,本文給大家分享了解決思路主要是通過多線程法實(shí)現(xiàn),需要的朋友可以參考下2020-01-01python3 常見解密加密算法實(shí)例分析【base64、MD5等】
這篇文章主要介紹了python3 常見解密加密算法,結(jié)合實(shí)例形式分析了Python的base64模塊加密,以及基于pycrypto模塊的MD5加密等相關(guān)操作技巧,需要的朋友可以參考下2019-12-12python提取字符串中的數(shù)字的實(shí)現(xiàn)
本文主要介紹了python提取字符串中的數(shù)字的實(shí)現(xiàn),主要介紹了幾種常見的方法,具有一定的參考價(jià)值,感興趣的可以了解一下2023-10-10Pycharm使用Database?Navigator連接mysql數(shù)據(jù)庫全過程
這篇文章主要介紹了Pycharm使用Database?Navigator連接mysql數(shù)據(jù)庫全過程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07