快捷導(dǎo)航

Pytorch Dataset,TensorDataset,Dataloader,Sampler關(guān)系解讀

更新時(shí)間：2023年09月11日 16:45:34 作者：czg792845236

這篇文章主要介紹了Pytorch Dataset,TensorDataset,Dataloader,Sampler關(guān)系,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

Dataloader

Dataloader是數(shù)據(jù)加載器，組合數(shù)據(jù)集和采樣器，并在數(shù)據(jù)集上提供單線程或多線程的迭代器。

所以Dataloader的參數(shù)必然需要指定數(shù)據(jù)集Dataset和采樣器Sampler。

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)

dataset (Dataset) – 數(shù)據(jù)集。
batch_size (int, optional) – 每個(gè)batch加載樣本數(shù)。
shuffle (bool, optional) – True則打亂數(shù)據(jù).
sampler (Sampler, optional) – 采樣器，如指定則忽略shuffle參數(shù)。
num_workers (int, optional) – 用多少個(gè)子進(jìn)程加載數(shù)據(jù)。0表示數(shù)據(jù)將在主進(jìn)程中加載
collate_fn (callable, optional) – 獲取batch數(shù)據(jù)的回調(diào)函數(shù)，也就是說(shuō)可以在這個(gè)函數(shù)中修改batch的形式
pin_memory (bool, optional) –
drop_last (bool, optional) – 如果數(shù)據(jù)集大小不能被batch size整除，則設(shè)置為T(mén)rue后可刪除最后一個(gè)不完整的batch。如果設(shè)為False并且數(shù)據(jù)集的大小不能被batch size整除，則最后一個(gè)batch將更小。

Dataset和TensorDataset

所有其他數(shù)據(jù)集都應(yīng)該進(jìn)行子類化。所有子類應(yīng)該override __len__ 和 __getitem__ ，前者提供了數(shù)據(jù)集的大小，后者支持整數(shù)索引，范圍從0到len(self)。

TensorDataset是Dataset的子類，已經(jīng)復(fù)寫(xiě)了 __len__ 和 __getitem__ 方法，只要傳入張量即可，它通過(guò)第一個(gè)維度進(jìn)行索引。

TensorDataset示例

所以TensorDataset說(shuō)白了就是將輸入的tensors捆綁在一起，然后 __len__ 是任何一個(gè)tensor的維度， __getitem__ 表示每個(gè)tensor取相同的索引，然后將這個(gè)結(jié)果組成一個(gè)元組，源碼如下，要好好理解它通過(guò)第一個(gè)維度進(jìn)行索引的意思(針對(duì)tensors里面的每一個(gè)tensor而言)。

class TensorDataset(Dataset):
	def __init__(self,*tensors):
		assert all(tensors[0].size(0)==tensor.size(0) for tensor in tensors)
		self.tensors = tensors
	def __getitem__(self,index):
		return tuple(tensor[index] for tensor in self.tensors)
	def __len__(self):
		return self.tensors[0].size(0)

Sampler和RandomSampler

Sampler與Dataset類似，是采樣器的基礎(chǔ)類。

每個(gè)采樣器子類必須提供一個(gè) __iter__ 方法，提供一種迭代數(shù)據(jù)集元素的索引的方法，以及返回迭代器長(zhǎng)度的 __len__ 方法。

所以Sampler必然是關(guān)于索引的迭代器，也就是它的輸出是索引。

而RandomSampler與TensorDataset類似，RandomSamper已經(jīng)實(shí)現(xiàn)了 __iter__ 和 __len__ 方法，只需要傳入數(shù)據(jù)集即可。

在這里插入圖片描述

猜想理解RandomSampler的實(shí)現(xiàn)方式，考慮到這個(gè)類實(shí)現(xiàn)需要傳入Dataset，所以 __len__ 就是Dataset的 __len__ ，然后 __iter__ 就可以隨便搞一個(gè)隨機(jī)函數(shù)對(duì)range(length)隨機(jī)即可。