快捷導(dǎo)航

python中關(guān)于CIFAR10數(shù)據(jù)集的使用

更新時間：2023年02月01日 16:39:56 作者：曉亮.

這篇文章主要介紹了python中關(guān)于CIFAR10數(shù)據(jù)集的使用方式，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教

關(guān)于CIFAR10數(shù)據(jù)集的使用

主要解決了如何把數(shù)據(jù)集與transforms結(jié)合在一起的問題。

CIFAR10的官方解釋

torchvision.datasets.CIFAR10(
root: str,?
train: bool = True,?
transform: Optional[Callable] = None,
target_transform: Optional[Callable] = None,
download: bool = False)

注釋：

root (string)存在 cifar-10-batches-py 目錄的數(shù)據(jù)集的根目錄，如果下載設(shè)置為 True，則將保存到該目錄。
train (bool, optional)如果為True，則從訓(xùn)練集創(chuàng)建數(shù)據(jù)集，如果為False，從測試集創(chuàng)建數(shù)據(jù)集。
transform (callable, optional)它接受一個 PIL 圖像并返回一個轉(zhuǎn)換后的版本。例如，transforms.RandomCrop/transforms.ToTensor
target_transform (callable, optional) 接收目標(biāo)并對其進(jìn)行轉(zhuǎn)換的函數(shù)/轉(zhuǎn)換。
download (bool, optional)如果為 true，則從 Internet 下載數(shù)據(jù)集并將其放在根目錄中。如果數(shù)據(jù)集已經(jīng)下載，則不會再次下載。

實(shí)戰(zhàn)操作

1.CIAFR10數(shù)據(jù)集的下載

代碼如下：

import torchvision ? #導(dǎo)入torchvision這個類

train_set = torchvision.datasets.CIFAR10(root = "./dataset", train = True,?
download= True) ?#從訓(xùn)練集創(chuàng)建數(shù)據(jù)集
test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False,
?download=True) ? ?#從測試集創(chuàng)建數(shù)據(jù)集

root = "./dataset"，將下載的數(shù)據(jù)集保存在這個文件夾下；download= True，從 Internet 下載數(shù)據(jù)集并將其放在根目錄中，這里就是在相對路徑中，創(chuàng)建dataset文件夾，將數(shù)據(jù)集保存在dataset中。

2.查看下載的CIAFR10數(shù)據(jù)集

運(yùn)行程序，開始下載數(shù)據(jù)集。下載成功后，可以進(jìn)行一些查看。代碼如下：

接著輸入：

print(train_set[0]) ?#查看train_set訓(xùn)練集中的第一個數(shù)據(jù)
print(train_set.classes) ? #查看train_set訓(xùn)練集中有多少個類別
?
img, target = train_set[0]
print(img)
print(target)
print(train_set.classes[target])
img.show() ?#顯示圖片

輸出結(jié)果：

(<PIL.Image.Image image mode=RGB size=32x32 at 0x161E924B8D0>, 6)
['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship',
'truck']
<PIL.Image.Image image mode=RGB size=32x32 at 0x161E924B710>
6
frog

注釋：可以看見，train_set數(shù)據(jù)集中有10個類別，train_set中第0個元素的target是6，也就是說，這個元素是屬于第7個類別frog的。

3.數(shù)據(jù)轉(zhuǎn)換

因?yàn)檫@些圖片類型都是PIL Image，如果要供給pytorch使用的話，需要將數(shù)據(jù)全都轉(zhuǎn)化成tensor類型。

完整代碼如下：

import torchvision ? #導(dǎo)入torchvision這個類
from torch.utils.tensorboard import SummaryWriter

from torchvision import transforms
dataset_transforms = transforms.ToTensor()

# dataset_transforms = torchvision.transforms.Compose([
# ? ? torchvision.transforms.ToTensor()
# ]) ? ?第3 ?4 行代碼可以用compose直接寫
train_set = torchvision.datasets.CIFAR10(root = "./dataset", train = True, transform=dataset_transforms, download= True) #訓(xùn)練集
test_set = torchvision.datasets.CIFAR10(root="./dataset", train=False, transform=dataset_transforms, download=True) ? #測試集

writer = SummaryWriter("logs")

# print(train_set[0]) ?#查看train_set訓(xùn)練集中的第一個數(shù)據(jù)
# print(train_set.classes) ? #查看train_set訓(xùn)練集中有多少個類別

# img, target = train_set[0]
# print(img)
# print(target)
# print(train_set.classes[target])
# img.show()
for i in range(20):
? ? img, target = train_set[i]
? ? writer.add_image("cifar10_test2", img, i)

writer.close()

小結(jié)：CIFAR10數(shù)據(jù)集內(nèi)存很小，只有100多m，下載方便。對我們學(xué)習(xí)數(shù)據(jù)集非常友好，練習(xí)的時候，我們可以使用SummaryWriter來將數(shù)據(jù)寫入tensorboard中。

CIFAR-10 數(shù)據(jù)集簡介

復(fù)現(xiàn)代碼的過程中，簡單了解了作者使用的數(shù)據(jù)集CIFAR-10 dataset ，簡單記錄一下。

CIFAR-10數(shù)據(jù)集是8000萬微小圖片的標(biāo)簽子集，它的收集者是：Alex Krizhevsky, Vinod Nair, Geoffrey Hinton。

數(shù)據(jù)集由6萬張32*32的彩色圖片組成，一共有10個類別。每個類別6000張圖片。其中有5萬張訓(xùn)練圖片及1萬張測試圖片。

數(shù)據(jù)集被劃分為5個訓(xùn)練塊和1個測試塊，每個塊1萬張圖片。

測試塊包含了1000張從每個類別中隨機(jī)選擇的圖片。訓(xùn)練塊包含隨機(jī)的剩余圖像，但某些訓(xùn)練塊可能對于一個類別的包含多于其他類別，訓(xùn)練塊包含來自各個類別的5000張圖片。

這些類是完全互斥的，及在一個類別中出現(xiàn)的圖片不會出現(xiàn)在其它類中。

數(shù)據(jù)集版本

作者提供了3個版本的數(shù)據(jù)集：python version; Matlab version; binary version。

可根據(jù)自己的需求選擇。

數(shù)據(jù)集下載地址：下載鏈接

數(shù)據(jù)集布置

以python version進(jìn)行介紹，Matlab version與之相同。

下載后獲得文件 data_batch_1, data_batch_2,…, data_batch_5。測試塊相同。這些文件中的每一個都是用cPickle生成的python pickled對象。

具體使用方法：

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

返回字典類，每個塊的文件包含一個字典類，包含以下元素：

data: 一個100003072的numpy數(shù)組（unit8）每個行存儲3232的彩色圖片，3072=1024*3，分別是red, green, blue。存儲方式以行為主。
labels:使用0-9進(jìn)行索引。

數(shù)據(jù)集包含的另一個文件batches.meta同樣包含python字典，用于加載label_names。如：label_names[0] == “airplane”, label_names[1] == “automobile”

總結(jié)

以上為個人經(jīng)驗(yàn)，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python中關(guān)于CIFAR10數(shù)據(jù)集的使用

目錄

關(guān)于CIFAR10數(shù)據(jù)集的使用

CIFAR10的官方解釋

實(shí)戰(zhàn)操作

CIFAR-10 數(shù)據(jù)集簡介

數(shù)據(jù)集版本

數(shù)據(jù)集布置

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具