PyTorch簡單手寫數(shù)字識別的實現(xiàn)過程
具體流程:
① 導(dǎo)入相應(yīng)的包,下載訓(xùn)練集和測試集對應(yīng)需要的圖像數(shù)據(jù)。
②進(jìn)行圖像數(shù)據(jù)的變換,使圖像數(shù)據(jù)轉(zhuǎn)化成pytorch可識別并計算的張量數(shù)據(jù)類型
③數(shù)據(jù)預(yù)覽測試和數(shù)據(jù)裝載
④模型搭建和參數(shù)優(yōu)化
⑤總代碼
⑥測試
一、包導(dǎo)入及所需數(shù)據(jù)的下載
torchvision包的主要功能是實現(xiàn)數(shù)據(jù)的處理、導(dǎo)入、預(yù)覽等,所以如果需要對計算機(jī)視覺的相關(guān)問題進(jìn)行處理,就可以借用在torchvision包中提供的大量的類來完成相應(yīng)的工作。
代碼的開始部分有這兩個:
import torch from torchvision import datasets, transforms # torchvision包的主要功能是實現(xiàn)數(shù)據(jù)的處理、導(dǎo)入和預(yù)覽等
torchvision.datasets:實現(xiàn)對數(shù)據(jù)集的訓(xùn)練集和測試集的下載,只需使用torchvision再加上需要下載的數(shù)據(jù)集的名稱就可以了,比如本例的MNIST
下載數(shù)據(jù)集的代碼如下:
data_train = datasets.MNIST( transform=transform, root="./data/", train=True, download=True ) data_test = datasets.MNIST( root="./data/", transform=transform, train=True, download=False )
①root用于指定數(shù)據(jù)集在下載之后的存放路徑,這里存放在根目錄下的data文件夾
②transform用于指定導(dǎo)入數(shù)據(jù)集是需要對數(shù)據(jù)進(jìn)行哪種變換操作
③train用于指定數(shù)據(jù)集下載完成后需要載入哪部分?jǐn)?shù)據(jù)(如果設(shè)置為True,則說明載入的是該數(shù)據(jù)集的訓(xùn)練集部分;如果設(shè)置為False,則說明載入的是該數(shù)據(jù)集的測試集部分)
關(guān)于數(shù)據(jù)集引入的改動
此處我對此進(jìn)行了稍微地小改動,因為整個導(dǎo)入下載的數(shù)據(jù)集大約有6萬張圖片,這是一個極大的數(shù)據(jù)量,一臺配置正常的電腦程序運行的時間需求將會是巨大的,我當(dāng)時大約跑了一上午(一臺正常配置的學(xué)生電腦),所以此處我將6萬張數(shù)據(jù)集的訓(xùn)練集和測試集都只截取了前1000張用作訓(xùn)練和測試,雖然說精度會降低,使得偏差較大,但是也足夠用了,在時間上會有極大的節(jié)省,代碼如下:
from torch.utils.data import random_split data_train, _ = random_split( dataset=data_train, lengths=[1000, 59000], generator=torch.Generator().manual_seed(0) ) data_test, _ = random_split( dataset=data_test, lengths=[1000, 59000], generator=torch.Generator().manual_seed(0) )
我調(diào)用torch.utils.data import random_split函數(shù)對數(shù)據(jù)集進(jìn)行了切割,使得數(shù)據(jù)量減少,提升了運行速率。
二、進(jìn)行數(shù)據(jù)處理變換操作
在torch.transforms中提供了豐富的類對載入的數(shù)據(jù)進(jìn)行變換。我們知道,在計算機(jī)視覺中處理的數(shù)據(jù)集有很大一部分是圖片類型的,而在PyTorch中實際進(jìn)行計算的是Tensor數(shù)據(jù)類型的變量,所以我們首先需要解決的是數(shù)據(jù)類型轉(zhuǎn)換的問題
對數(shù)據(jù)進(jìn)行載入及有相應(yīng)變化的代碼如下:
transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize(mean=[0.5], std=[0.5])] )
我們可以將以上代碼中的torchvision.transforms.Compose類看成一種容器,它能夠同時對多種數(shù)據(jù)變換進(jìn)行組合。傳入的參數(shù)是一個列表,列表中的元素就開始對載入的數(shù)據(jù)進(jìn)行各種變換操作。例如本例:
①轉(zhuǎn)化數(shù)據(jù)類型為Tensor(張量)
②對均值(mean)和標(biāo)準(zhǔn)差(std)均為0.5的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化變化
三、數(shù)據(jù)預(yù)覽測試和數(shù)據(jù)裝載
數(shù)據(jù)下載完成并載入之后,我們還需對數(shù)據(jù)進(jìn)行裝載。
我們可以將數(shù)據(jù)的載入理解為對圖片的處理,在處理完成后,我們就需要將這些圖片打包好送給我們的模型進(jìn)行訓(xùn)練了,而裝載就是這個打包的過程
代碼片如下:
data_loader_train = torch.utils.data.DataLoader(dataset=data_train, batch_size=4, shuffle=True) data_loader_test = torch.utils.data.DataLoader(dataset=data_test, batch_size=4, shuffle=True)
對數(shù)據(jù)的裝載使用的是torch.utils.data.DataLoader類,類中的參數(shù):
①batch_size參數(shù)設(shè)置了每個包中的圖片數(shù)據(jù)個數(shù),代碼中的值是4(此處如果電腦配置不是很高或者想讓程序跑的快一點的話可以稍微調(diào)低,原本為64,此處我將其調(diào)為4)
②dataset參數(shù)用于指定我們載入的數(shù)據(jù)集的名稱。 ③將shuffle參數(shù)設(shè)置為True,在裝載的過程中會將數(shù)據(jù)隨機(jī)打亂順序并進(jìn)行打包。
在裝載完成后,我們可以選取其中一個批次的數(shù)據(jù)進(jìn)行預(yù)覽。進(jìn)行數(shù)據(jù)預(yù)覽的代碼如下:
images, labels = next(iter(data_loader_train)) img = torchvision.utils.make_grid(images) img = img.numpy().transpose(1, 2, 0) std = [0.5] mean = [0.5] img = img * std + mean print([labels[i] for i in range(4)]) plt.imshow(img) plt.show()
在以上代碼中使用了iter和next來獲取一個批次的圖片數(shù)據(jù)(images)和其對應(yīng)的圖片標(biāo)簽(abels)。
然后使用torchvision.utils中的make_grid類方法將一個批次的圖片構(gòu)造成網(wǎng)格模式。
需要傳遞給torchvision.utils.make_grid的參數(shù)就是一個批次的裝載數(shù)據(jù),每個批次的裝載數(shù)據(jù)都是4維的,維度的構(gòu)成從前往后分別為batch_size、channel、height、weight,分別對應(yīng)一個批次中的數(shù)據(jù)個數(shù)、每張圖片的色彩通道數(shù)、每張圖片的高度和寬度。
在通過torchvision.utils.make_grid之后,圖片的維度就變成了(channel,height,weight),這個批次的圖片全部被整合到了一起,所以在這個維度中對應(yīng)的值也和之前不一樣了,但是色彩通道數(shù)保持不變。
若我們想使用Matplotlib將數(shù)據(jù)顯示成正常的圖片形式,則使用的數(shù)據(jù)首先必須是數(shù)組,其次這個數(shù)組的維度必須是(height、weight、channel),即色彩通道數(shù)在最后面。
所以我們要通過numpy和transpose完成原始數(shù)據(jù)類型的轉(zhuǎn)換和數(shù)據(jù)維度的交換,這樣才能夠使用Matplotlib繪制出正確的圖像。
在完成數(shù)據(jù)預(yù)覽的代碼中,我們先打印輸出了這個批次中的數(shù)據(jù)的全部標(biāo)簽,然后才對這個批次中的所有圖片數(shù)據(jù)進(jìn)行顯示。結(jié)果如下:
效果圖如下,可以看到,打印輸出的首先是4張圖片對應(yīng)的標(biāo)簽,然后是4張圖片的預(yù)覽效果
plt.show()的話如果是使用PyCham編譯的話一定要加上去,不然會出現(xiàn)顯示不出圖像的情況
plt.show()
四、模型搭建和參數(shù)優(yōu)化
在順利完成數(shù)據(jù)裝載之后,我們就可以開始編寫卷積神經(jīng)網(wǎng)絡(luò)的搭建和參數(shù)優(yōu)化的代碼了。
卷積層使用torch.nn.Conv2d類方法來搭建;
激活層使用torch.nn.ReLU()類方法來搭建;
池化層使用torch.nn.MaxPool2d類方法來搭建;
全連接層使用torch.nn.Linear類方法來搭建
實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)模型搭建的代碼如下:
class Model(torch.nn.Module): def __init__(self): super(Model, self).__init__() self.conv1 = torch.nn.Sequential( torch.nn.Conv2d(1, 64, kernel_size=3, stride=1, padding=1), torch.nn.ReLU(), torch.nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1), torch.nn.ReLU(), torch.nn.MaxPool2d(stride=2, kernel_size=2) ) self.dense = torch.nn.Sequential( torch.nn.Linear(14 * 14 * 128, 1024), torch.nn.ReLU(), torch.nn.Dropout(p=0.5), torch.nn.Linear(1024, 10) ) def forward(self, x): x = self.conv1(x) # 卷積處理 x = x.view(-1, 14*14*128) # 對參數(shù)實行扁平化處理 x = self.dense(x) return x
我們選擇搭建一個在結(jié)構(gòu)層次上有所簡化的卷積神經(jīng)網(wǎng)絡(luò)模型,在結(jié)構(gòu)上使用了兩個卷積層:一個最大池化層和兩個全連接層
torch.nn.Conv2d():用于搭建卷積神經(jīng)網(wǎng)絡(luò)的卷積層,主要的輸入?yún)?shù)有輸入通道數(shù)、輸出通道數(shù)、卷積核大小、卷積核移動步長和Padding值。其中,
輸入通道數(shù)的數(shù)據(jù)類型是整型,用于確定輸入數(shù)據(jù)的層數(shù);
輸出通道數(shù)的數(shù)據(jù)類型也是整型,用于確定輸出數(shù)據(jù)的層數(shù);
卷積核大小的數(shù)據(jù)類型是整型,用于確定卷積核的大?。?br /> 卷積核移動步長的數(shù)據(jù)類型是整型,用于確定卷積核每次滑動的步長;
Paddingde的數(shù)據(jù)類型是整型,值為0時代表不進(jìn)行邊界像素的填充,如果值大于0,那么增加數(shù)字所對應(yīng)的邊界像素層數(shù)。
torch.nn.MaxPool2d():用于實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)中的最大池化層,主要的輸入?yún)?shù)時池化窗口的大小、池化窗口移動步長和Paddingde值。
同樣:
池化窗口大小的數(shù)據(jù)類型是整型,用于確定池化窗口的大小。
池化窗口步長的數(shù)據(jù)類型也是整型,用于確定池化窗口每次移動的步長。
Paddingde值和在torch.nn.Conv2d中定義的Paddingde值的用法和意義時一樣的。
torch.nn.Dropout():torch.nn.Dropout類用于防止卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的過程中發(fā)生過擬合,其工作原理簡單來說就是在模型訓(xùn)練的過程中,以一定的隨機(jī)概率將卷積神經(jīng)網(wǎng)絡(luò)模型的部分參數(shù)歸零,以達(dá)到減少相鄰兩層神經(jīng)連接的目的。
代碼前向傳播forward函數(shù)中的內(nèi)容:
首先,經(jīng)過self.conv1進(jìn)行卷積處理;然后進(jìn)行x.view(-1 ,14 * 14 *128),對參數(shù)實現(xiàn)扁平化因為之后緊挨著就是全連接層,所以如果不進(jìn)行扁平化處理,則全連接層的實際輸出的參數(shù)維度和其定義輸入的維度將不匹配,程序會報錯;最后,通過self.dense定義的全連接進(jìn)行最后的分類。
在編輯完搭建卷積神經(jīng)網(wǎng)絡(luò)模型的代碼之后,我們就可以開始對模型進(jìn)行訓(xùn)練和對參數(shù)進(jìn)行優(yōu)化了。首先,定義在訓(xùn)練之前使用哪種損失函數(shù)和優(yōu)化函數(shù):
model = Model() cost = torch.nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters()) # 損失函數(shù): 交叉熵 # 優(yōu)化函數(shù): Adam自適應(yīng)優(yōu)化算法,需要優(yōu)化的參數(shù)實在Model中生成的全部參數(shù), #因為沒有定義學(xué)習(xí)速率的值,所以使用默認(rèn)值
最后,卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模型訓(xùn)練和參數(shù)優(yōu)化的代碼如下:
epochs_n = 5 for epoch in range(epochs_n): running_loss = 0.0 running_correct = 0 print("Epoch{}/{}".format(epoch, epochs_n)) print("-" * 10) for data in data_loader_train: X_train, y_train = data X_train, y_train = Variable(X_train), Variable(y_train) outputs = model(X_train) _,pred = torch.max(outputs.data, 1) optimizer.zero_grad() loss = cost(outputs, y_train) loss.backward() optimizer.step() running_loss += loss.data running_correct += torch.sum(pred == y_train.data) testing_correct = 0 for data in data_loader_test: X_test, y_test = data X_test, y_test = Variable(X_test), Variable(y_test) outputs = model(X_test) _, pred = torch.max(outputs.data, 1) testing_correct += torch.sum(pred == y_test.data) print("Loss is:{:.4f},Train Accuracy is:{:.4f}%, Test Accuracy is:{:.4f}".format(running_loss / len(data_train),100 * running_correct / len(data_train),100 * testing_correct / len(data_test)))
關(guān)于模型搭建的改動
在此處我對上面模型進(jìn)行了優(yōu)化改動,大大優(yōu)化了運行的時間,但是對應(yīng)也減少了一些訓(xùn)練精度。
原理就是,卷積層的運算量不會太大,但全連接層的運算量比較大,所以降低全連接的參數(shù)量,以及降低圖像特征圖的尺寸
class Model(torch.nn.Module): def __init__(self): super(Model, self).__init__() self.conv1 = torch.nn.Sequential( torch.nn.Conv2d(1, 64, kernel_size=3, stride=2, padding=1), torch.nn.ReLU(), torch.nn.Conv2d(64, 128, kernel_size=3, stride=2, padding=1), torch.nn.ReLU(), # torch.nn.MaxPool2d(stride=2, kernel_size=2) ) self.dense = torch.nn.Sequential( # torch.nn.Linear(14 * 14 * 128, 1024), torch.nn.Linear(7 * 7 * 128, 512), torch.nn.ReLU(), # torch.nn.Dropout(p=0.5), torch.nn.Dropout(p=0.8), torch.nn.Linear(512, 10) ) def forward(self, x): x = self.conv1(x) # 卷積處理 # x = x.view(-1, 14*14*128) # 對參數(shù)實行扁平化處理 x = x.view(-1, 7*7*128) # 對參數(shù)實行扁平化處理 x = self.dense(x) return x
為了驗證我們訓(xùn)練的模型是不是真的已如結(jié)果顯示的一樣準(zhǔn)確,則最好的方法就是隨機(jī)選取一部分測試集中的圖片,用訓(xùn)練好的模型進(jìn)行預(yù)測,看看和真實值有多大偏差,并對結(jié)果進(jìn)行可視化,測試的代碼如下:
X_test, y_test = next(iter(data_loader_test)) inputs = Variable(X_test) pred = model(inputs) _, pred = torch.max(pred,1) print("Predict Label is:", [i for i in pred.data]) print("Real Label is:", [i for i in y_test]) img = torchvision.utils.make_grid(X_test) img = img.numpy().transpose(1,2,0) std = [0.5, 0.5, 0.5] mean = [0.5, 0.5, 0.5] img = img*std+mean plt.imshow(img) plt.show()
記得末尾一定加上plt.show()
用于測試的數(shù)據(jù)標(biāo)簽結(jié)果輸出如下:
在輸出結(jié)果中
第1個結(jié)果是我們訓(xùn)練好的模型的預(yù)測值,第2個結(jié)果是這4個測試數(shù)據(jù)的真實值。
對測試數(shù)據(jù)進(jìn)行可視化,如下圖所示:
可以看到,在上圖可視化的這部分測試集圖片,模型的預(yù)測結(jié)果和真實結(jié)果是完全一致的。當(dāng)然如果想選取更多的測試集進(jìn)行可視化,則只需將batch_size設(shè)置的更大,但考慮對應(yīng)程序的運行速度將會略微降低
總代碼:
import torch import numpy import torchvision import matplotlib.pyplot as plt from torchvision import datasets, transforms # torchvision包的主要功能是實現(xiàn)數(shù)據(jù)的處理、導(dǎo)入和預(yù)覽等 from torch.autograd import Variable transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.5], std=[0.5])]) data_train = datasets.MNIST( transform=transform, root="./data/", train=True, download=True ) data_test = datasets.MNIST( root="./data/", transform=transform, train=True, download=False ) from torch.utils.data import random_split data_train, _ = random_split( dataset=data_train, lengths=[1000, 59000], generator=torch.Generator().manual_seed(0) ) data_test, _ = random_split( dataset=data_test, lengths=[1000, 59000], generator=torch.Generator().manual_seed(0) ) data_loader_train = torch.utils.data.DataLoader(dataset=data_train, batch_size=4, shuffle=True) data_loader_test = torch.utils.data.DataLoader(dataset=data_test, batch_size=4, shuffle=True) # images, labels = next(iter(data_loader_train)) # # img = torchvision.utils.make_grid(images) # img = img.numpy().transpose(1, 2, 0) # # std = [0.5] # mean = [0.5] # img = img * std + mean # # print([labels[i] for i in range(64)]) # plt.imshow(img) # plt.show() # class Model(torch.nn.Module): # # def __init__(self): # super(Model, self).__init__() # self.conv1 = torch.nn.Sequential( # torch.nn.Conv2d(1, 64, kernel_size=3, stride=1, padding=1), # torch.nn.ReLU(), # torch.nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1), # torch.nn.ReLU(), # torch.nn.MaxPool2d(stride=2, kernel_size=2) # ) # # self.dense = torch.nn.Sequential( # torch.nn.Linear(14 * 14 * 128, 1024), # torch.nn.ReLU(), # torch.nn.Dropout(p=0.5), # torch.nn.Linear(1024, 10) # ) # # def forward(self, x): # x = self.conv1(x) # 卷積處理 # x = x.view(-1, 14*14*128) # 對參數(shù)實行扁平化處理 # x = self.dense(x) # return x class Model(torch.nn.Module): def __init__(self): super(Model, self).__init__() self.conv1 = torch.nn.Sequential( torch.nn.Conv2d(1, 64, kernel_size=3, stride=2, padding=1), torch.nn.ReLU(), torch.nn.Conv2d(64, 128, kernel_size=3, stride=2, padding=1), torch.nn.ReLU(), # torch.nn.MaxPool2d(stride=2, kernel_size=2) ) self.dense = torch.nn.Sequential( # torch.nn.Linear(14 * 14 * 128, 1024), torch.nn.Linear(7 * 7 * 128, 512), torch.nn.ReLU(), # torch.nn.Dropout(p=0.5), torch.nn.Dropout(p=0.8), torch.nn.Linear(512, 10) ) def forward(self, x): x = self.conv1(x) # 卷積處理 # x = x.view(-1, 14*14*128) # 對參數(shù)實行扁平化處理 x = x.view(-1, 7 * 7 * 128) # 對參數(shù)實行扁平化處理 x = self.dense(x) return x model = Model() cost = torch.nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters()) epochs_n = 5 for epoch in range(epochs_n): running_loss = 0.0 running_correct = 0 print("Epoch{}/{}".format(epoch, epochs_n)) print("-" * 10) for data in data_loader_train: X_train, y_train = data X_train, y_train = Variable(X_train), Variable(y_train) outputs = model(X_train) _, pred = torch.max(outputs.data, 1) optimizer.zero_grad() loss = cost(outputs, y_train) loss.backward() optimizer.step() running_loss += loss.data running_correct += torch.sum(pred == y_train.data) testing_correct = 0 for data in data_loader_test: X_test, y_test = data X_test, y_test = Variable(X_test), Variable(y_test) outputs = model(X_test) _, pred = torch.max(outputs.data, 1) testing_correct += torch.sum(pred == y_test.data) print("Loss is:{:.4f},Train Accuracy is:{:.4f}%, Test Accuracy is:{:.4f}".format(running_loss / len(data_train), 100 * running_correct / len( data_train), 100 * testing_correct / len( data_test))) X_test, y_test = next(iter(data_loader_test)) inputs = Variable(X_test) pred = model(inputs) _, pred = torch.max(pred, 1) print("Predict Label is:", [i for i in pred.data]) print("Real Label is:", [i for i in y_test]) img = torchvision.utils.make_grid(X_test) img = img.numpy().transpose(1, 2, 0) std = [0.5, 0.5, 0.5] mean = [0.5, 0.5, 0.5] img = img * std + mean plt.imshow(img) plt.show()
測試
最后,關(guān)于這類代碼的運行時間的需求都是巨大的,所以短時間內(nèi)出不來很正常,盡量別中途中斷程序,若你想檢測程序是否運行:
epochs_n = 5 for epoch in range(epochs_n): running_loss = 0.0 running_correct = 0 print("Epoch{}/{}".format(epoch, epochs_n)) print("-" * 10) iter = 0 for data in data_loader_train: iter+=1 print(iter) X_train, y_train = data X_train, y_train = Variable(X_train), Variable(y_train) outputs = model(X_train) _, pred = torch.max(outputs.data, 1) optimizer.zero_grad() loss = cost(outputs, y_train) loss.backward() optimizer.step() running_loss += loss.data running_correct += torch.sum(pred == y_train.data) testing_correct = 0 for data in data_loader_test: X_test, y_test = data X_test, y_test = Variable(X_test), Variable(y_test) outputs = model(X_test) _, pred = torch.max(outputs.data, 1) testing_correct += torch.sum(pred == y_test.data) print("Loss is:{:.4f},Train Accuracy is:{:.4f}%, Test Accuracy is:{:.4f}".format(running_loss / len(data_train), 100 * running_correct / len( data_train), 100 * testing_correct / len( data_test)))
你可以在此處加上一個int型的測試變量iter,通過觀察iter是否累加迭代來判斷程序是否繼續(xù)在運行
總結(jié)
到此這篇關(guān)于PyTorch簡單手寫數(shù)字識別的文章就介紹到這了,更多相關(guān)PyTorch手寫數(shù)字識別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python?Concurrent?Futures解鎖并行化編程的魔法示例
Python的concurrent.futures模塊為并行化編程提供了強(qiáng)大的工具,使得開發(fā)者能夠輕松地利用多核心和異步執(zhí)行的能力,本文將深入探討concurrent.futures的各個方面,從基礎(chǔ)概念到高級用法,為讀者提供全面的了解和實用的示例代碼2023-12-12Python面向?qū)ο箢惥帉懠?xì)節(jié)分析【類,方法,繼承,超類,接口等】
這篇文章主要介紹了Python面向?qū)ο箢惥帉懠?xì)節(jié),較為詳細(xì)的分析了Python面向?qū)ο蟪绦蛟O(shè)計中類,方法,繼承,超類,接口等相關(guān)概念、使用技巧與注意事項,需要的朋友可以參考下2019-01-01Python運行報錯UnicodeDecodeError的解決方法
本文給大家分享的是在Python項目中經(jīng)常遇到的關(guān)于編碼問題的一個小bug的解決方法以及分析方法,有相同遭遇的小伙伴可以來參考下2016-06-06Windows下創(chuàng)建定時任務(wù)執(zhí)行Python腳本的方法實現(xiàn)
Python定時任務(wù)執(zhí)行,本文主要介紹了Windows下創(chuàng)建定時任務(wù)執(zhí)行Python腳本的方法實現(xiàn),具有一定的參考價值,感興趣的可以了解一下2023-11-11