python讀取mnist數(shù)據(jù)集方法案例詳解
mnist手寫數(shù)字?jǐn)?shù)據(jù)集在機(jī)器學(xué)習(xí)中非常常見,這里記錄一下用python從本地讀取mnist數(shù)據(jù)集的方法。
數(shù)據(jù)集格式介紹
這部分內(nèi)容網(wǎng)絡(luò)上很常見,這里還是簡明介紹一下。網(wǎng)絡(luò)上下載的mnist數(shù)據(jù)集包含4個文件:
前兩個分別是測試集的image和label,包含10000個樣本。后兩個是訓(xùn)練集的,包含60000個樣本。.gz表示這個一個壓縮包,如果進(jìn)行解壓的話,會得到.ubyte格式的二進(jìn)制文件。
上圖是訓(xùn)練集的label和image數(shù)據(jù)的存儲格式。兩個文件最開始都有magic number和number of images/items兩個數(shù)據(jù),有用的是第二個,表示文件中存儲的樣本個數(shù)。另外要注意的是數(shù)據(jù)的位數(shù),有32位整型和8位整型兩種。
讀取方法
.gz格式的文件讀取
需要import gzip
讀取訓(xùn)練集的代碼如下:
def load_mnist_train(path, kind='train'): '‘' path:數(shù)據(jù)集的路徑 kind:值為train,代表讀取訓(xùn)練集 ‘'‘ labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind) images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind) #使用gzip打開文件 with gzip.open(labels_path, 'rb') as lbpath: #使用struct.unpack方法讀取前兩個數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個字節(jié) #這樣讀到的前兩個數(shù)據(jù)分別是magic number和樣本個數(shù) magic, n = struct.unpack('>II',lbpath.read(8)) #使用np.fromstring讀取剩下的數(shù)據(jù),lbpath.read()表示讀取所有的數(shù)據(jù) labels = np.fromstring(lbpath.read(),dtype=np.uint8) with gzip.open(images_path, 'rb') as imgpath: magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16)) images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784) return images, labels
讀取測試集的代碼類似。
非壓縮文件的讀取
如果在本地對四個文件解壓縮之后,得到的就是.ubyte格式的文件,這時讀取的代碼有所變化。
def load_mnist_train(path, kind='train'): '‘' path:數(shù)據(jù)集的路徑 kind:值為train,代表讀取訓(xùn)練集 ‘'‘ labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind) images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind) #不再用gzip打開文件 with open(labels_path, 'rb') as lbpath: #使用struct.unpack方法讀取前兩個數(shù)據(jù),>代表高位在前,I代表32位整型。lbpath.read(8)表示一次從文件中讀取8個字節(jié) #這樣讀到的前兩個數(shù)據(jù)分別是magic number和樣本個數(shù) magic, n = struct.unpack('>II',lbpath.read(8)) #使用np.fromfile讀取剩下的數(shù)據(jù) labels = np.fromfile(lbpath,dtype=np.uint8) with gzip.open(images_path, 'rb') as imgpath: magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16)) images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784) return images, labels
讀取之后可以查看images和labels的長度,確認(rèn)讀取是否正確。
到此這篇關(guān)于python讀取mnist數(shù)據(jù)集方法案例詳解的文章就介紹到這了,更多相關(guān)python讀取mnist數(shù)據(jù)集方法內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python如何創(chuàng)建裝飾器時保留函數(shù)元信息
這篇文章主要介紹了Python如何創(chuàng)建裝飾器時保留函數(shù)元信息,文中講解非常細(xì)致,幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下2020-08-08Python腳本開發(fā)中的命令行參數(shù)及傳參示例詳解
這篇文章主要為大家介紹了Python腳本開發(fā)中的命令行參數(shù)及傳參示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-07-07python subprocess 殺掉全部派生的子進(jìn)程方法
下面小編就為大家?guī)硪黄猵ython subprocess 殺掉全部派生的子進(jìn)程方法。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-01-01Python實(shí)現(xiàn)的簡單計(jì)算器功能詳解
這篇文章主要介紹了Python實(shí)現(xiàn)的簡單計(jì)算器功能,結(jié)合實(shí)例形式詳細(xì)分析了Python實(shí)現(xiàn)計(jì)算器功能的具體步驟、相關(guān)操作技巧與注意事項(xiàng),需要的朋友可以參考下2018-08-08