快捷導(dǎo)航

用十張圖詳解TensorFlow數(shù)據(jù)讀取機(jī)制（附代碼）

更新時(shí)間：2018年02月06日 14:10:15 作者：李博Garvin

這篇文章主要介紹了用十張圖詳解TensorFlow數(shù)據(jù)讀取機(jī)制（附代碼），小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧

在學(xué)習(xí)TensorFlow的過程中，有很多小伙伴反映讀取數(shù)據(jù)這一塊很難理解。確實(shí)這一塊官方的教程比較簡(jiǎn)略，網(wǎng)上也找不到什么合適的學(xué)習(xí)材料。今天這篇文章就以圖片的形式，用最簡(jiǎn)單的語(yǔ)言，為大家詳細(xì)解釋一下TensorFlow的數(shù)據(jù)讀取機(jī)制，文章的最后還會(huì)給出實(shí)戰(zhàn)代碼以供參考。

TensorFlow讀取機(jī)制圖解

首先需要思考的一個(gè)問題是，什么是數(shù)據(jù)讀??？以圖像數(shù)據(jù)為例，讀取數(shù)據(jù)的過程可以用下圖來表示：

圖片描述

假設(shè)我們的硬盤中有一個(gè)圖片數(shù)據(jù)集0001.jpg，0002.jpg，0003.jpg……我們只需要把它們讀取到內(nèi)存中，然后提供給GPU或是CPU進(jìn)行計(jì)算就可以了。這聽起來很容易，但事實(shí)遠(yuǎn)沒有那么簡(jiǎn)單。事實(shí)上，我們必須要把數(shù)據(jù)先讀入后才能進(jìn)行計(jì)算，假設(shè)讀入用時(shí)0.1s，計(jì)算用時(shí)0.9s，那么就意味著每過1s，GPU都會(huì)有0.1s無事可做，這就大大降低了運(yùn)算的效率。

如何解決這個(gè)問題？方法就是將讀入數(shù)據(jù)和計(jì)算分別放在兩個(gè)線程中，將數(shù)據(jù)讀入內(nèi)存的一個(gè)隊(duì)列，如下圖所示：

圖片描述

讀取線程源源不斷地將文件系統(tǒng)中的圖片讀入到一個(gè)內(nèi)存的隊(duì)列中，而負(fù)責(zé)計(jì)算的是另一個(gè)線程，計(jì)算需要數(shù)據(jù)時(shí)，直接從內(nèi)存隊(duì)列中取就可以了。這樣就可以解決GPU因?yàn)镮O而空閑的問題！

而在TensorFlow中，為了方便管理，在內(nèi)存隊(duì)列前又添加了一層所謂的“文件名隊(duì)列”。

為什么要添加這一層文件名隊(duì)列？我們首先得了解機(jī)器學(xué)習(xí)中的一個(gè)概念：epoch。對(duì)于一個(gè)數(shù)據(jù)集來講，運(yùn)行一個(gè)epoch就是將這個(gè)數(shù)據(jù)集中的圖片全部計(jì)算一遍。如一個(gè)數(shù)據(jù)集中有三張圖片A.jpg、B.jpg、C.jpg，那么跑一個(gè)epoch就是指對(duì)A、B、C三張圖片都計(jì)算了一遍。兩個(gè)epoch就是指先對(duì)A、B、C各計(jì)算一遍，然后再全部計(jì)算一遍，也就是說每張圖片都計(jì)算了兩遍。

TensorFlow使用文件名隊(duì)列+內(nèi)存隊(duì)列雙隊(duì)列的形式讀入文件，可以很好地管理epoch。下面我們用圖片的形式來說明這個(gè)機(jī)制的運(yùn)行方式。如下圖，還是以數(shù)據(jù)集A.jpg, B.jpg, C.jpg為例，假定我們要跑一個(gè)epoch，那么我們就在文件名隊(duì)列中把A、B、C各放入一次，并在之后標(biāo)注隊(duì)列結(jié)束。

圖片描述

程序運(yùn)行后，內(nèi)存隊(duì)列首先讀入A（此時(shí)A從文件名隊(duì)列中出隊(duì)）：

圖片描述

再依次讀入B和C：

圖片描述

此時(shí)，如果再嘗試讀入，系統(tǒng)由于檢測(cè)到了“結(jié)束”，就會(huì)自動(dòng)拋出一個(gè)異常（OutOfRange）。外部捕捉到這個(gè)異常后就可以結(jié)束程序了。這就是TensorFlow中讀取數(shù)據(jù)的基本機(jī)制。如果我們要跑2個(gè)epoch而不是1個(gè)epoch，那只要在文件名隊(duì)列中將A、B、C依次放入兩次再標(biāo)記結(jié)束就可以了。

TensorFlow讀取數(shù)據(jù)機(jī)制的對(duì)應(yīng)函數(shù)

如何在TensorFlow中創(chuàng)建上述的兩個(gè)隊(duì)列呢？

對(duì)于文件名隊(duì)列，我們使用tf.train.string_input_producer函數(shù)。這個(gè)函數(shù)需要傳入一個(gè)文件名list，系統(tǒng)會(huì)自動(dòng)將它轉(zhuǎn)為一個(gè)文件名隊(duì)列。

此外tf.train.string_input_producer還有兩個(gè)重要的參數(shù)，一個(gè)是num_epochs，它就是我們上文中提到的epoch數(shù)。另外一個(gè)就是shuffle，shuffle是指在一個(gè)epoch內(nèi)文件的順序是否被打亂。若設(shè)置shuffle=False，如下圖，每個(gè)epoch內(nèi)，數(shù)據(jù)還是按照A、B、C的順序進(jìn)入文件名隊(duì)列，這個(gè)順序不會(huì)改變：

圖片描述

如果設(shè)置shuffle=True，那么在一個(gè)epoch內(nèi)，數(shù)據(jù)的前后順序就會(huì)被打亂，如下圖所示：

圖片描述

在TensorFlow中，內(nèi)存隊(duì)列不需要我們自己建立，我們只需要使用reader對(duì)象從文件名隊(duì)列中讀取數(shù)據(jù)就可以了，具體實(shí)現(xiàn)可以參考下面的實(shí)戰(zhàn)代碼。

除了tf.train.string_input_producer外，我們還要額外介紹一個(gè)函數(shù)：tf.train.start_queue_runners。初學(xué)者會(huì)經(jīng)常在代碼中看到這個(gè)函數(shù)，但往往很難理解它的用處，在這里，有了上面的鋪墊后，我們就可以解釋這個(gè)函數(shù)的作用了。

在我們使用tf.train.string_input_producer創(chuàng)建文件名隊(duì)列后，整個(gè)系統(tǒng)其實(shí)還是處于“停滯狀態(tài)”的，也就是說，我們文件名并沒有真正被加入到隊(duì)列中（如下圖所示）。此時(shí)如果我們開始計(jì)算，因?yàn)閮?nèi)存隊(duì)列中什么也沒有，計(jì)算單元就會(huì)一直等待，導(dǎo)致整個(gè)系統(tǒng)被阻塞。

圖片描述

而使用tf.train.start_queue_runners之后，才會(huì)啟動(dòng)填充隊(duì)列的線程，這時(shí)系統(tǒng)就不再“停滯”。此后計(jì)算單元就可以拿到數(shù)據(jù)并進(jìn)行計(jì)算，整個(gè)程序也就跑起來了，這就是函數(shù)tf.train.start_queue_runners的用處。

圖片描述

實(shí)戰(zhàn)代碼

我們用一個(gè)具體的例子感受TensorFlow中的數(shù)據(jù)讀取。如圖，假設(shè)我們?cè)诋?dāng)前文件夾中已經(jīng)有A.jpg、B.jpg、C.jpg三張圖片，我們希望讀取這三張圖片5個(gè)epoch并且把讀取的結(jié)果重新存到read文件夾中。

圖片描述

對(duì)應(yīng)的代碼如下：

# 導(dǎo)入TensorFlow
import TensorFlow as tf 

# 新建一個(gè)Session
with tf.Session() as sess:
  # 我們要讀三幅圖片A.jpg, B.jpg, C.jpg
  filename = ['A.jpg', 'B.jpg', 'C.jpg']
  # string_input_producer會(huì)產(chǎn)生一個(gè)文件名隊(duì)列
  filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
  # reader從文件名隊(duì)列中讀數(shù)據(jù)。對(duì)應(yīng)的方法是reader.read
  reader = tf.WholeFileReader()
  key, value = reader.read(filename_queue)
  # tf.train.string_input_producer定義了一個(gè)epoch變量，要對(duì)它進(jìn)行初始化
  tf.local_variables_initializer().run()
  # 使用start_queue_runners之后，才會(huì)開始填充隊(duì)列
  threads = tf.train.start_queue_runners(sess=sess)
  i = 0
  while True:
    i += 1
    # 獲取圖片數(shù)據(jù)并保存
    image_data = sess.run(value)
    with open('read/test_%d.jpg' % i, 'wb') as f:
      f.write(image_data)

我們這里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個(gè)會(huì)跑5個(gè)epoch的文件名隊(duì)列。并使用reader讀取，reader每次讀取一張圖片并保存。

運(yùn)行代碼后，我們得到就可以看到read文件夾中的圖片，正好是按順序的5個(gè)epoch：

圖片描述

如果我們?cè)O(shè)置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True，那么在每個(gè)epoch內(nèi)圖像就會(huì)被打亂，如圖所示：

圖片描述

我們這里只是用三張圖片舉例，實(shí)際應(yīng)用中一個(gè)數(shù)據(jù)集肯定不止3張圖片，不過涉及到的原理都是共通的。

實(shí)例：tensorflow讀取圖片的方法

下面講解tensorflow如何讀取jpg格式的圖片，png格式的圖片是一樣的。有兩種情況：

第一種就是把圖片看做是一個(gè)圖片直接讀進(jìn)來，獲取圖片的原始數(shù)據(jù)，再進(jìn)行解碼，主要用到的函數(shù)就是tf.gfile.FastGFile，tf.image.decode_jpeg

例如：

import tensorflow as tf;  
image_raw_data = tf.gfile.FastGFile('/home/penglu/Desktop/11.jpg').read() 
image = tf.image.decode_jpeg(image_raw_data) #圖片解碼 
print image.eval(session=tf.Session())

輸出：

[[[ 11 63 110]
[ 14 66 113]
[ 17 69 116]
...,

第二種方式就是把圖片看看成一個(gè)文件，用隊(duì)列的方式讀取

例如：

import tensorflow as tf;   
path = '/home/penglu/Desktop/11.jpg' 
file_queue = tf.train.string_input_producer([path]) #創(chuàng)建輸入隊(duì)列 
image_reader = tf.WholeFileReader() 
_, image = image_reader.read(file_queue) 
image = tf.image.decode_jpeg(image) 
 
with tf.Session() as sess: 
  coord = tf.train.Coordinator() #協(xié)同啟動(dòng)的線程 
  threads = tf.train.start_queue_runners(sess=sess, coord=coord) #啟動(dòng)線程運(yùn)行隊(duì)列 
  print sess.run(image) 
  coord.request_stop() #停止所有的線程 
  coord.join(threads)

輸出：

[[[ 11 63 110]
[ 14 66 113]
[ 17 69 116]
...,

總結(jié)

這篇文章主要用圖解的方式詳細(xì)介紹了TensorFlow讀取數(shù)據(jù)的機(jī)制，最后還給出了對(duì)應(yīng)的實(shí)戰(zhàn)代碼，希望能夠給大家學(xué)習(xí)TensorFlow帶來一些實(shí)質(zhì)性的幫助。也希望大家多多支持腳本之家。

您可能感興趣的文章: