欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

tensorflow將圖片保存為tfrecord和tfrecord的讀取方式

 更新時(shí)間:2020年02月17日 10:03:34   作者:修煉之路  
今天小編就為大家分享一篇tensorflow將圖片保存為tfrecord和tfrecord的讀取方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

tensorflow官方提供了3種方法來讀取數(shù)據(jù):

預(yù)加載數(shù)據(jù)(preloaded data):在TensorFlow圖中定義常量或變量來保存所有的數(shù)據(jù),適用于數(shù)據(jù)量不太大的情況。填充數(shù)據(jù)(feeding):通過Python產(chǎn)生數(shù)據(jù),然后再把數(shù)據(jù)填充到后端。

從文件讀取數(shù)據(jù)(reading from file):從文件中直接讀取,然后通過隊(duì)列管理器從文件中讀取數(shù)據(jù)。

本文主要介紹第三種方法,通過tfrecord文件來保存和讀取數(shù)據(jù),對(duì)于前兩種讀取數(shù)據(jù)的方式也會(huì)進(jìn)行一個(gè)簡(jiǎn)單的介紹。

項(xiàng)目下載github地址:https://github.com/steelOneself/tensorflow_learn/tree/master/tf_records_writer_read

一、預(yù)加載數(shù)據(jù)

  a = tf.constant([1,2,3])
  b = tf.constant([4,5,6])
  c = tf.add(a,b)
  with tf.Session() as sess:
    print(sess.run(c))#[5 7 9]

這種方式加載數(shù)據(jù)比較簡(jiǎn)單,它是直接將數(shù)據(jù)嵌入在數(shù)據(jù)流圖中,當(dāng)訓(xùn)練數(shù)據(jù)較大時(shí),比較消耗內(nèi)存。

二、填充數(shù)據(jù)

通過先定義placeholder然后再通過feed_dict來喂養(yǎng)數(shù)據(jù),這種方式在TensorFlow中使用的也是比較多的,但是也存在數(shù)據(jù)量大時(shí)比較消耗內(nèi)存的缺點(diǎn),下面介紹一種更高效的數(shù)據(jù)讀取方式,通過tfrecord文件來讀取數(shù)據(jù)。

  x = tf.placeholder(tf.int16)
  y = tf.placeholder(tf.int16)
  z = tf.add(x,y)
  with tf.Session() as sess:
    print(sess.run(z,feed_dict={x:[1,2,3],y:[4,5,6]}))
    #[5 7 9]

三、從文件讀取數(shù)據(jù)

通過slim來實(shí)現(xiàn)將圖片保存為tfrecord文件和tfrecord文件的讀取,slim是基于TensorFlow的一個(gè)更高級(jí)別的封裝模型,通過slim來編程可以實(shí)現(xiàn)更高效率和更簡(jiǎn)潔的代碼。

在本次實(shí)驗(yàn)中使用的數(shù)據(jù)集是kaggle的dog vs cat,數(shù)據(jù)集下載地址:https://www.kaggle.com/c/dogs-vs-cats/data

1、tfrecord文件的保存

a、參數(shù)設(shè)置

dataset_dir_path:訓(xùn)練集圖片存放的上級(jí)目錄(train下還有一個(gè)train目錄用來存放圖片),在dog vs cat數(shù)據(jù)集中,dog和cat類的區(qū)別是依靠圖片的名稱,如果你的數(shù)據(jù)集通過文件夾的名稱來劃分圖片類標(biāo)的,可能需要對(duì)代碼進(jìn)行部分修改。

label_name_to_num:字符串類標(biāo)與數(shù)字類標(biāo)的對(duì)應(yīng)關(guān)系,在將圖片保存為tfrecord文件的時(shí)候,需要將字符串轉(zhuǎn)為整數(shù)類標(biāo)0和1,方便后的訓(xùn)練。

label_num_to_name:數(shù)字類標(biāo)與字符串類標(biāo)的對(duì)應(yīng)關(guān)系。

val_size:驗(yàn)證集在訓(xùn)練集中所占的比例,訓(xùn)練集一共有25000張圖片,用20000張來訓(xùn)練,5000張來進(jìn)行驗(yàn)證。

batch_size:在讀取tfrecord文件的時(shí)候,每次讀取圖片的數(shù)量。

#數(shù)據(jù)所在的目錄路徑
dataset_dir_path = "D:/dataset/kaggle/cat_or_dog/train"
#類標(biāo)名稱和數(shù)字的對(duì)應(yīng)關(guān)系
label_name_to_num = {"cat":0,"dog":1}
label_num_to_name = {value:key for key,value in label_name_to_num.items()}
#設(shè)置驗(yàn)證集占整個(gè)數(shù)據(jù)集的比例
val_size = 0.2
batch_size = 1

b、獲取訓(xùn)練集所有的圖片路徑

獲取訓(xùn)練目錄下所有的dog和cat的圖片路徑,將它們分開保存,便于后面訓(xùn)練集和驗(yàn)證集數(shù)據(jù)的劃分,保證每類圖片在所占的比例相同。

 #獲取文件所在路徑
 dataset_dir = os.path.join(dataset_dir,split_name)
 #遍歷目錄下的所有圖片
 for filename in os.listdir(dataset_dir):
   #獲取文件的路徑
   file_path = os.path.join(dataset_dir,filename)
   if file_path.endswith("jpg") and os.path.exists(file_path):
     #獲取類別的名稱
     label_name = filename.split(".")[0]
     if label_name == "cat":
       cat_img_paths.append(file_path)
     elif label_name == "dog":
       dog_img_paths.append(file_path)
 return cat_img_paths,dog_img_paths

c、設(shè)置需要保存的圖片信息

對(duì)于訓(xùn)練集的圖片主要保存圖片的字節(jié)數(shù)據(jù)、圖片的格式、圖片的標(biāo)簽、圖片的高和寬,測(cè)試集保存為tfrecord文件的時(shí)候需要保存圖片的名稱,因?yàn)樵谔峤粩?shù)據(jù)的時(shí)候需要用到圖片的名稱信息。在保存圖片信息的時(shí)候,需要先將這些信息轉(zhuǎn)換為byte數(shù)據(jù)才能寫入到tfrecord文件中。

def int64_feature(values):
 if not isinstance(values, (tuple, list)):
  values = [values]
 return tf.train.Feature(int64_list=tf.train.Int64List(value=values))
 
def bytes_feature(values):
 return tf.train.Feature(bytes_list=tf.train.BytesList(value=[values]))
 
 
#將圖片信息轉(zhuǎn)換為tfrecords可以保存的序列化信息
def image_to_tfexample(split_name,image_data, image_format, height, width, img_info):
  '''
  :param split_name: train或val或test
  :param image_data: 圖片的二進(jìn)制數(shù)據(jù)
  :param image_format: 圖片的格式
  :param height: 圖片的高
  :param width: 圖片的寬
  :param img_info: 圖片的標(biāo)簽或圖片的名稱,當(dāng)split_name為test時(shí),img_info為圖片的名稱否則為圖片標(biāo)簽
  :return:
  '''
  if split_name == "test":
    return tf.train.Example(features=tf.train.Features(feature={
       'image/encoded': bytes_feature(image_data),
       'image/format': bytes_feature(image_format),
       'image/img_name': bytes_feature(img_info),
       'image/height': int64_feature(height),
       'image/width': int64_feature(width),
     }))
  else:
     return tf.train.Example(features=tf.train.Features(feature={
       'image/encoded': bytes_feature(image_data),
       'image/format': bytes_feature(image_format),
       'image/label': int64_feature(img_info),
       'image/height': int64_feature(height),
       'image/width': int64_feature(width),
     }))

d、保存tfrecord文件

主要是通過TFRecordWriter來保存tfrecord文件,在將圖片信息保存為tfrecord文件的時(shí)候,需要先將圖片信息序列化為字符串才能進(jìn)行寫入。ImageReader類可以將圖片字節(jié)數(shù)據(jù)解碼為指定格式的圖片,獲取圖片的寬和高信息。

_get_dataset_filename函數(shù)是通過數(shù)據(jù)集的名稱和split_name的名稱來組合獲取tfrecord文件的名稱,tfrecord名稱如下:

def _convert_tfrecord_dataset(split_name, filenames, label_name_to_id, 
dataset_dir, tfrecord_filename, _NUM_SHARDS):
  '''
  :param split_name:train或val或test
  :param filenames:圖片的路徑列表
  :param label_name_to_id:標(biāo)簽名與數(shù)字標(biāo)簽的對(duì)應(yīng)關(guān)系
  :param dataset_dir:數(shù)據(jù)存放的目錄
  :param tfrecord_filename:文件保存的前綴名
  :param _NUM_SHARDS:將整個(gè)數(shù)據(jù)集分為幾個(gè)文件
  :return:
  '''
  assert split_name in ['train', 'val','test']
  #計(jì)算平均每一個(gè)tfrecords文件保存多少?gòu)垐D片
  num_per_shard = int(math.ceil(len(filenames) / float(_NUM_SHARDS)))
  with tf.Graph().as_default():
    image_reader = ImageReader()
    with tf.Session('') as sess:
      for shard_id in range(_NUM_SHARDS):
        #獲取tfrecord文件的名稱
        output_filename = _get_dataset_filename(
            dataset_dir, split_name, shard_id,
 tfrecord_filename = tfrecord_filename, _NUM_SHARDS = _NUM_SHARDS)
        #寫tfrecords文件
        with tf.python_io.TFRecordWriter(output_filename) as tfrecord_writer:
          start_ndx = shard_id * num_per_shard
          end_ndx = min((shard_id+1) * num_per_shard, len(filenames))
          for i in range(start_ndx, end_ndx):
            #更新控制臺(tái)中已經(jīng)完成的圖片數(shù)量
            sys.stdout.write('\r>> Converting image %d/%d shard %d' % (
              i+1, len(filenames), shard_id))
            sys.stdout.flush()
            #讀取圖片,將圖片數(shù)據(jù)讀取為bytes
            image_data = tf.gfile.FastGFile(filenames[i], 'rb').read()
            #獲取圖片的高和寬
            height, width = image_reader.read_image_dims(sess, image_data)
            #獲取路徑中的圖片名稱
            img_name = os.path.basename(filenames[i])
            if split_name == "test":
              #需要將圖片名稱轉(zhuǎn)換為二進(jìn)制
              example = image_to_tfexample(
                split_name,image_data, b'jpg', height, width, img_name.encode())
              tfrecord_writer.write(example.SerializeToString())
            else:
              #獲取圖片的類別
              class_name = img_name.split(".")[0]
              label_id = label_name_to_id[class_name]
              example = image_to_tfexample(
                split_name,image_data, b'jpg', height, width, label_id)
              tfrecord_writer.write(example.SerializeToString())
        sys.stdout.write('\n')
        sys.stdout.flush()

e、將數(shù)據(jù)集分為驗(yàn)證集和訓(xùn)練集保存為tfrecord文件

先獲取數(shù)據(jù)集中所有圖片的路徑和圖片的標(biāo)簽信息,將不同類別的圖片分為訓(xùn)練集和驗(yàn)證集,并保證訓(xùn)練集和驗(yàn)證集中不同類別的圖片數(shù)量保持相同,在保存為tfrecord文件之前,打亂所有圖片的路徑。將訓(xùn)練集分為了2個(gè)tfrecord文件,驗(yàn)證集保存為1個(gè)tfrecord文件。

#生成tfrecord文件
def generate_tfreocrd():
  #獲取目錄下所有的貓和狗圖片的路徑
  cat_img_paths,dog_img_paths = _get_dateset_imgPaths(dataset_dir_path,"train")
  #打亂路徑列表的順序
  np.random.shuffle(cat_img_paths)
  np.random.shuffle(dog_img_paths)
  #計(jì)算不同類別驗(yàn)證集所占的圖片數(shù)量
  cat_val_num = int(len(cat_img_paths) * val_size)
  dog_val_num = int(len(dog_img_paths) * val_size)
  #將所有的圖片路徑分為訓(xùn)練集和驗(yàn)證集
  train_img_paths = cat_img_paths[cat_val_num:]
  val_img_paths = cat_img_paths[:cat_val_num]
  train_img_paths.extend(dog_img_paths[dog_val_num:])
  val_img_paths.extend(dog_img_paths[:dog_val_num])
  #打亂訓(xùn)練集和驗(yàn)證集的順序
  np.random.shuffle(train_img_paths)
  np.random.shuffle(val_img_paths)
  #將訓(xùn)練集保存為tfrecord文件
  _convert_tfrecord_dataset("train",train_img_paths,label_name_to_num,dataset_dir_path,"catVSdog",2)
  #將驗(yàn)證集保存為tfrecord文件
  _convert_tfrecord_dataset("val",val_img_paths,label_name_to_num,dataset_dir_path,"catVSdog",1)

通過控制臺(tái)你能夠看到tfrecord文件的保存進(jìn)度

2、從tfrecord文件中讀取數(shù)據(jù)

a、讀取tfrecord文件,將數(shù)據(jù)轉(zhuǎn)換為dataset

通過TFRecordReader來讀取tfrecord文件,在讀取tfrecord文件時(shí)需要通過tf.FixedLenFeature來反序列化存儲(chǔ)的圖片信息,這里我們只讀取圖片數(shù)據(jù)和圖片的標(biāo)簽,再通過slim模塊將圖片數(shù)據(jù)和標(biāo)簽信息存儲(chǔ)為一個(gè)dataset。

 #創(chuàng)建一個(gè)tfrecord讀文件對(duì)象
  reader = tf.TFRecordReader
    keys_to_feature = {
      "image/encoded":tf.FixedLenFeature((),tf.string,default_value=""),
      "image/format":tf.FixedLenFeature((),tf.string,default_value="jpg"),
     "image/label":tf.FixedLenFeature([],tf.int64,default_value=tf.zeros([],tf.int64))
    }
    items_to_handles = {
      "image":slim.tfexample_decoder.Image(),
      "label":slim.tfexample_decoder.Tensor("image/label")
    }
    items_to_descriptions = {
      "image":"a 3-channel RGB image",
      "img_name":"a image label"
    }
    #創(chuàng)建一個(gè)tfrecoder解析對(duì)象
    decoder = slim.tfexample_decoder.TFExampleDecoder(keys_to_feature,items_to_handles)
    #讀取所有的tfrecord文件,創(chuàng)建數(shù)據(jù)集
    dataset = slim.dataset.Dataset(
      data_sources = tfrecord_paths,
      decoder = decoder,
      reader = reader,
      num_readers = 4,
      num_samples = num_imgs,
      num_classes = num_classes,
      labels_to_name = labels_to_name,
      items_to_descriptions = items_to_descriptions
    )

b、獲取batch數(shù)據(jù)

preprocessing_image對(duì)圖片進(jìn)行預(yù)處理,對(duì)圖片進(jìn)行數(shù)據(jù)增強(qiáng),輸出后的圖片尺寸由height和width參數(shù)決定,固定圖片的尺寸方便CNN的模型訓(xùn)練。

def load_batch(split_name,dataset,batch_size,height,width):
  data_provider = slim.dataset_data_provider.DatasetDataProvider(
    dataset,
    common_queue_capacity = 24 + 3 * batch_size,
    common_queue_min = 24
  )
    raw_image,img_label = data_provider.get(["image","label"])
    #Perform the correct preprocessing for this image depending if it is training or evaluating
    image = preprocess_image(raw_image, height, width,True)
    #As for the raw images, we just do a simple reshape to batch it up
    raw_image = tf.expand_dims(raw_image, 0)
    raw_image = tf.image.resize_nearest_neighbor(raw_image, [height, width])
    raw_image = tf.squeeze(raw_image)
    #獲取一個(gè)batch數(shù)據(jù)
    images,raw_image,labels = tf.train.batch(
      [image,raw_image,img_label],
      batch_size=batch_size,
      num_threads=4,
      capacity=4*batch_size,
      allow_smaller_final_batch=True
    )
    return images,raw_image,labels

c、讀取tfrecord文件

#讀取tfrecord文件
def read_tfrecord():
  #從tfreocrd文件中讀取數(shù)據(jù)
  train_dataset = get_dataset_by_tfrecords("train",dataset_dir_path,"catVSdog",2,label_num_to_name)
  images,raw_images,labels = load_batch("train",train_dataset,batch_size,227,227)
  with tf.Session() as sess:
    threads = tf.train.start_queue_runners(sess)
    for i in range(6):
      train_img,train_label = sess.run([raw_images,labels])
      plt.subplot(2,3,i+1)
      plt.imshow(np.array(train_img[0]))
      plt.title("image label:%s"%str(label_num_to_name[train_label[0]]))
    plt.show()

讀取訓(xùn)練集的tfrecord文件,只從tfrecord文件中獲取了圖片數(shù)據(jù)和圖片的標(biāo)簽,images表示的是預(yù)處理后的圖片,raw_images表示的是沒有經(jīng)過預(yù)處理的圖片。

以上這篇tensorflow將圖片保存為tfrecord和tfrecord的讀取方式就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • python動(dòng)態(tài)網(wǎng)頁批量爬取

    python動(dòng)態(tài)網(wǎng)頁批量爬取

    這篇文章主要介紹了python動(dòng)態(tài)網(wǎng)頁批量爬取的方法,主要針對(duì)四六級(jí)成績(jī)批量爬取,感興趣的小伙伴們可以參考一下
    2016-02-02
  • 利用Python實(shí)現(xiàn)一個(gè)下班倒計(jì)時(shí)程序

    利用Python實(shí)現(xiàn)一個(gè)下班倒計(jì)時(shí)程序

    身為打工人,一定是想著下班的那一刻吧,這篇文章主要來和大家介紹一下如何利用Python實(shí)現(xiàn)一個(gè)下班倒計(jì)時(shí)程序,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
    2023-12-12
  • python學(xué)習(xí)之panda數(shù)據(jù)分析核心支持庫

    python學(xué)習(xí)之panda數(shù)據(jù)分析核心支持庫

    這篇文章主要給大家介紹了關(guān)于python學(xué)習(xí)之panda數(shù)據(jù)分析核心支持庫的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-05-05
  • 關(guān)于Python中函數(shù)的幾種形參

    關(guān)于Python中函數(shù)的幾種形參

    這篇文章主要介紹了關(guān)于Python中函數(shù)的幾種形參,python中函數(shù)是非常重要的一個(gè)知識(shí)點(diǎn),想要把函數(shù)學(xué)習(xí)好,就必須要把函數(shù)的參數(shù)學(xué)習(xí)好,這樣才能夠進(jìn)行很好的傳遞參數(shù),發(fā)揮出應(yīng)有的作用,需要的朋友可以參考下
    2023-08-08
  • python基礎(chǔ)教程之python消息摘要算法使用示例

    python基礎(chǔ)教程之python消息摘要算法使用示例

    這篇文章主要介紹了python中的消息摘要算法使用示例,需要的朋友可以參考下
    2014-02-02
  • python使用openpyxl操作excel的方法步驟

    python使用openpyxl操作excel的方法步驟

    這篇文章主要介紹了python使用openpyxl操作excel的方法步驟,詳細(xì)的介紹了openpyxl的常用屬性以及操作excel的方法,感興趣的可以了解一下
    2020-05-05
  • Python使用pyexecjs代碼案例解析

    Python使用pyexecjs代碼案例解析

    這篇文章主要介紹了Python使用pyexecjs代碼實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-07-07
  • Python調(diào)用C語言開發(fā)的共享庫方法實(shí)例

    Python調(diào)用C語言開發(fā)的共享庫方法實(shí)例

    這篇文章主要介紹了Python調(diào)用C語言開發(fā)的共享庫方法實(shí)例,本文同時(shí)給出了C語言和Python調(diào)用簡(jiǎn)單實(shí)例,需要的朋友可以參考下
    2015-03-03
  • python 自定義異常和異常捕捉的方法

    python 自定義異常和異常捕捉的方法

    今天小編就為大家分享一篇python 自定義異常和異常捕捉的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • Python遍歷numpy數(shù)組的實(shí)例

    Python遍歷numpy數(shù)組的實(shí)例

    下面小編就為大家分享一篇Python遍歷numpy數(shù)組的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04

最新評(píng)論