快捷導(dǎo)航

Tensorflow加載與預(yù)處理數(shù)據(jù)詳解實現(xiàn)方法

更新時間：2022年11月21日 11:20:05 作者：沐兮Krystal

讀取大型數(shù)據(jù)集并對其進行有效預(yù)處理可能對其他深度學(xué)習(xí)庫來說很難實現(xiàn)，但是TensorFlow借助Data API很容易實現(xiàn)：只需創(chuàng)建一個數(shù)據(jù)集對象，并告訴它如何從何處獲取數(shù)據(jù)以及如何對其進行轉(zhuǎn)換

數(shù)據(jù)API

數(shù)據(jù)集方法不會修改數(shù)據(jù)集，而是創(chuàng)建新數(shù)據(jù)集。

可通過調(diào)用 map() 方法將轉(zhuǎn)換應(yīng)用于每個元素：

dataset = dataset.map(lambda x: x * 2)

亂序數(shù)據(jù)

交織來自多個文件的行

list_files() 函數(shù)返回一個亂序的文件路徑的數(shù)據(jù)集。

filepath_dataset = tf.data.Dataset.list_files(train_filepaths, seed=42)

一次讀取5個文件，并交織它們的行。

n_readers = 5
dataset = filepath_dataset.interleave(
	lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
	cycle_length=n_readers)

預(yù)處理數(shù)據(jù)

X_mean, X_std = [...] # 每個特征的均值和標準差
n_inputs = 8 # 對應(yīng)8個特征
def preprocess(line):
	defs = [0.] * n_inputs + [tf.constant([], dtype=tf.float32)] # 包含csv中每一列的默認值的數(shù)組
	fields = tf.io.decode_csv(line, record_defaults=defs) 
	# line 是要解析的行，record_defaults 是一個包含CSV文件每一列的默認值的數(shù)組
	x = tf.stack(fields[:-1])
	y = tf.stack(fields[-1:])
	return (x - X_mean) / X_std, y

我們在除最后一個（目標值）之外的所有張量上調(diào)用 tf.stack() ，從而將這些張量堆疊到一維度組中。然后對目標值執(zhí)行相同的操作。

合并在一起

def csv_reader_dataset(filepaths, repeat=1, n_readers=5,
					   n_read_threads=None, shuffle_buffer_size=10000,
					   n_parse_threads=5, batch_size=32):
	dataset = tf.data.Dataset.list_files(filepaths)
	dataset = filepath_dataset.interleave(
		lambda filepath: tf.data.TextLineDataset(filepath).skip(1),
		cycle_length=n_readers, num_parallel_calls=n_read_threads)
	dataset = dataset.map(preprocess, num_parallel_calls=n_parse_threads)
	dataset = dataset.shuffle(shuffle_buffer_size).repeat(repeat)
	return dataset.batch(batch_size).prefetch(1)

到此這篇關(guān)于Tensorflow加載與預(yù)處理數(shù)據(jù)詳解實現(xiàn)方法的文章就介紹到這了,更多相關(guān)Tensorflow加載與預(yù)處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

Python?常用內(nèi)置模塊超詳細梳理總結(jié)
模塊是一個包含索引你定義的函數(shù)和變量的文件，其擴展名為.py。模塊可以被其他程序引入，以使用該模塊中的函數(shù)等功能。這也是使用python標準庫的方法
2022-03-03
opencv實現(xiàn)回形遍歷像素算法
這篇文章主要為大家詳細介紹了opencv實現(xiàn)回形遍歷像素算法，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-03-03
Python機器學(xué)習(xí)之底層實現(xiàn)KNN
今天給大家?guī)淼氖顷P(guān)于Python機器學(xué)習(xí)的相關(guān)知識,文章圍繞著Python底層實現(xiàn)KNN展開,文中有非常詳細的解釋及代碼示例,需要的朋友可以參考下
2021-06-06
python運行或調(diào)用另一個py文件或參數(shù)方式
這篇文章主要介紹了python運行或調(diào)用另一個py文件或參數(shù)方式，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2022-08-08
python3 中的字符串（單引號、雙引號、三引號）以及字符串與數(shù)字的運算
這篇文章主要介紹了python3 中的字符串（單引號、雙引號、三引號）以及字符串與數(shù)字的運算，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
一小時學(xué)會TensorFlow2之全連接層
這篇文章主要介紹了TensorFlow2之全連接層，本文給大家介紹的非常詳細，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2021-09-09
淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題
今天小編就為大家分享一篇淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
以一段代碼為實例快速入門Python2.7
這篇文章主要以一段代碼為實例、簡單介紹了Python2.7的各種函數(shù)和方法以及語句，來自網(wǎng)絡(luò)上火爆的在線Python教程網(wǎng)站learnxinyminutes.com,需要的朋友可以參考下
2015-03-03
?Java?SE?面向?qū)ο缶幊痰?個常用接口
這篇文章主要f?Java?SE?面向?qū)ο缶幊痰?個常用接口,Comparable、Comparator?比較器、Cloneable，下面文章詳細介紹，需要的小伙伴可以參考一下
2022-01-01
淺談Python 命令行參數(shù)argparse寫入圖片路徑操作
這篇文章主要介紹了淺談Python 命令行參數(shù)argparse寫入圖片路徑操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-07-07