如何從csv文件構(gòu)建Tensorflow的數(shù)據(jù)集
從csv文件構(gòu)建Tensorflow的數(shù)據(jù)集
當(dāng)我們有一系列CSV文件,如何構(gòu)建Tensorflow的數(shù)據(jù)集呢?
基本步驟
- 獲得一組CSV文件的路徑
- 將這組文件名,轉(zhuǎn)成文件名對應(yīng)的dataset => file_dataset
- 根據(jù)file_dataset中的每個文件名,讀取文件內(nèi)容 生成一個內(nèi)容的dataset => content_dataset
- 這樣的多個content_dataset, 拼接起來,形成一整個dataset
- 因?yàn)樽x出來的每條記錄都是string類型, 所以還需要對每條記錄做decode
存在一個這樣的變量train_filenames
pprint.pprint(train_filenames) # ['generate_csv\\train_00.csv', # 'generate_csv\\train_01.csv', # 'generate_csv\\train_02.csv', # 'generate_csv\\train_03.csv', # 'generate_csv\\train_04.csv', # 'generate_csv\\train_05.csv', # 'generate_csv\\train_06.csv', # 'generate_csv\\train_07.csv', # 'generate_csv\\train_08.csv', # 'generate_csv\\train_09.csv', # 'generate_csv\\train_10.csv', # 'generate_csv\\train_11.csv', # 'generate_csv\\train_12.csv', # 'generate_csv\\train_13.csv', # 'generate_csv\\train_14.csv', # 'generate_csv\\train_15.csv', # 'generate_csv\\train_16.csv', # 'generate_csv\\train_17.csv', # 'generate_csv\\train_18.csv', # 'generate_csv\\train_19.csv']
接著,我們用提前定義好的API構(gòu)建文件名數(shù)據(jù)集file_dataset
filename_dataset = tf.data.Dataset.list_files(train_filenames) for filename in filename_dataset: print(filename) #tf.Tensor(b'generate_csv\\train_09.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_19.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_03.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_01.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_14.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_17.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_15.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_06.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_05.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_07.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_11.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_02.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_12.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_13.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_10.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_16.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_18.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_00.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_04.csv', shape=(), dtype=string) #tf.Tensor(b'generate_csv\\train_08.csv', shape=(), dtype=string)
第三步, 根據(jù)每個文件名,去讀取文件里面的內(nèi)容
dataset = filename_dataset.interleave( lambda filename: tf.data.TextLineDataset(filename).skip(1), cycle_length=5 ) for line in dataset.take(3): print(line) #tf.Tensor(b'0.46908349737250216,1.8718193706428006,0.13936365871212536,-0.011055733363841472,-0.6349261778219746,-0.036732316700563934,1.0259470089944995,-1.319095600336748,2.171', shape=(), dtype=string) #tf.Tensor(b'-1.102093775650278,1.313248890578542,-0.7212003024178728,-0.14707856286537277,0.34720121604358517,0.0965085401826684,-0.74698820254838,0.6810563907247876,1.428', shape=(), dtype=string) #tf.Tensor(b'-0.8901003715328659,0.9142699762469286,-0.1851678950250224,-0.12947457252940406,0.5958187430364827,-0.021255215877779534,0.7914317693724252,-0.45618713536506217,0.75', shape=(), dtype=string)
interleave的作用可以類比map, 對每個元素應(yīng)用操作,然后還能把結(jié)果合起來。
因此,有了interleave, 我們就把第三四步,一起完成了
之所以skip(1),是因?yàn)檫@個csv第一行是header.
cycle_length是并行化構(gòu)建數(shù)據(jù)集的線程數(shù)
好,第五步,解析每條記錄
def parse_csv_line(line, n_fields=9): defaults = [tf.constant(np.nan)] * n_fields parsed_fields = tf.io.decode_csv(line, record_defaults=defaults) x = tf.stack(parsed_fields[:-1]) y = tf.stack(parsed_fields[-1:]) return x, y parse_csv_line('1.2286258796252256,-1.0806245954111382,0.4444161407754224,-0.0352172575329119,0.9740347681426992,-0.003516079473801425,-0.8126524696425611,0.865609068204283,2.803', 9) #(<tf.Tensor: shape=(8,), dtype=float32, numpy= array([ 1.2286259 , -1.0806246 , 0.44441614, -0.03521726, 0.9740348 ,-0.00351608, -0.81265247, 0.86560905], dtype=float32)>,<tf.Tensor: shape=(1,), dtype=float32, numpy=array([2.803], dtype=float32)>)
最后,將每條記錄都應(yīng)用這個方法,就完成了構(gòu)建。
dataset = dataset.map(parse_csv_line)
完整代碼
def csv_2_dataset(filenames, n_readers_thread = 5, batch_size = 32, n_parse_thread = 5, shuffle_buffer_size = 10000): dataset = tf.data.Dataset.list_files(filenames) dataset = dataset.repeat() dataset = dataset.interleave( lambda filename: tf.data.TextLineDataset(filename).skip(1), cycle_length=n_readers_thread ) dataset.shuffle(shuffle_buffer_size) dataset = dataset.map(parse_csv_line, num_parallel_calls = n_parse_thread) dataset = dataset.batch(batch_size) return dataset
如何使用
train_dataset = csv_2_dataset(train_filenames, batch_size=32) valid_dataset = csv_2_dataset(valid_filenames, batch_size=32) model = ... model.fit(train_set, validation_data=valid_set, steps_per_epoch = 11610 // 32, validation_steps = 3870 // 32, epochs=100, callbacks=callbacks)
這里的11610 和 3870是什么?
這是train_dataset 和 valid_dataset中數(shù)據(jù)的數(shù)量,需要在訓(xùn)練中手動指定每個batch中參與訓(xùn)練的數(shù)據(jù)的多少。
model.evaluate(test_set, steps=5160//32)
同理,測試的時候,使用這樣的數(shù)據(jù)集,也需要手動指定。
5160是測試數(shù)據(jù)集的總量。
以上就是如何從csv文件構(gòu)建Tensorflow的數(shù)據(jù)集的詳細(xì)內(nèi)容,更多關(guān)于csv文件構(gòu)建Tensorflow的數(shù)據(jù)集的資料請關(guān)注腳本之家其它相關(guān)文章!
- 基于Tensorflow讀取MNIST數(shù)據(jù)集時網(wǎng)絡(luò)超時的解決方式
- tensorflow實(shí)現(xiàn)殘差網(wǎng)絡(luò)方式(mnist數(shù)據(jù)集)
- 使用tensorflow實(shí)現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式
- TensorFlow2.X使用圖片制作簡單的數(shù)據(jù)集訓(xùn)練模型
- C#使用TensorFlow.NET訓(xùn)練自己的數(shù)據(jù)集的方法
- TensorFlow車牌識別完整版代碼(含車牌數(shù)據(jù)集)
- TensorFlow基于MNIST數(shù)據(jù)集實(shí)現(xiàn)車牌識別(初步演示版)
- 詳解如何從TensorFlow的mnist數(shù)據(jù)集導(dǎo)出手寫體數(shù)字圖片
- tensorflow實(shí)現(xiàn)加載mnist數(shù)據(jù)集
- Tensorflow 訓(xùn)練自己的數(shù)據(jù)集將數(shù)據(jù)直接導(dǎo)入到內(nèi)存
- 詳解tensorflow訓(xùn)練自己的數(shù)據(jù)集實(shí)現(xiàn)CNN圖像分類
- Tensorflow之構(gòu)建自己的圖片數(shù)據(jù)集TFrecords的方法
相關(guān)文章
python中l(wèi)ist列表復(fù)制的幾種方法(賦值、切片、copy(),deepcopy())
本文主要介紹了python中l(wèi)ist列表復(fù)制的幾種方法(賦值、切片、copy(),deepcopy()),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08Python3+SQLAlchemy+Sqlite3實(shí)現(xiàn)ORM教程
這篇文章主要介紹了Python3+SQLAlchemy+Sqlite3實(shí)現(xiàn)ORM教程,需要的朋友可以參考下2021-02-02Python+Selenium鍵盤鼠標(biāo)模擬事件操作詳解
這篇文章主要帶大家一起學(xué)習(xí)一下Selenium的元素的基本操作與鼠標(biāo)鍵盤模擬事件的操作,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-06-06python中將兩組數(shù)據(jù)放在一起按照某一固定順序shuffle的實(shí)例
今天小編就為大家分享一篇python中將兩組數(shù)據(jù)放在一起按照某一固定順序shuffle的實(shí)例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07python類參數(shù)定義及數(shù)據(jù)擴(kuò)展方式unsqueeze/expand
本文主要介紹了python類參數(shù)定義及數(shù)據(jù)擴(kuò)展方式unsqueeze/expand,文章通過圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-08-08