python使用TensorFlow讀取和批處理CSV文件
一、實驗目的
本次實驗旨在使用 TensorFlow 庫讀取 CSV 文件,并將其數(shù)據(jù)以批次的形式進行處理和展示。通過該實驗,我們希望掌握 TensorFlow 中 tf.data.TextLineDataset 的使用方法,以及如何解析 CSV 數(shù)據(jù)并進行批量處理。
二、實驗環(huán)境
- 編程語言:Python
- 主要庫:TensorFlow、os
- 操作系統(tǒng):Windows
- 實驗數(shù)據(jù):位于 C:\Users\30597\Desktop\sye\people.csv 的 CSV 文件,包含 Name、Age 和 Occupation 三列數(shù)據(jù)。
三、實驗步驟
1. 導入必要的庫
import tensorflow as tf import os
導入 tensorflow 庫用于數(shù)據(jù)處理,os 庫用于文件路徑驗證。
2. 定義 CSV 讀取函數(shù)
def csv_reader(file_path, batch_size=2):
# 1. 創(chuàng)建Dataset并跳過表頭
dataset = tf.data.TextLineDataset(file_path).skip(1)
# 2. 定義CSV解析函數(shù)
def parse_line(line):
record_defaults = [
tf.constant(["Unknown"], tf.string), # Name列
tf.constant([0], tf.int32), # Age列
tf.constant(["Unknown"], tf.string) # Occupation列
]
fields = tf.io.decode_csv(line, record_defaults)
return fields
# 3. 應用解析和批處理
dataset = dataset.map(parse_line)
dataset = dataset.batch(batch_size, drop_remainder=False)
return dataset
- 創(chuàng)建 Dataset 并跳過表頭:使用 tf.data.TextLineDataset 讀取 CSV 文件的每一行,并通過 skip(1) 跳過表頭。
- 定義 CSV 解析函數(shù):parse_line 函數(shù)使用 tf.io.decode_csv 解析每一行數(shù)據(jù),同時指定每列的默認值。
- 應用解析和批處理:使用 map 方法將解析函數(shù)應用到每個數(shù)據(jù)行,再使用 batch 方法將數(shù)據(jù)分成指定大小的批次。
3. 主程序邏輯
if __name__ == "__main__":
# 指定具體文件路徑
csv_path = r"C:\Users\30597\Desktop\sye\people.csv"
# 驗證文件存在性
if not os.path.exists(csv_path):
raise FileNotFoundError(f"CSV文件未找到:{csv_path}")
# 創(chuàng)建數(shù)據(jù)集
dataset = csv_reader(csv_path, batch_size=2)
# 迭代數(shù)據(jù)批次
for batch_num, (names, ages, occupations) in enumerate(dataset):
print(f"\n批次 {batch_num + 1}:")
# 將字節(jié)字符串解碼為普通字符串
names_str = [name.decode('utf-8') for name in names.numpy()]
occupations_str = [occ.decode('utf-8') for occ in occupations.numpy()]
print("姓名:", names_str)
print("年齡:", ages.numpy().tolist())
print("職業(yè):", occupations_str)
- 指定文件路徑并驗證存在性:使用 os.path.exists 函數(shù)檢查 CSV 文件是否存在,若不存在則拋出 FileNotFoundError 異常。
- 創(chuàng)建數(shù)據(jù)集:調用 csv_reader 函數(shù)創(chuàng)建數(shù)據(jù)集。
- 迭代數(shù)據(jù)批次:遍歷數(shù)據(jù)集的每個批次,將字節(jié)字符串解碼為普通字符串,并打印每個批次的姓名、年齡和職業(yè)信息。
四、實驗結果
實驗成功讀取了指定的 CSV 文件,并將數(shù)據(jù)按批次處理和展示。每個批次包含兩條記錄,分別顯示了姓名、年齡和職業(yè)信息。若 CSV 文件中存在缺失值,將使用默認值進行填充。
五、實驗總結與反思
優(yōu)點
- 使用 TensorFlow 的 tf.data 模塊:該模塊提供了高效的數(shù)據(jù)處理和迭代功能,能夠方便地處理大規(guī)模數(shù)據(jù)集。
- 數(shù)據(jù)解析和批處理:通過定義解析函數(shù)和使用 map、batch 方法,實現(xiàn)了數(shù)據(jù)的自動解析和批量處理,提高了代碼的可讀性和可維護性。
- 文件路徑驗證:在讀取文件前進行路徑驗證,避免了因文件不存在而導致的運行時錯誤。
不足與改進方向
- 錯誤處理:當前代碼僅處理了文件不存在的情況,對于 CSV 文件格式錯誤、數(shù)據(jù)類型不匹配等異常情況未進行處理??梢蕴砑痈嗟漠惓L幚磉壿嫞岣叽a的健壯性。
- 代碼可擴展性:代碼中硬編碼了 CSV 文件的列數(shù)和默認值,若 CSV 文件的結構發(fā)生變化,需要手動修改代碼??梢钥紤]將列信息和默認值作為參數(shù)傳遞給 csv_reader 函數(shù),提高代碼的可擴展性。
- 性能優(yōu)化:對于大規(guī)模數(shù)據(jù)集,當前的批處理方式可能會導致內存占用過高??梢钥紤]使用 prefetch 方法進行數(shù)據(jù)預取,提高數(shù)據(jù)處理的性能。
總體而言,本實驗通過使用 TensorFlow 成功實現(xiàn)了 CSV 文件的讀取和批處理,為后續(xù)的數(shù)據(jù)處理和分析奠定了基礎。
以上就是python使用TensorFlow讀取和批處理CSV文件的詳細內容,更多關于python TensorFlow讀取CSV的資料請關注腳本之家其它相關文章!
相關文章
pymongo如何通過oplog獲取數(shù)據(jù)(mongodb)
使用MongoDB的oplog(操作日志)進行數(shù)據(jù)同步是高級的用法,主要用于復制和故障恢復,這篇文章主要介紹了pymongo通過oplog獲取數(shù)據(jù)(mongodb),需要的朋友可以參考下2023-09-09
Python自定義函數(shù)計算給定日期是該年第幾天的方法示例
這篇文章主要介紹了Python自定義函數(shù)計算給定日期是該年第幾天的方法,結合具體實例形式分析了Python日期時間計算相關操作技巧,需要的朋友可以參考下2019-05-05
pycharm不在cmd中運行卻在python控制臺運行問題解決
這篇文章主要介紹了pycharm不在cmd中運行卻在python控制臺運行問題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-08-08
如何利用Python解析超大的json數(shù)據(jù)(GB級別)
果不想從頭開始創(chuàng)建數(shù)據(jù)格式來存儲數(shù)據(jù),JSON是一個不錯的選擇,下面這篇文章主要給大家介紹了關于如何利用Python解析超大的json數(shù)據(jù)(GB級別)的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下2022-07-07
Python關鍵字及可變參數(shù)*args,**kw原理解析
這篇文章主要介紹了Python關鍵字及可變參數(shù)*args,**kw原理解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-04-04
基于opencv和pillow實現(xiàn)人臉識別系統(tǒng)(附demo)
人臉識別就是一個程序能識別給定圖像或視頻中的人臉,本文主要介紹了opencv和pillow實現(xiàn)人臉識別系統(tǒng),本文不涉及分類器、訓練識別器等算法原理,感興趣的可以了解一下2021-11-11

