Python基于Tensorflow2.X實現(xiàn)汽車油耗預測
一、開發(fā)環(huán)境
集成開發(fā)工具:jupyter notebook 6.5.2
集成開發(fā)環(huán)境:Python 3.10.6
第三方庫:tensorflow-gpu、numpy、matplotlib.pyplot、pandas
二 、代碼實現(xiàn)
2.1 準備操作
2.1.1 導入所需模塊
tensorflow若非GPU版本也可
import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers, datasets, losses import numpy as np import pandas as pd import matplotlib.pyplot as plt
2.1.2 matplotlib無法正常顯示中文的解決方案(若無此情況可跳過)
博主由于已在matplotlib的配置文件中做了一系列修改,故可以正常顯示中文,若出現(xiàn)無法正常顯示中文的情況有以下兩種解決方案:
1、在導入模塊后加上下列兩行代碼(每次需要正常顯示中文時都需要加):
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用來正常顯示中文標簽 plt.rcParams['axes.unicode_minus'] = False # 用來正常顯示負號
2、在matplotlib的源文件中做了一系列修改(一勞永逸)
運行下列代碼
import matplotlib print(matplotlib.matplotlib_fname())
會輸出配置文件路徑,如:(進入python配置目錄因人而異,只需從\LocalCache之后開始關注)
C:\Users\31600\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\LocalCache\local-packages\Python310\site-packages\matplotlib\mpl-data\matplotlibrc
打開此文件,找到#font.family:和#font.sans-serif:開頭的這兩行,將兩行的注釋#去掉,并在font.sans-serif:后添加自己想加入的中文字體名,如:(博主選用的打開方式為visual studio2017,不同的打開方式顯示可能略有不同另博主打開演示前已完成去注釋操作)
最后保存文件,重新運行python環(huán)境即可,不必在代碼中做出任何修改。
2.2 加載數據集
# 在線下載汽車效能數據集 dataset_path = keras.utils.get_file("auto-mpg.data", "http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data") # 字段有效能(公里數每加侖) 氣缸數 排量 馬力 重量 加速度 型號年份 產地 column_names = ['MPG','Cylinders','Displacement','Horsepower','Weight', 'Acceleration', 'Model Year', 'Origin'] raw_dataset = pd.read_csv(dataset_path, names=column_names, na_values = "?", comment='\t', sep=" ", skipinitialspace=True)
各字段含義
dataset = raw_dataset.copy() # 查看部分數據 dataset.head(8)
2.3 數據處理
2.3.1 數據清洗
原始數據可能含有空字段(缺失值)的數據項
isna()會返回為包含無效值的表單,再追加一個sum()實現(xiàn)計算無效值的和;其次,對無效數據進行處理;dropna()清除無效數據后返回一個新數據表單;
begin = dataset.isna().sum() # 統(tǒng)計空白數據 dataset = dataset.dropna() # 刪除空白數據項 end = dataset.isna().sum() # 再次統(tǒng)計空白數據 print(f'========統(tǒng)計前:========\n{begin}\n========統(tǒng)計后:========\n{end}') # 輸出結果: ========統(tǒng)計前:======== MPG 0 Cylinders 0 Displacement 0 Horsepower 6 Weight 0 Acceleration 0 Model Year 0 Origin 0 dtype: int64 ========統(tǒng)計后:======== MPG 0 Cylinders 0 Displacement 0 Horsepower 0 Weight 0 Acceleration 0 Model Year 0 Origin 0 dtype: int64
2.3.2 數據轉換
由于Origin字段為類型數據,我們將其移除,并轉換為新的3個字段:USA、Europe和Japan。(原數據里分別對應1、2、3)
將需要的產源地分類序號從表中提取出來,使用pop(‘Origin’)提取Origin列的數據,將Origin進行one-hot轉換——即Origin不同的值僅對應一個數據有效;
# 先彈出(刪除并返回)Origin這一列 origin = dataset.pop('Origin') # 根據origin列的數據來寫入新的3個列 dataset['USA'] = (origin == 1) * 1.0 dataset['Europe'] = (origin == 2) * 1.0 dataset['Japan'] = (origin == 3) * 1.0 dataset.tail()
轉換后的數據為:
2.3.3 數據集劃分
利用sample()函數將數據集拆分為0.8的數據集和0.2的測試集,并且移除已經取出的數據下標包含的數據并返回作為測試集
# 切分為訓練集和測試集 train_dataset = dataset.sample(frac=0.8, random_state=0) test_dataset = dataset.drop(train_dataset.index)
describe()用于觀察一系列數據的范圍,統(tǒng)計訓練集的各個字段數值的均值和標準差,大小、波動趨勢等。從獲得的數據中獲得訓練數據的標簽,即移除的MPG列數據
# 查看訓練集的輸入x的統(tǒng)計數據 train_stats = train_dataset.describe() train_stats = train_stats.transpose() # 轉置 train_stats
2.3.4 真實值設定
將MPG字段移除為標簽數據
# 移動MPG油耗效能這一列為真實標簽Y train_labels = train_dataset.pop('MPG') test_labels = test_dataset.pop('MPG')
2.3.5 標準化數據
統(tǒng)計訓練集的各個字段數值的均值和標準差,并完成數據的標準化
# 標準化數據 def norm(x): # 減去每個字段的均值并除以標準差 return (x - train_stats['mean']) / train_stats['std'] normed_train_data = norm(train_dataset) # 標準化訓練集 normed_test_data = norm(test_dataset) # 標準化測試集 print(f'訓練集大小:{normed_train_data.shape} {train_labels.shape}') print(f"測試集大小:{normed_test_data.shape} {test_labels.shape}") normed_train_data # 查看數據處理后的訓練集 # 利用切分的訓練集構建數據集對象 train_db = tf.data.Dataset.from_tensor_slices((normed_train_data.values, train_labels.values)) # 構建Dataset對象 # 為防止數據標準化后出現(xiàn)梯度彌散,切分訓練集,分為幾個batch,加速計算 train_db = train_db.shuffle(100).batch(32) # 隨機打散,批量化 # 輸出結果: 訓練集大小:(314, 9) (314,) 測試集大小:(78, 9) (78,)
2.3.6 查看各字段對MPG的影響
# 創(chuàng)建同y軸的上下三聯(lián)圖,需要plt.subplots() fig, axes = plt.subplots(nrows=1,ncols=3,sharey=True,figsize=(20,6)) fig.suptitle('各個字段對MPG的影響', fontsize=16) #subplot1 axes[0].scatter(train_dataset['Cylinders'].to_numpy(), train_labels.to_numpy(), color='b',s=20) axes[0].set_xlabel('Cylinders', fontsize=13) axes[0].set_ylabel('MPG', fontsize=14) #subplot2 axes[1].scatter(train_dataset['Displacement'].to_numpy(), train_labels.to_numpy(), color='b',s=20) axes[1].set_xlabel('Displacement', fontsize=13) #subplot3 axes[2].scatter(train_dataset['Weight'].to_numpy(), train_labels.to_numpy(), color='b',s=20) axes[2].set_xlabel('Weight', fontsize=13) #展示圖片 plt.show()
2.4 創(chuàng)建網絡
因為該數據集比較小,我們只創(chuàng)建一個3層的全連接網絡來完成MPG值的預測任務。 我們將網絡實現(xiàn)為一個自定義網絡類,只需要在初始化函數中創(chuàng)建各個子網絡層,并在前向計算函數 call 中實現(xiàn)自定義網絡類的計算邏輯即可。自定義網絡類繼承自 keras.Model 基類,這也是自定義網絡類的標準寫法,以方便地利用 keras.Model 基類提供 的 trainable_variables、save_weights 等各種便捷功能。
class Network(keras.Model): # 回歸網絡模型 def __init__(self): super(Network, self).__init__() # 創(chuàng)建3個全連接層 self.fc1 = layers.Dense(64, activation='relu', name='Layer1') self.fc2 = layers.Dense(64, activation='relu', name='Layer2') self.fc3 = layers.Dense(1, name='OutputLayer') def call(self, inputs, training=None, mask=None): # 依次通過3個全連接層 x = self.fc1(inputs) x = self.fc2(x) x = self.fc3(x) return x
2.5 訓練與測試
在訓練網絡時,一般的流程是通過前向計算獲得網絡的輸出值, 再通過損失函數計算網絡誤差,然后通過自動求導工具計算梯度并更新,同時間隔性地測試網絡的性能。
所以,在完成網絡模型的搭建后,需要指定網絡使用的優(yōu)化器對象、 損失函數類型, 評價指標等設定,這一步稱為裝配。這里只指定網絡使用的優(yōu)化器對象,損失函數在梯度求導時在指定
# 創(chuàng)建網絡類實例 model = Network() # 通過build函數完成內部張量的創(chuàng)建(其中4為任意設置的batch量,9為輸入特征長度) model.build(input_shape=(4, 9)) # 打印網絡信息 model.summary() # 創(chuàng)建優(yōu)化器,指定學習率為0.001 optimizers = tf.keras.optimizers.RMSprop(0.001)
# 接下來實現(xiàn)網絡訓練部分。通過 Epoch 和 Step 組成的雙層循環(huán)訓練網絡,共訓練 200 個 Epoch Epoch = np.arange(0, 200) train_MAE = np.zeros(200) test_MAE = np.zeros(200) for epoch in range(200): for step, (x, y) in enumerate(train_db): # 遍歷依次訓練集 # 梯度記錄器 with tf.GradientTape() as tape: out = model(x) # 通過網絡獲得輸出 loss = tf.reduce_mean(losses.MSE(y, out)) mae_loss = tf.reduce_mean(losses.MAE(y, out)) # 計算 MAE # 計算梯度并更新 grads = tape.gradient(loss, model.trainable_variables) Optimizers.apply_gradients(zip(grads, model.trainable_variables)) train_MAE[epoch] = float(mae_loss) out = model(tf.constant(normed_test_data.values)) test_MAE[epoch] = tf.reduce_mean(losses.MAE(test_labels, out))
2.6 誤差結果可視化
對于回歸問題,除了 MSE 均方差可以用來模型的測試性能,還可以用平均絕對誤差(Mean Absolute Error,簡稱 MAE)來衡量模型的性能,程序運算時記錄每個 Epoch 結束時的訓練和測試 MAE 數據,并繪制變化曲線
plt.xlabel('Epoch') plt.ylabel('MAE') plt.plot(Epoch, train_MAE, label="Train") plt.plot(Epoch, test_MAE, label="Test") plt.title('汽車油耗實戰(zhàn)') plt.legend(['Train', 'Test']) # 設置折線名稱 plt.show()
三 、結果分析
可以觀察到,在訓練到約第 25 個 Epoch 時, MAE 的下降變得較緩慢,其中訓練集的 MAE
還在繼續(xù)不斷波動,但是測試集 MAE 幾乎保持不變,因此可以在約第 25 個 epoch 時提前結束訓練,并利用此時的網絡參數來預測新的輸入樣本即可。
以上就是Python基于Tensorflow2.X實現(xiàn)汽車油耗預測的詳細內容,更多關于Python汽車油耗預測的資料請關注腳本之家其它相關文章!
相關文章
Python實現(xiàn)一個服務器監(jiān)聽多個客戶端請求
這篇文章主要為大家詳細介紹了Python如何實現(xiàn)一個服務器監(jiān)聽多個客戶端請求,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-04-04Python實現(xiàn)動態(tài)循環(huán)輸出文字功能
這篇文章主要介紹了Python實現(xiàn)動態(tài)循環(huán)輸出文字功能,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-05-05pyinstaller打包單個exe后無法執(zhí)行錯誤的解決方法
今天小編就為大家分享一篇pyinstaller打包單個exe后無法執(zhí)行錯誤的解決方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06python實現(xiàn)與Oracle數據庫交互操作示例
這篇文章主要為大家介紹了python實現(xiàn)與Oracle數據庫交互操作示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家,多多進步,早日升職加薪2021-10-10