快捷導(dǎo)航

Python人工智能之波士頓房價數(shù)據(jù)分析

更新時間：2021年11月06日 09:40:03 作者：mind_programmonkey

買房應(yīng)該是大多數(shù)都會要面臨的一個選擇，當(dāng)前經(jīng)濟和政策背景下，未來房價會漲還是跌？這是很多人都關(guān)心的一個話題。今天分享的這篇文章，以波士頓的房地產(chǎn)市場為例，根據(jù)低收入人群比例、老師學(xué)生數(shù)量等特征，利用 Python 進行分析，不求買房但求技術(shù)

1.數(shù)據(jù)概覽分析

1.1 數(shù)據(jù)概覽

本次提供：

train.csv,訓(xùn)練集；
test.csv,測試集；
submission.csv 真實房價文件；

訓(xùn)練集404行數(shù)據(jù)，14列，每行數(shù)據(jù)表示房屋以及房屋周圍的詳細(xì)信息，已給出對應(yīng)的自住房平均房價。要求預(yù)測102條測試數(shù)據(jù)的房價。

1.2 數(shù)據(jù)分析

通過學(xué)習(xí)房屋以及房屋周圍的詳細(xì)信息,其中包含城鎮(zhèn)犯罪率，一氧化氮濃度，住宅平均房間數(shù)，到中心區(qū)域的加權(quán)距離以及自住房平均房價等等,訓(xùn)練模型,通過某個地區(qū)的房屋以及房屋周圍的詳細(xì)信息，預(yù)測該地區(qū)的自住房平均房價。

回歸問題，提交測試集每條數(shù)據(jù)對應(yīng)的自住房平均房價。評估指標(biāo)為均方誤差mse。

2. 項目總體思路

2.1 數(shù)據(jù)讀取

數(shù)據(jù)集：波士頓房間訓(xùn)練集.csv (404條數(shù)據(jù))
數(shù)據(jù)集字段如下:
CRIM：城鎮(zhèn)人均犯罪率。
ZN：住宅用地超過 25000 sq.ft. 的比例。
INDUS：城鎮(zhèn)非零售商用土地的比例。
CHAS：查理斯河空變量（如果邊界是河流，則為1；否則為0）。
NOX：一氧化氮濃度。
RM：住宅平均房間數(shù)。
AGE：1940 年之前建成的自用房屋比例。
DIS：到波士頓五個中心區(qū)域的加權(quán)距離。
RAD：輻射性公路的接近指數(shù)。
TAX：每 10000 美元的全值財產(chǎn)稅率。
PTRATIO：城鎮(zhèn)師生比例。
B：1000（Bk-0.63）^ 2，其中 Bk 指代城鎮(zhèn)中黑人的比例。
LSTAT：人口中地位低下者的比例。
MEDV：自住房的平均房價，以千美元計。

在這里插入圖片描述

2.2 模型預(yù)處理

（1）數(shù)據(jù)離群點處理

首先對訓(xùn)練集進行拆分為子訓(xùn)練集與子測試集，利用train_data.sort_values對訓(xùn)練集進行排序，依次刪除每個特征對應(yīng)的離群樣本，利用子訓(xùn)練集與子測試集對模型進行訓(xùn)練與測試并確定該特征下所需刪除樣本的最佳個數(shù)。

在這里插入圖片描述

（2）數(shù)據(jù)歸一化處理

利用sklearn.preprocessing. StandardScaler對數(shù)據(jù)集與標(biāo)簽分別進行標(biāo)準(zhǔn)化處理。

在這里插入圖片描述

2.3. 特征工程

利用隨機森林特征選擇算法剔除不敏感特征。

在這里插入圖片描述

2.4. 模型選擇

使用GradientBoostingRegressor集成回歸模型。

Gradient Boosting 在迭代的時候選擇梯度下降的方向來保證最后的結(jié)果最好。損失函數(shù)用來描述模型的“靠譜”程度，假設(shè)模型沒有過擬合，損失函數(shù)越大，模型的錯誤率越高

如果我們的模型能夠讓損失函數(shù)持續(xù)的下降，則說明我們的模型在不停的改進，而最好的方式就是讓損失函數(shù)在其梯度方向上下降。

在這里插入圖片描述

2.5. 模型評價

采用均方誤差(MSE)評分標(biāo)準(zhǔn),MSE: Mean Squared Error 。均方誤差是指參數(shù)估計值與參數(shù)真值之差平方的期望值;

MSE可以評價數(shù)據(jù)的變化程度，MSE的值越小，說明預(yù)測模型描述實驗數(shù)據(jù)具有更好的精確度。計算公式如下:

在這里插入圖片描述

其在測試集上的MSE值為：

在這里插入圖片描述

2.6. 模型調(diào)參

對n_ n_estimators的參數(shù)進行調(diào)參：

在這里插入圖片描述

3. 項目總結(jié)

通過多次實驗，我們目前得到的最優(yōu)解為8.18左右。在處理小數(shù)據(jù)集出現(xiàn)過擬合時，首先應(yīng)當(dāng)考慮減小模型或增加數(shù)據(jù)集。由于本次實驗是通過大量訓(xùn)練取最優(yōu)的辦法均使用缺省參數(shù)，對超參數(shù)進一步調(diào)優(yōu)也許可更進一步。

在這里插入圖片描述