腳本之家服務器常用軟件

快捷導航

python進行數(shù)據預處理的4個重要步驟

更新時間：2023年06月21日 11:08:32 作者：程序員學長

在數(shù)據科學項目中，數(shù)據預處理是最重要的事情之一，本文詳細給大家介紹python進行數(shù)據預處理的4個重要步驟：拆分訓練集和測試集，處理缺失值，處理分類特征和進行標準化處理,需要的朋友可以參考下

拆分訓練集和測試集

訓練集和測試集拆分是機器學習中的重要步驟之一。

這非常重要，因為你的模型需要在部署之前進行評估。

訓練集和測試集拆分背后的主要思想是將原始數(shù)據集轉換為兩部分

訓練集
測試集

其中訓練集由訓練數(shù)據和訓練標簽組成，測試集由測試數(shù)據和測試標簽組成。

最簡單的方法是使用 scikit-learn 的一個內置函數(shù) train_test_split。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

在這里，我們在 train_test_split 中傳入了 X 和 y 作為參數(shù) ，它將 X 和 y 進行拆分，其中訓練集占 80%，測試集占 20% 。

處理缺失值

你可能聽說過一個著名的機器學習短語，它是

Garbage in Garbage out

如果你的數(shù)據集充滿了缺失值，那么你的模型效果也不好。

因此，處理此類缺失值很重要。

讓我們用一個虛擬數(shù)據集來看看我們如何解決這個問題。

首先查看一下數(shù)據集中的缺失值。

df.isna().sum()

我們可以看到數(shù)據集中有缺失值。

填充缺失值的一種方法是用該列的平均值填充。

例如，我們可以用該列所有學生的平均值來填充 Final 列的缺失值。

為此，我們可以使用 sklearn.impute 中的 SimpleImputer 。

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(fill_value=np.nan, startegy='mean')
X = imputer.fit_transform(df)

這將使用該列的平均值填充數(shù)據框 df 中的所有缺失值。

可以使用 fit_transform 函數(shù)來做到這一點。

X = pd.DataFrame(X, columns=df.columns)
print(X)

現(xiàn)在，可以看到所有缺失值都用均值進行了填充

X.isna().sum()

我們也可以在 SimpleImputer 中使用 mean、 meadian、 mode 等。

如果缺失值的行數(shù)較少，或者我們的數(shù)據不建議填充缺失值，那么可以在 pandas 中使用 dropna 刪除缺失的行。

dropedDf = df.dropna()

在這里，我們刪除了數(shù)據框中的所有空行并將其存儲在另一個數(shù)據框中。

dropedD.isna().sum()

處理分類特征

我們可以通過將它們轉換為整數(shù)來處理分類特征。有兩種常見的方法可以做到這一點。

Label Encoding
One Hot Encoding

在 Label Encoder中，將分類值轉換為數(shù)字標簽。假設這是我們的數(shù)據集

在 Country 列上使用 Label Encoding 會將 India 轉換為 1，將 USA 轉換為 2，將 China 轉換為 0。

這種技術有一個缺點，即由于 USA 的標簽高，它給予 USA 最高優(yōu)先級，而 China 的優(yōu)先級最低，標簽為 0。

from sklearn.preprocessing import LabelEncoder
l1 = LabelEncoder()
l1.fit(catDf['Country'])
catDf.Country = l1.transform(catDf.Country)
print(catDf)

如代碼所示，我們實例化了一個 LabelEncoder 對象，然后使用 fit 方法將其應用到分類列上，然后使用 transform 方法進行轉換。

在 OneHotEncoder 中 ，我們?yōu)槊總€唯一的分類值創(chuàng)建一個新列。

下面通過一個例子來了解一下。

我們將添加另一個分類列，即 “Continent”。

catDf['Continent'] = ['Asia', 'North America', 'Asia']

現(xiàn)在因為我們有 2 個分類列，它們是 [['Country', 'Continent']]，我們可以對它們進行獨熱編碼。

有兩種方法可以做到這一點。

1.DataFrame.get_dummies

這是一種非常常見的方法，我們使用 pandas 內置函數(shù) get_dummies 將數(shù)據幀中的分類值轉換為獨熱編碼。

pd.get_dummies(data=catDf)

這將返回一個數(shù)據幀。

在這里我們可以看到它已經將 Country 列的唯一值轉換為 3 個不同的列，分別是 Country_China、Country_India 和 Country_USA。同樣，Continent 列的 2 個唯一值已轉換為 2 個不同的列，分別命名為 Continent_Asia 和 Continent_North America。

2.OneHotEncoder

使用 scikit-learn 中的 OneHotEncoder 也是一種常見的做法。

它提供了更多的靈活性和更多的選擇，但使用起來有點困難。

讓我們看看如何為我們的數(shù)據集做這件事。

from sklearn.preprocessing import OneHotEncoder
oh = OneHotEncoder()
s1 = pd.DataFrame(oh.fit_transform(catDf.iloc[:, [0,3]]))
catDf = pd.concat([catDf, s1], axis=1)

在這里，我們已經初始化了 OneHotEncoder 對象，并在數(shù)據框中對我們想要的列（列號 0 和列號 3）上使用了它的 fit_transform方法。

fit_transform 的返回類型是 numpy.ndarray ，所以我們通過pd.DataFrame 將其轉換為數(shù)據框，并存儲在一個變量中。

然后，為了將它加入我們的原始數(shù)據幀，可以使用 pd.concat 連接 2 個不同數(shù)據幀。

你可以看到，與 pd.get_dummies 相比，它的可讀性并不清晰

但是如果你比較使用 pd.get_dummies 和 OneHotEncoder 獲得的最后 5 列，它們都是相等的。

標準化數(shù)據集

某些實驗證明，與未標準化的數(shù)據集相比，機器學習和深度學習模型在標準化數(shù)據集上的表現(xiàn)更好。

有幾種方法可以做到這一點。我將討論標準化數(shù)據集的 2 種常用方法。

1、Standard Scaler

使用這種技術，可以將數(shù)據集轉化為均值為 0，標準差為 1。

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
catDf.iloc[:,1:-1] = ss.fit_transform(catDf.iloc[:,1:-1])
print(catDf)

2、Normalization

正則化是將 **每個樣本縮放到單位范數(shù)（每個樣本的范數(shù)為1）**的過程。

如果你計劃使用二次型（點積）或任何其他核方法來計算兩個樣本之間的相似性，則此過程會很有用。

Normalization 主要思想是對每個樣本計算其p-范數(shù)，然后對該樣本中每個元素除以該范數(shù)，這樣處理的結果是使得每個處理后樣本的p-范數(shù)（l1-norm,l2-norm）等于1。

使用過程非常簡單，與 StandaradScaler 類似。

from sklearn.preprocessing import Normalizer
norm = Normalizer()
catDf.iloc[:,1:-1] = norm.fit_transform(catDf.iloc[:,1:-1])
catDf

以上就是python進行數(shù)據預處理的4個重要步驟的詳細內容，更多關于python 數(shù)據預處理的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python進行數(shù)據預處理的4個重要步驟

目錄

拆分訓練集和測試集

處理缺失值

處理分類特征

1.DataFrame.get_dummies

2.OneHotEncoder

標準化數(shù)據集

1、Standard Scaler

2、Normalization

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python進行數(shù)據預處理的4個重要步驟

目錄

拆分訓練集和測試集

處理缺失值

處理分類特征

1.DataFrame.get_dummies

2.OneHotEncoder

標準化數(shù)據集

1、Standard Scaler

2、Normalization

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

1、Standard Scaler

2、Normalization