快捷導(dǎo)航

使用Python實(shí)現(xiàn)數(shù)據(jù)重采樣的示例代碼

更新時(shí)間：2023年11月16日 10:11:24 作者：python收藏家

數(shù)據(jù)重采樣是一種用于調(diào)整數(shù)據(jù)集大小或分布的技術(shù),它涉及通過(guò)增加或減少數(shù)據(jù)點(diǎn)的數(shù)量來(lái)修改現(xiàn)有數(shù)據(jù)集,下面我們就來(lái)學(xué)習(xí)一下如何利用Python實(shí)現(xiàn)數(shù)據(jù)重采樣吧

什么是數(shù)據(jù)重采樣

數(shù)據(jù)重采樣是一種用于調(diào)整數(shù)據(jù)集大小或分布的技術(shù)。它涉及通過(guò)增加或減少數(shù)據(jù)點(diǎn)的數(shù)量來(lái)修改現(xiàn)有數(shù)據(jù)集。數(shù)據(jù)重采樣主要用于解決類(lèi)不平衡等問(wèn)題，其中一個(gè)類(lèi)的樣本明顯少于另一個(gè)類(lèi)，或者為訓(xùn)練機(jī)器學(xué)習(xí)模型準(zhǔn)備數(shù)據(jù)。

以下是數(shù)據(jù)重采樣的一些方法：

類(lèi)不平衡校正：它有助于糾正分類(lèi)任務(wù)中的類(lèi)不平衡問(wèn)題。它確保每個(gè)類(lèi)在數(shù)據(jù)集中有適當(dāng)?shù)谋硎荆乐鼓Ｐ推蚨鄶?shù)類(lèi)。

模型訓(xùn)練和驗(yàn)證：重采樣技術(shù)可以幫助確保模型在具有均衡類(lèi)分布的數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證。它導(dǎo)致更可靠和無(wú)偏見(jiàn)的模型評(píng)估。

增強(qiáng)泛化：它可以通過(guò)提供更多的學(xué)習(xí)示例來(lái)提高模型泛化到新的、看不見(jiàn)的數(shù)據(jù)的能力，特別是對(duì)于代表性不足的類(lèi)。

數(shù)據(jù)重采樣技術(shù)

重采樣有兩種主要技術(shù)：

過(guò)采樣
欠采樣

過(guò)采樣包括：

隨機(jī)過(guò)采樣：在該方法中，少數(shù)類(lèi)的隨機(jī)實(shí)例被復(fù)制以匹配多數(shù)類(lèi)中的實(shí)例的數(shù)量。雖然簡(jiǎn)單，但它可能導(dǎo)致過(guò)擬合。

SMOTE（合成少數(shù)過(guò)采樣技術(shù)）：SMOTE通過(guò)在現(xiàn)有實(shí)例之間插值來(lái)生成少數(shù)類(lèi)的合成樣本。它創(chuàng)建新的數(shù)據(jù)點(diǎn)，這些數(shù)據(jù)點(diǎn)是特征空間中相鄰數(shù)據(jù)點(diǎn)的組合。

ADASYN（自適應(yīng)合成采樣）：ADASYN是SMOTE的擴(kuò)展，專(zhuān)注于通過(guò)賦予它們更多權(quán)重來(lái)為難以學(xué)習(xí)的實(shí)例生成合成樣本。

欠采樣包括：

隨機(jī)欠采樣：從多數(shù)類(lèi)中隨機(jī)刪除實(shí)例，以匹配少數(shù)類(lèi)中的實(shí)例數(shù)。如果刪除的實(shí)例太多，可能會(huì)導(dǎo)致信息丟失。

簇質(zhì)心：該方法識(shí)別多數(shù)類(lèi)中的聚類(lèi)并將其替換為聚類(lèi)的質(zhì)心，有效地減少了多數(shù)類(lèi)中的實(shí)例數(shù)量。

使用Python進(jìn)行數(shù)據(jù)重采樣

現(xiàn)在，讓我們看看如何通過(guò)實(shí)現(xiàn)數(shù)據(jù)重采樣技術(shù)，使用Python對(duì)數(shù)據(jù)集進(jìn)行重采樣。

首先創(chuàng)建一個(gè)不平衡的數(shù)據(jù)集，然后實(shí)現(xiàn)SMOTE來(lái)重新采樣數(shù)據(jù)，將其轉(zhuǎn)換為平衡的數(shù)據(jù)集。

import numpy as np
import pandas as pd
# Install imbalanced-learn using: pip install imbalanced-learn
from imblearn.over_sampling import SMOTE


# Create a sample imbalanced dataset with two classes (0 and 1)
np.random.seed(42)
X = np.random.rand(100, 2)
y = np.array([0] * 90 + [1] * 10)


# Apply SMOTE to generate synthetic samples for the minority class
smote = SMOTE(sampling_strategy='auto')
X_resampled, y_resampled = smote.fit_resample(X, y)


# Print the class distribution after SMOTE
print("Class Distribution after SMOTE:")
print(pd.Series(y_resampled).value_counts())

輸出

Class Distribution after SMOTE:
0 90
1 90
dtype: int64

在這段代碼中，我們創(chuàng)建了一個(gè)帶有兩個(gè)類(lèi)（0和1）的示例不平衡數(shù)據(jù)集。然后，我們應(yīng)用來(lái)自不平衡學(xué)習(xí)庫(kù)的SMOTE為少數(shù)類(lèi)生成合成樣本。sampling_strategy參數(shù)設(shè)置為auto，這確保創(chuàng)建的合成樣本數(shù)等于大多數(shù)類(lèi)中的樣本數(shù)，從而平衡類(lèi)分布。

總結(jié)

因此，數(shù)據(jù)重采樣是一種用于調(diào)整數(shù)據(jù)集大小或分布的技術(shù)。它涉及通過(guò)增加或減少數(shù)據(jù)點(diǎn)的數(shù)量來(lái)修改現(xiàn)有數(shù)據(jù)集。重采樣主要用于解決類(lèi)不平衡等問(wèn)題，其中一個(gè)類(lèi)的樣本明顯少于另一個(gè)類(lèi)，或者為訓(xùn)練機(jī)器學(xué)習(xí)模型準(zhǔn)備數(shù)據(jù)集。

到此這篇關(guān)于使用Python實(shí)現(xiàn)數(shù)據(jù)重采樣的示例代碼的文章就介紹到這了,更多相關(guān)Python數(shù)據(jù)重采樣內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: