快捷導(dǎo)航

Python如何實(shí)現(xiàn)拆分?jǐn)?shù)據(jù)集

更新時(shí)間：2023年09月11日 11:07:27 作者：SunnyRivers

這篇文章主要介紹了Python如何實(shí)現(xiàn)拆分?jǐn)?shù)據(jù)集問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

前言

訓(xùn)練模型之前一般需要把數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集，使用python代碼如何拆分的關(guān)鍵就是如何更方便的選擇出自變量X和因變量Y。

加載數(shù)據(jù)

# 導(dǎo)入第三方模塊
import pandas as pd
# 讀入數(shù)據(jù)
df = pd.read_csv(r'splitfeatures.csv')
df.head()

在這里插入圖片描述

如何選擇出X和Y

最簡(jiǎn)單的方式一個(gè)一個(gè)選擇

X = df[['age','sex','income','profession']]
y = df['is_buy']

用iloc和loc選擇

X1 = df.iloc[:,[0,1,2,4]]
y1 = df.iloc[:,[3]]
X2 = df.loc[:,['age','sex','income','profession']]
y2 = df.loc[:,['is_buy']]

用drop選擇

X3 = df.drop(['is_buy'],axis=1)
y3 = df.is_buy

使用dataframe的colunms方法

col = df.columns[[0,1,2,4]]
X4 = df.loc[:,col]
X5 = df.iloc[:, df.columns != 'is_buy']
y5 = df.iloc[:, df.columns == 'is_buy']

使用model_selection拆分?jǐn)?shù)據(jù)集

from sklearn import model_selection
# 將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.2, random_state = 1234)

后記

看完上面的內(nèi)容，應(yīng)該對(duì)拆分?jǐn)?shù)據(jù)集有了一個(gè)基本認(rèn)識(shí)。

下面寫一個(gè)較為完整的案例：

引入必要的庫(kù)

在開(kāi)始之前，我們需要引入一些必要的Python庫(kù)，包括numpy和sklearn。

Numpy庫(kù)用于處理數(shù)組和矩陣，而sklearn庫(kù)則提供了數(shù)據(jù)集拆分的函數(shù)。

import numpy as np
from sklearn.model_selection import train_test_split

加載數(shù)據(jù)集

首先，我們需要加載我們的數(shù)據(jù)集。

這里以一個(gè)簡(jiǎn)單的鳶尾花數(shù)據(jù)集為例。

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

數(shù)據(jù)集

拆分使用sklearn庫(kù)的train_test_split函數(shù)可以很方便地拆分?jǐn)?shù)據(jù)集。

該函數(shù)會(huì)將數(shù)據(jù)集按一定的比例拆分為訓(xùn)練集和測(cè)試集。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

這里的test_size參數(shù)表示要分割測(cè)試集所占的比例，通常約定為0.2或0.3。

而random_state參數(shù)用于設(shè)置隨機(jī)種子，保證每次運(yùn)行代碼時(shí)得到的拆分結(jié)果是相同的。

拆分結(jié)果的驗(yàn)證

在完成數(shù)據(jù)集拆分后，我們可以驗(yàn)證拆分的結(jié)果是否正確。

這可以通過(guò)打印訓(xùn)練集和測(cè)試集的長(zhǎng)度來(lái)實(shí)現(xiàn)。

print("訓(xùn)練集長(zhǎng)度：", len(X_train))
print("測(cè)試集長(zhǎng)度：", len(X_test))

拆分結(jié)果的應(yīng)用

最后，我們可以將拆分后的數(shù)據(jù)集用于模型的訓(xùn)練和測(cè)試。

# 在訓(xùn)練集上訓(xùn)練模型
model.fit(X_train, y_train)
# 在測(cè)試集上測(cè)試模型性能
accuracy = model.score(X_test, y_test)
print("模型準(zhǔn)確率：", accuracy)

總結(jié)

通過(guò)使用sklearn庫(kù)的train_test_split函數(shù)，我們可以很方便地將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集。

同時(shí)，我們還提到了調(diào)整拆分比例和設(shè)置隨機(jī)種子的一些技巧。希望這些技巧能幫助你更好地進(jìn)行模型訓(xùn)練和測(cè)試，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python如何實(shí)現(xiàn)拆分?jǐn)?shù)據(jù)集

目錄

前言

加載數(shù)據(jù)

如何選擇出X和Y

使用model_selection拆分?jǐn)?shù)據(jù)集

后記

引入必要的庫(kù)

加載數(shù)據(jù)集

數(shù)據(jù)集

拆分結(jié)果的驗(yàn)證

拆分結(jié)果的應(yīng)用

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具