欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python----數(shù)據(jù)預處理代碼實例

 更新時間:2019年03月20日 15:43:39   作者:滅盤  
這篇文章主要介紹了Python數(shù)據(jù)預處理,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

本文實例為大家分享了Python數(shù)據(jù)預處理的具體代碼,供大家參考,具體內(nèi)容如下

1.導入標準庫

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

2.導入數(shù)據(jù)集

dataset = pd.read_csv('data (1).csv') # read_csv:讀取csv文件
#創(chuàng)建一個包含所有自變量的矩陣,及因變量的向量
#iloc表示選取數(shù)據(jù)集的某行某列;逗號之前的表示行,之后的表示列;冒號表示選取全部,沒有冒號,則表示選取第幾列;values表示選取數(shù)據(jù)集里的數(shù)據(jù)。
X = dataset.iloc[:, :-1].values # 選取數(shù)據(jù),不選取最后一列。
y = dataset.iloc[:, 3].values # 選取數(shù)據(jù),選取每行的第3列數(shù)據(jù)

3.缺失數(shù)據(jù)

from sklearn.preprocessing import Imputer #進行數(shù)據(jù)挖掘及數(shù)據(jù)分析的標準庫,Imputer缺失數(shù)據(jù)的處理
#Imputer中的參數(shù):missing_values 缺失數(shù)據(jù),定義怎樣辨認確實數(shù)據(jù),默認值:nan ;strategy 策略,補缺值方式 : mean-平均值 , median-中值 , most_frequent-出現(xiàn)次數(shù)最多的數(shù) ; axis =0取列 =1取行 
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
imputer = imputer.fit(X[:, 1:3])#擬合fit
X[:, 1:3] = imputer.transform(X[:, 1:3])

4.分類數(shù)據(jù)

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0]=labelencoder_X.fit_transform(X[:,0])
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
#因為Purchased是因變量,Python里面的函數(shù)可以將其識別為分類數(shù)據(jù),所以只需要LabelEncoder轉(zhuǎn)換為分類數(shù)字
labelencoder_y=LabelEncoder()
y=labelencoder_y.fit_transform(y)

5.將數(shù)據(jù)集分為訓練集和測試集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
#X_train(訓練集的字變量),X_test(測試集的字變量),y_train(訓練集的因變量),y_test(訓練集的因變量)
#訓練集所占的比重0.2~0.25,某些情況也可分配1/3的數(shù)據(jù)給訓練集;train_size訓練集所占的比重
#random_state決定隨機數(shù)生成的方式,隨機的將數(shù)據(jù)分配給訓練集和測試集;random_state相同時會得到相同的訓練集和測試集

6.特征縮放

#特征縮放(兩種方式:一:Standardisation(標準化);二:Normalisation(正?;?
from sklearn.preprocessing import StandardScaler
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)#擬合,對X_train進行縮放
X_test=sc_X.transform(X_test)#sc_X已經(jīng)被擬合好了,所以對X_test進行縮放時,直接轉(zhuǎn)換X_test

7.數(shù)據(jù)預處理模板

(1)導入標準庫
(2)導入數(shù)據(jù)集
(3)缺失和分類很少遇到
(4)將數(shù)據(jù)集分割為訓練集和測試集
(5)特征縮放,大部分情況下不需要,但是某些情況需要特征縮放

以上所述是小編給大家介紹的Python數(shù)據(jù)預處理詳解整合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!

相關(guān)文章

  • Pandas保存csv數(shù)據(jù)的三種方式詳解

    Pandas保存csv數(shù)據(jù)的三種方式詳解

    CSV文件以純文本形式存儲表格數(shù)據(jù)(數(shù)字和文本),是一種通用的、相對簡單的文件格式,被用戶、商業(yè)和科學廣泛應用。本文介紹了三種Pandas保存CSV文件數(shù)據(jù)的方法,需要的可以參考一下
    2022-03-03
  • python把數(shù)據(jù)框?qū)懭隡ySQL的方法

    python把數(shù)據(jù)框?qū)懭隡ySQL的方法

    這篇文章主要介紹了如何讓python把數(shù)據(jù)框?qū)懭隡ySQL,下文利用上海市2016年9月1日公共交通卡刷卡數(shù)據(jù)的一份數(shù)據(jù)單展開其方法,需要的小伙伴可以參考一下
    2022-03-03
  • python excel多行合并的方法

    python excel多行合并的方法

    這篇文章主要介紹了python excel多行合并的方法,幫助大家更好的利用python處理excel表格,感興趣的朋友可以了解下
    2020-12-12
  • Python導入模塊時遇到的錯誤分析

    Python導入模塊時遇到的錯誤分析

    這篇文章主要給大家詳細解釋了在Python處理導入模塊的時候出現(xiàn)錯誤以及具體的情況分析,非常的詳盡,有需要的小伙伴可以參考下
    2017-08-08
  • Python實現(xiàn)異步IO的示例

    Python實現(xiàn)異步IO的示例

    這篇文章主要介紹了Python實現(xiàn)異步IO的示例,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-11-11
  • python3 實現(xiàn)口罩抽簽的功能

    python3 實現(xiàn)口罩抽簽的功能

    這篇文章主要介紹了python3 實現(xiàn) 口罩抽簽的功能,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-03-03
  • Django中的WebSocket實時通信的實現(xiàn)小結(jié)

    Django中的WebSocket實時通信的實現(xiàn)小結(jié)

    在Django中,使用WebSocket可以實現(xiàn)實時通信,例如聊天應用、實時更新等,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2024-05-05
  • 在Python中操作字典之setdefault()方法的使用

    在Python中操作字典之setdefault()方法的使用

    這篇文章主要介紹了在Python中操作字典之setdefault()方法的使用,是Python入門學習中的基礎(chǔ)知識,需要的朋友可以參考下
    2015-05-05
  • Python中應用protobuf的示例詳解

    Python中應用protobuf的示例詳解

    這篇文章主要來和大家聊一聊?protobuf,它是一個數(shù)據(jù)序列化和反序列化協(xié)議,因此它和?json?的定位是一樣的。文中的示例代碼講解詳細,感興趣的可以了解一下
    2023-02-02
  • Pytest運行及其控制臺輸出信息

    Pytest運行及其控制臺輸出信息

    這篇文章主要介紹了Pytest運行及其控制臺輸出信息,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-09-09

最新評論