欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?sklearn庫三種常用編碼格式實(shí)例

 更新時間:2022年09月13日 17:27:05   作者:LoveAndProgram  
這篇文章主要為大家介紹了Python?sklearn庫三種常用編碼格式實(shí)例展示,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

OneHotEncoder獨(dú)熱編碼實(shí)例

class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse=True, dtype=<class 'numpy.float64'>, handle_unknown='error')
  • 目的:將分類要素編碼為one-hot數(shù)字?jǐn)?shù)組
  • 輸入:為整數(shù)或字符串之類的數(shù)組,表示分類(離散)特征所采用的值。
  • 這將為每個類別創(chuàng)建一個二進(jìn)制列,并返回一個稀疏矩陣或密集數(shù)組(取決于稀疏參數(shù))默認(rèn)情況下,編碼器會根據(jù)每個功能中的唯一值得出類別(可改為手動)
  • 適用于GBDT、XGBoost、Lgb模型中效果都不錯 注意:在最新版本的sklearn中,所有的數(shù)據(jù)都應(yīng)該是二維矩陣,所以當(dāng)它只是單獨(dú)一行或一列需要進(jìn)行reshape(1, -1)數(shù)據(jù)轉(zhuǎn)換,否則會報錯ValueError: Expected 2D array, got 1D array instead

以下面數(shù)據(jù)為例(數(shù)據(jù)源):

from sklearn.preprocessing import OneHotEncoder
import pandas as pd
train = pd.read_csv('./train.csv')
enc = OneHotEncoder(handle_unknown='ignore')
numerical_feature = ['policy_annual_premium','insured_education_level','capital-gains','incident_type','incident_severity',\
                   'property_damage','bodily_injuries','police_report_available','total_claim_amount','injury_claim','property_claim','vehicle_claim']
data = train[numerical_feature]
c = enc.fit_transform(data.values.reshape(1,-1))
c.toarray()#查看轉(zhuǎn)化后的數(shù)據(jù)

輸入數(shù)據(jù)由處理后的這種格式:

經(jīng)過編碼后得出編碼后的數(shù)據(jù)(數(shù)據(jù)量過大用元組的形式展現(xiàn)),全部由二進(jìn)制數(shù)0、1表示:

注意:在一對多的情況下y標(biāo)簽需要使用 sklearn.preprocessing.LabelBinarizer() 函數(shù)將多類標(biāo)簽轉(zhuǎn)換為二進(jìn)制標(biāo)簽

LabelEncoder標(biāo)簽編碼實(shí)例

  • 目的:對目標(biāo)標(biāo)簽進(jìn)行編碼,其值介于0和n_classes-1之間
  • 輸入可以是數(shù)字標(biāo)簽,也可以是非數(shù)字標(biāo)簽,這里需要注意的是返回的類型是NumPy的array形式,上述OneHotEncoder ()返回的是系數(shù)矩陣形式。
from sklearn.preprocessing import LabelEncoder
Enc=LabelEncoder()
def yuchuli(data):
    numerical_feature = ['policy_annual_premium','insured_education_level','capital-gains','incident_type','incident_severity',\
                       'property_damage','bodily_injuries','police_report_available','total_claim_amount','injury_claim','property_claim','vehicle_claim','auto_year']
data=pd.DataFrame()
for fea in numerical_feature:
    data.insert(len(data.columns),fea,Enc.fit_transform(train[fea].values))
    return data
train_data = yuchuli(train)

經(jīng)過編碼后得出編碼后的數(shù)據(jù):

其中最清晰的就是標(biāo)黑的property_damage一列,使用One-hot編碼轉(zhuǎn)換后變成?屬于0,Yes屬于2,No屬于1。

LabelEncoder()只有一個class_屬性,是查看每個類別的標(biāo)簽,在上述基礎(chǔ)上嘗試即最后一個特征所對應(yīng)的屬性標(biāo)簽,通俗來講就是這里面需要被編碼的個數(shù)就是這些數(shù):

  • 果然不出所料,因?yàn)檫@是循環(huán),所以對應(yīng)的最后一個是auto_year,原數(shù)據(jù)如下圖:

注意:開頭提到的編碼值介于 0 和 n_classes-1 之間于下圖可以清晰理解,里面有n種不同的值,就分成 n-1 類,因?yàn)檫€包括 0

不過 LabelEncoder 標(biāo)簽編碼我想對用的比較少,一般我都是使用 One-hot 獨(dú)熱編碼去處理離散特征。

OrdinalEncoder特征編碼實(shí)例

  • 目的:將分類特征編碼為整數(shù)數(shù)組。
  • 輸入:是一個類似數(shù)組的整數(shù)或字符串,表示分類(離散)特征所采用的值,特征會被轉(zhuǎn)換為序數(shù)整數(shù)
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd
import numpy as np
train = pd.read_csv('./train.csv')
test = pd.read_csv('./test.csv')
train.drop_duplicates()
Enc=LabelEncoder()
Enc=OneHotEncoder()
def yuchuli(data_train):
    numerical_feature = ['incident_severity', 'insured_hobbies', 'vehicle_claim', 'auto_model', 'insured_education_level', 'insured_zip', 'insured_relationship', 'incident_date','auto_year']
    data = pd.DataFrame()
    for fea in numerical_feature:
        data.insert(len(data.columns), fea, (Enc.fit_transform(train[fea].values.reshape(-1, 1))).tolist())
#     return data
train_data = yuchuli(train)

但是我通過輸出每一個特征結(jié)果的時候發(fā)現(xiàn)他和LabelEncoder()編碼出的數(shù)據(jù)大差不離,特征編碼則通過categories_查看編碼特征

總而言之就是結(jié)果數(shù)據(jù)是一樣的,但是類型上是不同的,我通過本文了解到它們本質(zhì)的區(qū)別:

  • OrdinalEncoder 用于形狀為 2D 的數(shù)據(jù) (n_samples, n_features)
  • LabelEncoder用于形狀為 1D 的數(shù)據(jù)(n_samples,)

至于為什么,我們從上面兩者的代碼中就可以發(fā)現(xiàn),OrdinalEncoder 編碼出的數(shù)據(jù)要想fit_transform擬合,就得使用.reshape(-1, 1)轉(zhuǎn)換成二維數(shù)據(jù),這一塊和OneHotEncoder編碼相同,而LabelEncoder則直接放入即可擬合出數(shù)據(jù)來,這里也是使用過程中最容易出現(xiàn)的問題。

OrdinalEncoder編碼還是有兩點(diǎn)需要注意的,第一點(diǎn),他可以接受np.nan缺失值,可根據(jù)需求選擇是否處理缺失值;第二點(diǎn),他有 這么一個參數(shù)->handle_unknown=error(默認(rèn)) ,通過判斷是否存在未知的特征來選擇是否繼續(xù)進(jìn)行程序,當(dāng)我們們選擇handle_unknown=use_encoded_value時會將存在的未知特征打上unknown_value標(biāo)簽

#將缺失值全部處理為-1
Enc.set_params(encoded_missing_value=-1,handle_unknown=use_encoded_value).fit_transform()

以上就是Python sklearn庫三種常用編碼格式實(shí)例的詳細(xì)內(nèi)容,更多關(guān)于Python sklearn庫編碼格式的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python簡易實(shí)現(xiàn)任意位數(shù)的水仙花實(shí)例

    python簡易實(shí)現(xiàn)任意位數(shù)的水仙花實(shí)例

    今天小編就為大家分享一篇python簡易實(shí)現(xiàn)任意位數(shù)的水仙花實(shí)例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • python中unittest框架應(yīng)用詳解

    python中unittest框架應(yīng)用詳解

    這篇文章主要介紹了Python中Unittest框架的具體使用,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-09-09
  • 10個Python Itertools方法助你事半功倍

    10個Python Itertools方法助你事半功倍

    itertools模塊就是一個很好的例子,它為開發(fā)者提供了許多強(qiáng)大的工具,可以用更短的代碼來操作Python的可迭代對象,本文主要介紹了Python中itertools高效迭代工具,感興趣的可以了解一下
    2024-04-04
  • Python re 模塊findall() 函數(shù)返回值展現(xiàn)方式解析

    Python re 模塊findall() 函數(shù)返回值展現(xiàn)方式解析

    這篇文章主要介紹了Python re 模塊findall() 函數(shù)返回值展現(xiàn)方式解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-08-08
  • C++和python實(shí)現(xiàn)阿姆斯特朗數(shù)字查找實(shí)例代碼

    C++和python實(shí)現(xiàn)阿姆斯特朗數(shù)字查找實(shí)例代碼

    這篇文章主要給大家介紹了關(guān)于C++和python實(shí)現(xiàn)阿姆斯特朗數(shù)字查找的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • Python抽象類應(yīng)用詳情

    Python抽象類應(yīng)用詳情

    這篇文章主要介紹了Python抽象類應(yīng)用詳情,抽象類就是控制子類的方法的名稱,要求子類必須按照父類的要求的實(shí)現(xiàn)指定的方法,且方法名要和父類保持一致,下文更多相關(guān)介紹需要的小伙伴可以參考一下
    2022-04-04
  • python 遠(yuǎn)程統(tǒng)計文件代碼分享

    python 遠(yuǎn)程統(tǒng)計文件代碼分享

    享一個Python獲取遠(yuǎn)程文件大小的函數(shù)代碼,簡單實(shí)用,是學(xué)習(xí)Python編程的基礎(chǔ)實(shí)例。
    2015-05-05
  • Python2和Python3讀取文本文件的區(qū)別及說明

    Python2和Python3讀取文本文件的區(qū)別及說明

    這篇文章主要介紹了Python2和Python3讀取文本文件的區(qū)別及說明,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • python3 xpath和requests應(yīng)用詳解

    python3 xpath和requests應(yīng)用詳解

    這篇文章主要介紹了python3 xpath和requests應(yīng)用詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • Python圖像處理庫PIL的ImageFont模塊使用介紹

    Python圖像處理庫PIL的ImageFont模塊使用介紹

    這篇文章主要介紹了Python圖像處理庫PIL的ImageFont模塊使用介紹,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-02-02

最新評論