python類別數(shù)據(jù)數(shù)字化LabelEncoder?VS?OneHotEncoder區(qū)別
LabelEncoder 和 OneHotEncoder 是什么
- 在數(shù)據(jù)處理過程中,我們有時(shí)需要對(duì)不連續(xù)的數(shù)字或者文本進(jìn)行數(shù)字化處理。
- 在使用 Python 進(jìn)行數(shù)據(jù)處理時(shí),用 encoder 來轉(zhuǎn)化 dummy variable(虛擬數(shù)據(jù))非常簡(jiǎn)便,encoder 可以將數(shù)據(jù)集中的文本轉(zhuǎn)化成0或1的數(shù)值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的兩個(gè)功能,可以實(shí)現(xiàn)上述的轉(zhuǎn)化過程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder
數(shù)據(jù)集中的類別數(shù)據(jù)
在使用回歸模型和機(jī)器學(xué)習(xí)模型時(shí),所有的考察數(shù)據(jù)都是數(shù)值更容易得到好的結(jié)果。
因?yàn)榛貧w和機(jī)器學(xué)習(xí)都是基于數(shù)學(xué)函數(shù)方法的,所以當(dāng)我們要分析的數(shù)據(jù)集中出現(xiàn)了類別數(shù)據(jù)(categorical data),此時(shí)的數(shù)據(jù)是不理想的,因?yàn)槲覀儾荒苡脭?shù)學(xué)的方法處理它們。
例如,在處理男和女兩個(gè)性別數(shù)據(jù)時(shí),我們用0和1將其代替,再進(jìn)行分析。
由于這種情況的出現(xiàn),我們需要可以將文字?jǐn)?shù)字化的現(xiàn)成方法。
LabelEncoder 和 OneHotEncoder 的區(qū)別
具體代碼
import pandas as pd from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.cross_validation import train_test_split # 讀取數(shù)據(jù) data_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/' 'breast-cancer-wisconsin/wdbc.data', header=None) # 前面的數(shù)據(jù)是特征,最后一列是標(biāo)簽label x, y = data_df.values[:, :-1], data_df.values[:, -1] # 先實(shí)例化一個(gè)對(duì)象 encoder_x = LabelEncoder() # 對(duì)標(biāo)簽進(jìn)行類別數(shù)據(jù)數(shù)字化 y = encoder_x.fit_transform( y )
以上就是python 數(shù)據(jù)數(shù)字化的方法LabelEncoder VS OneHotEncoder區(qū)別的詳細(xì)內(nèi)容,更多關(guān)于LabelEncoder VS OneHotEncoder的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
用實(shí)例說明python的*args和**kwargs用法
python的*args和**kwargs如何用,看了下面的例子你就清楚了。2013-11-11Pytorch中torch.flatten()和torch.nn.Flatten()實(shí)例詳解
這篇文章主要給大家介紹了關(guān)于Pytorch中torch.flatten()和torch.nn.Flatten()的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2022-02-02Python3實(shí)現(xiàn)簡(jiǎn)單可學(xué)習(xí)的手寫體識(shí)別(實(shí)例講解)
下面小編就為大家?guī)硪黄狿ython3實(shí)現(xiàn)簡(jiǎn)單可學(xué)習(xí)的手寫體識(shí)別(實(shí)例講解)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-10-10Python接口自動(dòng)化測(cè)試框架運(yùn)行原理及流程
這篇文章主要介紹了Python接口自動(dòng)化測(cè)試框架運(yùn)行原理及流程,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11django fernet fields字段加密實(shí)踐詳解
這篇文章主要介紹了django fernet fields字段加密實(shí)踐詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08用uWSGI和Nginx部署Flask項(xiàng)目的方法示例
這篇文章主要介紹了用uWSGI和Nginx部署Flask項(xiàng)目的方法示例,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2019-05-05