pandas 中對特征進行硬編碼和onehot編碼的實現(xiàn)

更新時間：2019年12月20日 15:03:30 作者：很吵請安青爭

今天小編就為大家分享一篇pandas 中對特征進行硬編碼和onehot編碼的實現(xiàn)，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

首先介紹兩種編碼方式硬編碼和onehot編碼，在模型訓練所需要數(shù)據(jù)中，特征要么為連續(xù)，要么為離散特征，對于那些值為非數(shù)字的離散特征，我們要么對他們進行硬編碼，要么進行onehot編碼，轉(zhuǎn)化為模型可以用于訓練的特征

初始化一個DataFrame

import pandas as pd
df = pd.DataFrame([
 ['green', 'M', 20, 'class1'],
 ['red', 'L', 21, 'class2'],
 ['blue', 'XL',30, 'class3']])
df.columns = ['color', 'size', 'weight', 'class label']

硬編碼：

將feature的值從0（或者1）開始進行連續(xù)編碼，比如color進行硬編碼，color的值有三個，分別為編碼為1,2,3

可以用如下操作，對color字段下的值進行硬編碼

colorMap = {elem:index+1 for index,elem in enumerate(set(df["color"]))}
df['color'] = df['color'].map(colorMap)

這樣可以進行硬編碼了，之前我的寫法是，先生成map，然后對每一行進行apply，顯然沒有上述代碼簡便

onehot編碼：

將某個字段下所有值橫向展開，對于每條數(shù)據(jù)，其在對應展開的值上的值就是1，聽起來比較繞口，看下面的例子就知道了，python中，pandas 用get_dummies()方法即可

data1 = pd.get_dummies(df[["color"]])

如果要對多個feature 進行onehot，這樣即可df[[fea1,fea2..]]

對于onehot以后的數(shù)據(jù)，如果需要原有的數(shù)據(jù)合并，直接拿原來的join onehot的數(shù)據(jù)即可

res = df.join(data1)

join操作默認是根據(jù)index來進行join的，而get_dummies()不會改變index

以上這篇pandas 中對特征進行硬編碼和onehot編碼的實現(xiàn)就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python2.7使用plotly繪制本地散點圖和折線圖
這篇文章主要為大家詳細介紹了python2.7使用plotly繪制本地散點圖和折線圖實例，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-04-04
簡單掌握Python的Collections模塊中counter結(jié)構(gòu)的用法
counter數(shù)據(jù)結(jié)構(gòu)被用來提供技術(shù)功能,形式類似于Python中內(nèi)置的字典結(jié)構(gòu),這里通過幾個小例子來簡單掌握Python的Collections模塊中counter結(jié)構(gòu)的用法:
2016-07-07
詳解PyQt5?事件處理機制
PyQt為事件處理提供了兩種機制高級的信號與槽機制，以及低級的事件處理機制，這篇文章主要介紹了PyQt5?事件處理機制,需要的朋友可以參考下
2022-11-11
在pytorch中計算準確率,召回率和F1值的操作
這篇文章主要介紹了在pytorch中計算準確率,召回率和F1值的操作，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2021-05-05
PyQt5 實現(xiàn)百度圖片下載器GUI界面
本文主要介紹了通過 Pyqt5 實現(xiàn)一個界面化的下載器，在通過網(wǎng)絡(luò)請求實現(xiàn)各種類型的圖片的下載。文中的示例代碼講解詳細，感興趣的小伙伴可以了解一下
2021-12-12
python中json操作之json.loads、json.load、json.jumps及json.jump用法
最近在python里面用json讀取json文件,可是老是不成功,特此記錄一下,下面這篇文章主要給大家介紹了關(guān)于python中json操作之json.loads、json.load、json.jumps及json.jump用法的相關(guān)資料,需要的朋友可以參考下
2022-08-08
Python通過socketserver處理多個鏈接
這篇文章主要介紹了Python通過socketserver處理多個鏈接,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-03-03
python實現(xiàn)基于信息增益的決策樹歸納
這篇文章主要為大家詳細介紹了Python實現(xiàn)基于信息增益的決策樹歸納，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-12-12
Django Auth用戶認證組件實現(xiàn)代碼
這篇文章主要介紹了Django Auth用戶認證組件實現(xiàn)代碼,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-10-10
Python 運行 shell 獲取輸出結(jié)果的實例
今天小編就為大家分享一篇Python 運行 shell 獲取輸出結(jié)果的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-01-01