欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Pandas實(shí)現(xiàn)數(shù)據(jù)類(lèi)型轉(zhuǎn)換的一些小技巧匯總

 更新時(shí)間:2018年05月07日 11:32:05   作者:楊航鋒  
這篇文章主要給大家匯總介紹了關(guān)于Pandas實(shí)現(xiàn)數(shù)據(jù)類(lèi)型轉(zhuǎn)換的一些小技巧,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

前言

Pandas是Python當(dāng)中重要的數(shù)據(jù)分析工具,利用Pandas進(jìn)行數(shù)據(jù)分析時(shí),確保使用正確的數(shù)據(jù)類(lèi)型是非常重要的,否則可能會(huì)導(dǎo)致一些不可預(yù)知的錯(cuò)誤發(fā)生。

Pandas 的數(shù)據(jù)類(lèi)型:數(shù)據(jù)類(lèi)型本質(zhì)上是編程語(yǔ)言用來(lái)理解如何存儲(chǔ)和操作數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。例如,一個(gè)程序需要理解你可以將兩個(gè)數(shù)字加起來(lái),比如 5 + 10 得到 15?;蛘撸绻莾蓚€(gè)字符串,比如「cat」和「hat」,你可以將它們連接(加)起來(lái)得到「cathat」。尚學(xué)堂•百戰(zhàn)程序員陳老師指出有關(guān) Pandas 數(shù)據(jù)類(lèi)型的一個(gè)可能令人困惑的地方是,Pandas、Python 和 numpy 的數(shù)據(jù)類(lèi)型之間有一些重疊。

大多數(shù)情況下,你不必?fù)?dān)心是否應(yīng)該明確地將熊貓類(lèi)型強(qiáng)制轉(zhuǎn)換為對(duì)應(yīng)的 NumPy 類(lèi)型。一般來(lái)說(shuō)使用 Pandas 的默認(rèn) int64 和 float64 就可以。我列出此表的唯一原因是,有時(shí)你可能會(huì)在代碼行間或自己的分析過(guò)程中看到 Numpy 的類(lèi)型。
數(shù)據(jù)類(lèi)型是在你遇到錯(cuò)誤或意外結(jié)果之前并不會(huì)關(guān)心的事情之一。不過(guò)當(dāng)你將新數(shù)據(jù)加載到 Pandas 進(jìn)行進(jìn)一步分析時(shí),這也是你應(yīng)該檢查的第一件事情。

筆者使用Pandas已經(jīng)有一段時(shí)間了,但是還是會(huì)在一些小問(wèn)題上犯錯(cuò)誤,追根溯源發(fā)現(xiàn)在對(duì)數(shù)據(jù)進(jìn)行操作時(shí)某些特征列并不是Pandas所能處理的類(lèi)型。因此本文將討論一些小技巧如何將Python的基本數(shù)據(jù)類(lèi)型轉(zhuǎn)化為Pandas所能處理的數(shù)據(jù)類(lèi)型。

Pandas、Numpy、Python各自支持的數(shù)據(jù)類(lèi)型


從上述表格中可以看出Pandas支持的數(shù)據(jù)類(lèi)型最為豐富,在某種情形下Numpy的數(shù)據(jù)類(lèi)型可以和Pandas的數(shù)據(jù)類(lèi)型相互轉(zhuǎn)化,畢竟Pandas庫(kù)是在Numpy的基礎(chǔ)之上開(kāi)發(fā)的的。

引入實(shí)際數(shù)據(jù)進(jìn)行分析

數(shù)據(jù)類(lèi)型是你平??赡懿惶P(guān)心,直到得到了錯(cuò)誤的結(jié)果才映像深刻的東西,因此在這里引入一個(gè)實(shí)際數(shù)據(jù)分析的例子來(lái)加深理解。

import numpy as np
import pandas as pd

data = pd.read_csv('data.csv', encoding='gbk') #因?yàn)閿?shù)據(jù)中含有中文數(shù)據(jù)
data


數(shù)據(jù)加載完畢,如果現(xiàn)在想要在該數(shù)據(jù)上進(jìn)行一些操作,比如把數(shù)據(jù)列2016、2017對(duì)應(yīng)項(xiàng)相加。

data['2016'] + data['2017'] #想當(dāng)然的做法


從結(jié)果來(lái)看并沒(méi)有像想象中那樣數(shù)值對(duì)應(yīng)相加,這是因?yàn)樵赑andas中object類(lèi)型相加等價(jià)于Python中的字符串相加。

data.info() #在對(duì)數(shù)據(jù)進(jìn)行處理之前應(yīng)該先查看加載數(shù)據(jù)的相關(guān)信息


在看到加載數(shù)據(jù)的相關(guān)信息后可以發(fā)現(xiàn)如下幾個(gè)問(wèn)題:

  • 客戶編號(hào)的數(shù)據(jù)類(lèi)型是int64而不是object類(lèi)型
  • 2016、2017列的數(shù)據(jù)類(lèi)型是object而不是數(shù)值類(lèi)型(int64、float64)
  • 增長(zhǎng)率、所屬組的數(shù)據(jù)類(lèi)型應(yīng)該為數(shù)值類(lèi)型而不是object類(lèi)型
  • year、month、day的數(shù)據(jù)類(lèi)型應(yīng)該為datetime64類(lèi)型而不是object類(lèi)型

Pandas中進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換有三種基本方法:

  • 使用astype()函數(shù)進(jìn)行強(qiáng)制類(lèi)型轉(zhuǎn)換
  • 自定義函數(shù)進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換
  • 使用Pandas提供的函數(shù)如to_numeric()、to_datetime()

使用astype()函數(shù)進(jìn)行類(lèi)型轉(zhuǎn)換

對(duì)數(shù)據(jù)列進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換最簡(jiǎn)單的方法就是使用astype()函數(shù)

data['客戶編號(hào)'].astype('object')

data['客戶編號(hào)'] = data['客戶編號(hào)'].astype('object') #對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換并覆蓋原始數(shù)據(jù)列

上面的結(jié)果看起來(lái)很不錯(cuò),接下來(lái)給出幾個(gè)astype()函數(shù)作用于列數(shù)據(jù)但失效的例子

data['2017'].astype('float')

data['所屬組'].astype('int')


從上面兩個(gè)例子可以看出,當(dāng)待轉(zhuǎn)換列中含有不能轉(zhuǎn)換的特殊值時(shí)(例子中¥,ErrorValue等)astype()函數(shù)將失效。有些時(shí)候astype()函數(shù)執(zhí)行成功了也并不一定代表著執(zhí)行結(jié)果符合預(yù)期(神坑!)

data['狀態(tài)'].astype('bool')


乍一看,結(jié)果看起來(lái)不錯(cuò),但仔細(xì)觀察后,會(huì)發(fā)現(xiàn)一個(gè)大問(wèn)題。那就是所有的值都被替換為T(mén)rue了,但是該列中包含好幾個(gè)N標(biāo)志,所以astype()函數(shù)在該列也是失效的。

總結(jié)一下astype()函數(shù)有效的情形:

  • 數(shù)據(jù)列中的每一個(gè)單位都能簡(jiǎn)單的解釋為數(shù)字(2, 2.12等)
  • 數(shù)據(jù)列中的每一個(gè)單位都是數(shù)值類(lèi)型且向字符串object類(lèi)型轉(zhuǎn)換

如果數(shù)據(jù)中含有缺失值、特殊字符astype()函數(shù)可能失效。

使用自定義函數(shù)進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換

該方法特別適用于待轉(zhuǎn)換數(shù)據(jù)列的數(shù)據(jù)較為復(fù)雜的情形,可以通過(guò)構(gòu)建一個(gè)函數(shù)應(yīng)用于數(shù)據(jù)列的每一個(gè)數(shù)據(jù),并將其轉(zhuǎn)換為適合的數(shù)據(jù)類(lèi)型。

對(duì)于上述數(shù)據(jù)中的貨幣,需要將它轉(zhuǎn)換為float類(lèi)型,因此可以寫(xiě)一個(gè)轉(zhuǎn)換函數(shù):

def convert_currency(value):
 """
 轉(zhuǎn)換字符串?dāng)?shù)字為float類(lèi)型
 - 移除 ¥ ,
 - 轉(zhuǎn)化為float類(lèi)型
 """
 new_value = value.replace(',', '').replace('¥', '')
 return np.float(new_value)

現(xiàn)在可以使用Pandas的apply函數(shù)通過(guò)covert_currency函數(shù)應(yīng)用于2016列中的所有數(shù)據(jù)中。

data['2016'].apply(convert_currency)


該列所有的數(shù)據(jù)都轉(zhuǎn)換成對(duì)應(yīng)的數(shù)值類(lèi)型了,因此可以對(duì)該列數(shù)據(jù)進(jìn)行常見(jiàn)的數(shù)學(xué)操作了。如果利用lambda表達(dá)式改寫(xiě)一下代碼,可能會(huì)比較簡(jiǎn)潔但是對(duì)新手不太友好。

data['2016'].apply(lambda x: x.replace('¥', '').replace(',', '')).astype('float')

當(dāng)函數(shù)需要重復(fù)應(yīng)用于多個(gè)列時(shí),個(gè)人推薦使用第一種方法,先定義函數(shù)還有一個(gè)好處就是可以搭配read_csv()函數(shù)使用(后面介紹)。

#2016、2017列完整的轉(zhuǎn)換代碼
data['2016'] = data['2016'].apply(convert_currency)
data['2017'] = data['2017'].apply(convert_currency)

同樣的方法運(yùn)用于增長(zhǎng)率,首先構(gòu)建自定義函數(shù)

def convert_percent(value):
 """
 轉(zhuǎn)換字符串百分?jǐn)?shù)為float類(lèi)型小數(shù)
 - 移除 %
 - 除以100轉(zhuǎn)換為小數(shù)
 """
 new_value = value.replace('%', '')
 return float(new_value) / 100

使用Pandas的apply函數(shù)通過(guò)covert_percent函數(shù)應(yīng)用于增長(zhǎng)率列中的所有數(shù)據(jù)中。

data['增長(zhǎng)率'].apply(convert_percent)

使用lambda表達(dá)式:

data['增長(zhǎng)率'].apply(lambda x: x.replace('%', '')).astype('float') / 100

結(jié)果都相同:


為了轉(zhuǎn)換狀態(tài)列,可以使用Numpy中的where函數(shù),把值為Y的映射成True,其他值全部映射成False。

data['狀態(tài)'] = np.where(data['狀態(tài)'] == 'Y', True, False)

同樣的你也可以使用自定義函數(shù)或者使用lambda表達(dá)式,這些方法都可以完美的解決這個(gè)問(wèn)題,這里只是多提供一種思路。

利用Pandas的一些輔助函數(shù)進(jìn)行類(lèi)型轉(zhuǎn)換

Pandas的astype()函數(shù)和復(fù)雜的自定函數(shù)之間有一個(gè)中間段,那就是Pandas的一些輔助函數(shù)。這些輔助函數(shù)對(duì)于某些特定數(shù)據(jù)類(lèi)型的轉(zhuǎn)換非常有用(如to_numeric()、to_datetime())。所屬組數(shù)據(jù)列中包含一個(gè)非數(shù)值,用astype()轉(zhuǎn)換出現(xiàn)了錯(cuò)誤,然而用to_numeric()函數(shù)處理就優(yōu)雅很多。

pd.to_numeric(data['所屬組'], errors='coerce').fillna(0)


可以看到,非數(shù)值被替換成0.0了,當(dāng)然這個(gè)填充值是可以選擇的,具體文檔見(jiàn)
pandas.to_numeric - pandas 0.22.0 documentation

Pandas中的to_datetime()函數(shù)可以把單獨(dú)的year、month、day三列合并成一個(gè)單獨(dú)的時(shí)間戳。

pd.to_datetime(data[['day', 'month', 'year']])

完成數(shù)據(jù)列的替換

data['new_date'] = pd.to_datetime(data[['day', 'month', 'year']]) #新產(chǎn)生的一列數(shù)據(jù)
data['所屬組'] = pd.to_numeric(data['所屬組'], errors='coerce').fillna(0)

到這里所有的數(shù)據(jù)列都轉(zhuǎn)換完畢,最終的數(shù)據(jù)顯示:


在讀取數(shù)據(jù)時(shí)就對(duì)數(shù)據(jù)類(lèi)型進(jìn)行轉(zhuǎn)換,一步到位

data2 = pd.read_csv("data.csv",
   converters={
    '客戶編號(hào)': str,
    '2016': convert_currency,
    '2017': convert_currency,
    '增長(zhǎng)率': convert_percent,
    '所屬組': lambda x: pd.to_numeric(x, errors='coerce'),
    '狀態(tài)': lambda x: np.where(x == "Y", True, False)
    },
   encoding='gbk')

在這里也體現(xiàn)了使用自定義函數(shù)比lambda表達(dá)式要方便很多。(大部分情況下lambda還是很簡(jiǎn)潔的,筆者自己也很喜歡使用)

總結(jié)

對(duì)數(shù)據(jù)集進(jìn)行操作的第一步是確保設(shè)置正確的數(shù)據(jù)類(lèi)型,然后才能進(jìn)行數(shù)據(jù)的分析、可視化等操作,Pandas提供了很多非常方便的函數(shù),有了這些函數(shù)那么對(duì)數(shù)據(jù)進(jìn)行分析將會(huì)是很方便的。

好了,以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問(wèn)大家可以留言交流,謝謝大家對(duì)腳本之家的支持。

相關(guān)文章

最新評(píng)論