Pandas的Apply函數(shù)具體使用
Pandas最好用的函數(shù)
Pandas是Python語言中非常好用的一種數(shù)據(jù)結構包,包含了許多有用的數(shù)據(jù)操作方法。而且很多算法相關的庫函數(shù)的輸入數(shù)據(jù)結構都要求是pandas數(shù)據(jù),或者有該數(shù)據(jù)的接口。
仔細看pandas的API說明文檔,就會發(fā)現(xiàn)有好多有用的函數(shù),比如非常常用的文件的讀寫函數(shù)就包括如下函數(shù):
| Format Type | Data Description | Reader | Writer |
|---|---|---|---|
| text | CSV | read_csv | to_csv |
| text | JSON | read_json | to_json |
| text | HTML | read_html | to_html |
| text | Local clipboard | read_clipboard | to_clipboard |
| binary | MS Excel | read_excel | to_excel |
| binary | HDF5 Format | read_hdf | to_hdf |
| binary | Feather Format | read_feather | to_feather |
| binary | Parquet Format | read_parquet | to_parquet |
| binary | Msgpack | read_msgpack | to_msgpack |
| binary | Stata | read_stata | to_stata |
| binary | SAS | read_sas | |
| binary | Python Pickle Format | read_pickle | to_pickle |
| SQL | SQL | read_sql | to_sql |
| SQL | Google Big Query | read_gbq | to_gbq |
讀取數(shù)據(jù)后,對于數(shù)據(jù)處理來說,有好多有用的相關操作的函數(shù),但是我認為其中最好用的函數(shù)是下面這個函數(shù):
apply函數(shù)
apply函數(shù)是`pandas`里面所有函數(shù)中自由度最高的函數(shù)。該函數(shù)如下:
DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)
該函數(shù)最有用的是第一個參數(shù),這個參數(shù)是函數(shù),相當于C/C++的函數(shù)指針。
這個函數(shù)需要自己實現(xiàn),函數(shù)的傳入?yún)?shù)根據(jù)axis來定,比如axis = 1,就會把一行數(shù)據(jù)作為Series的數(shù)據(jù)結構傳入給自己實現(xiàn)的函數(shù)中,我們在函數(shù)中實現(xiàn)對Series不同屬性之間的計算,返回一個結果,則apply函數(shù)會自動遍歷每一行DataFrame的數(shù)據(jù),最后將所有結果組合成一個Series數(shù)據(jù)結構并返回。
比如讀取一個表格:

假如我們想要得到表格中的PublishedTime和ReceivedTime屬性之間的時間差數(shù)據(jù),就可以使用下面的函數(shù)來實現(xiàn):
import pandas as pd import datetime #用來計算日期差的包 def dataInterval(data1,data2): d1 = datetime.datetime.strptime(data1, '%Y-%m-%d') d2 = datetime.datetime.strptime(data2, '%Y-%m-%d') delta = d1 - d2 return delta.days def getInterval(arrLike): #用來計算日期間隔天數(shù)的調用的函數(shù) PublishedTime = arrLike['PublishedTime'] ReceivedTime = arrLike['ReceivedTime'] # print(PublishedTime.strip(),ReceivedTime.strip()) days = dataInterval(PublishedTime.strip(),ReceivedTime.strip()) #注意去掉兩端空白 return days if __name__ == '__main__': fileName = "NS_new.xls"; df = pd.read_excel(fileName) df['TimeInterval'] = df.apply(getInterval , axis = 1)
有時候,我們想給自己實現(xiàn)的函數(shù)傳遞參數(shù),就可以用的apply函數(shù)的*args和**kwds參數(shù),比如同樣的時間差函數(shù),我希望自己傳遞時間差的標簽,這樣沒次標簽更改就不用修改自己實現(xiàn)的函數(shù)了,實現(xiàn)代碼如下:
import pandas as pd
import datetime #用來計算日期差的包
def dataInterval(data1,data2):
d1 = datetime.datetime.strptime(data1, '%Y-%m-%d')
d2 = datetime.datetime.strptime(data2, '%Y-%m-%d')
delta = d1 - d2
return delta.days
def getInterval_new(arrLike,before,after): #用來計算日期間隔天數(shù)的調用的函數(shù)
before = arrLike[before]
after = arrLike[after]
# print(PublishedTime.strip(),ReceivedTime.strip())
days = dataInterval(after.strip(),before.strip()) #注意去掉兩端空白
return days
if __name__ == '__main__':
fileName = "NS_new.xls";
df = pd.read_excel(fileName)
df['TimeInterval'] = df.apply(getInterval_new ,
axis = 1, args = ('ReceivedTime','PublishedTime')) #調用方式一
#下面的調用方式等價于上面的調用方式
df['TimeInterval'] = df.apply(getInterval_new ,
axis = 1, **{'before':'ReceivedTime','after':'PublishedTime'}) #調用方式二
#下面的調用方式等價于上面的調用方式
df['TimeInterval'] = df.apply(getInterval_new ,
axis = 1, before='ReceivedTime',after='PublishedTime') #調用方式三
修改后的getInterval_new函數(shù)多了兩個參數(shù),這樣我們在使用apply函數(shù)的時候要自己傳遞參數(shù),代碼中顯示的三種傳遞方式都行。
最后,本篇的全部代碼在下面這個網頁可以下載:
https://github.com/Dongzhixiao/Python_Exercise/tree/master/pandas_apply
到此這篇關于Pandas的Apply函數(shù)具體使用的文章就介紹到這了,更多相關Pandas Apply函數(shù)內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
基于Python 的進程管理工具supervisor使用指南
Supervisor 是基于 Python 的進程管理工具,可以輕松管理一些需要以守護進程方式執(zhí)行的程序,也就是后臺任務,例如用來啟動和管理基于 Tornado 寫的 Web 程序。2016-09-09
Python中列表索引 A[ : 2 ]與A[ : ,&nb
這篇文章主要介紹了Python中列表索引 A[ : 2 ]與A[ : , 2]的區(qū)別說明,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-05-05
python中DataFrame常用的描述性統(tǒng)計分析方法詳解
這篇文章主要介紹了python中DataFrame常用的描述性統(tǒng)計分析方法詳解,描述性統(tǒng)計分析是通過圖表或數(shù)學方法,對數(shù)據(jù)資料進行整理、分析,并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機變量之間的關系進行估計和描述的方法,需要的朋友可以參考下2023-07-07
Python實現(xiàn)的銀行系統(tǒng)模擬程序完整案例
這篇文章主要介紹了Python實現(xiàn)的銀行系統(tǒng)模擬程序,結合完整實例形式分析了Python基于面向對象程序設計模擬的銀行系統(tǒng)登錄驗證、開戶、找回密碼、掛失、查詢、存取款、轉賬等功能相關操作技巧,需要的朋友可以參考下2019-04-04
手把手教你用Python打造互動式中秋節(jié)慶祝小程序
中秋節(jié)將至,本文提供了一個使用Python開發(fā)的中秋節(jié)慶祝小程序教程,通過簡單的步驟,您可以創(chuàng)建一個具有節(jié)日祝福、互動式燈謎游戲和模擬中秋明月動態(tài)背景的小程序,文章詳細介紹了程序的功能、實現(xiàn)步驟以及如何運行程序,需要的朋友可以參考下2024-09-09

