欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)

 更新時(shí)間:2016年08月22日 09:06:00   投稿:daisy  
數(shù)據(jù)提取是分析師日常工作中經(jīng)常遇到的需求。如某個(gè)用戶的貸款金額,某個(gè)月或季度的利息總收入,某個(gè)特定時(shí)間段的貸款金額和筆數(shù),大于5000元的貸款數(shù)量等等。本篇文章介紹如何通過python按特定的維度或條件對數(shù)據(jù)進(jìn)行提取,完成數(shù)據(jù)提取需求。

準(zhǔn)備工作

首先是準(zhǔn)備工作,導(dǎo)入需要使用的庫,讀取并創(chuàng)建數(shù)據(jù)表取名為loandata。

import numpy as np
import pandas as pd
loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))

設(shè)置索引字段

在開始提取數(shù)據(jù)前,先將member_id列設(shè)置為索引字段。然后開始提取數(shù)據(jù)。

Loandata = loandata.set_index('member_id')

按行提取信息

第一步是按行提取數(shù)據(jù),例如提取某個(gè)用戶的信息。下面使用ix函數(shù)對member_id為1303503的用戶信息進(jìn)行了提取。

loandata.ix[1303503]

按列提取信息

第二步是按列提取數(shù)據(jù),例如提取用戶工作年限列的所有信息,下面是具體的代碼和提取結(jié)果,顯示了所有用戶的工作年齡信息。

loandata.ix[:,'emp_length']

按行與列提取信息

第三步是按行和列提取信息,把前面兩部的查詢條件放在一起,查詢特定用戶的特定信息,下面是查詢member_id為1303503的用戶的emp_length信息。

loandata.ix[1303503,'emp_length']

在前面的基礎(chǔ)上繼續(xù)增加條件,增加一行同時(shí)查詢兩個(gè)特定用戶的貸款金額信息。具體代碼和查詢結(jié)果如下。結(jié)果中分別列出了兩個(gè)用戶的代碼金額。

loandata.ix[[1303503,1298717],'loan_amnt']

在前面的代碼后增加sum函數(shù),對結(jié)果進(jìn)行求和,同樣是查詢兩個(gè)特定用戶的貸款進(jìn)行,下面的結(jié)果中直接給出了貸款金額的匯總值。

loandata.ix[[1303503,1298717],'loan_amnt'].sum()

除了增加行的查詢條件以外,還可以增加列的查詢條件,下面的代碼中查詢了一個(gè)特定用戶的貸款金額和年收入情況,結(jié)果中分別顯示了這兩個(gè)字段的結(jié)果。

loandata.ix[1303503,['loan_amnt','annual_inc']]

多個(gè)列的查詢也可以進(jìn)行求和計(jì)算,在前面的代碼后增加sum函數(shù),對這個(gè)用戶的貸款金額和年收入兩個(gè)字段求和,并顯示出結(jié)果。

loandata.ix[1303503,['loan_amnt','annual_inc']].sum()


提取特定日期的信息

數(shù)據(jù)提取中還有一種很常見的需求就是按日期維度對數(shù)據(jù)進(jìn)行匯總和提取,如按月,季度的匯總數(shù)據(jù)提取和按特定時(shí)間段的數(shù)據(jù)提取等等。

設(shè)置索引字段

首先將索引字段改為數(shù)據(jù)表中的日期字段,這里將issue_d設(shè)置為數(shù)據(jù)表的索引字段。按日期進(jìn)行查詢和數(shù)據(jù)提取。

loandata = loandata.set_index('issue_d')

按日期提取信息

下面的代碼查詢了所有2016年的數(shù)據(jù)。

loandata['2016']

在前面代碼的基礎(chǔ)上增加月份,查詢所有2016年3月的數(shù)據(jù)。

loandata['2016-03']

繼續(xù)在前面代碼的基礎(chǔ)上增加日期,查詢所有2016年6月16日的數(shù)據(jù)。

loandata['2016-06-16']


除了按單獨(dú)日期查詢以外,還可以按日期段進(jìn)行數(shù)據(jù)查詢,下面的代碼中查詢了所有2016年1月至5月的數(shù)據(jù)。下面顯示了具體的查詢結(jié)果,可以發(fā)現(xiàn)數(shù)據(jù)的日期都是在1-5月的,但是按日期維度顯示的,這就需要我們對數(shù)據(jù)按月進(jìn)行匯總。

loandata['2016-01':'2016-05']

按日期匯總信息

Pandas中的resample函數(shù)可以完成日期的聚合工作,包括按小時(shí)維度,日期維度,月維度,季度及年的維度等等。下面我們分別說明。首先是按周的維度對前面數(shù)據(jù)表的數(shù)據(jù)進(jìn)行求和。下面的代碼中W表示聚合方式是按周,how表示數(shù)據(jù)的計(jì)算方式,默認(rèn)是計(jì)算平均值,這里設(shè)置為sum,進(jìn)行求和計(jì)算。

loandata.resample('W',how=sum).head(10)

將W改為M,數(shù)據(jù)變成了按月聚合的方式。計(jì)算方式依然是求和。這里需要說明的是resample函數(shù)會顯示出所有連續(xù)的時(shí)間段,例如前面按周的聚合操作會顯示連續(xù)的周日期,這里的按月操作則會在結(jié)果中顯示連續(xù)的月,如果某個(gè)時(shí)間段沒有數(shù)據(jù),會以NaN值顯示。

loandata.resample('M',how=sum)

將前面代碼中的M改為Q,則為按季度對數(shù)據(jù)進(jìn)行聚合,計(jì)算方式依然為求和。從下面的數(shù)據(jù)表中看,日期顯示的都是每個(gè)季度的最后一天,如果希望以每個(gè)季度的第一天顯示,可以改為QS。

loandata.resample('Q',how=sum)

將前面代碼中的Q改為A,就是按年對數(shù)據(jù)進(jìn)行聚合,計(jì)算方式依然為求和。

loandata.resample('A',how=sum)

前面的方法都是對整個(gè)數(shù)據(jù)表進(jìn)行聚合和求和操作,如果只需要對某一個(gè)字段的值進(jìn)行聚合和求和,可以在數(shù)據(jù)表后增加列的名稱。下面是將貸款金額字段按月聚合后求和,并用0填充空值。

loandata['loan_amnt'].resample('M',how=sum).fillna(0)

在前面代碼的基礎(chǔ)上再增加一個(gè)數(shù)值字段,并且在后面的計(jì)算方式中增加len用來計(jì)數(shù)。在下面的結(jié)果中分別對貸款金額和利息收入按月聚合,并進(jìn)行求和和計(jì)數(shù)計(jì)算

loandata[['loan_amnt','total_rec_int']].resample('M',how=[len,sum])

有時(shí)我們需要只對某一時(shí)間段的數(shù)據(jù)進(jìn)行聚合和計(jì)算,下面的代碼中對2016年1月至5月的數(shù)據(jù)按月進(jìn)行了聚合,并計(jì)算求和。用0填充空值。

loandata['2016-01':'2016-05'].resample('M',how=sum).fillna(0)

或者只對某些符合條件的數(shù)據(jù)進(jìn)行聚合和計(jì)算。下面的代碼中對于貸款金額大于5000的按月進(jìn)行聚合,并計(jì)算求和??罩狄?進(jìn)行填充。

loandata[loandata['loan_amnt']>5000].resample('M',how=sum).fillna(0)

除了按周,月,季度和年以外,resample函數(shù)還可以按以下方式對日期進(jìn)行聚合。

下面給出了具體的對應(yīng)表和說明。

 

總結(jié)

以上就是利用python按特定的維度或條件對數(shù)據(jù)進(jìn)行提取的全部內(nèi)容,希望本文的內(nèi)容對大家學(xué)習(xí)使用Python能有所幫助。

相關(guān)文章

  • Python3中的map函數(shù)調(diào)用后內(nèi)存釋放問題

    Python3中的map函數(shù)調(diào)用后內(nèi)存釋放問題

    這篇文章主要介紹了Python3中的map函數(shù)調(diào)用后內(nèi)存釋放問題,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • Python Numpy計(jì)算各類距離的方法

    Python Numpy計(jì)算各類距離的方法

    這篇文章主要介紹了Python Numpy計(jì)算各類距離的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • Python中斷點(diǎn)調(diào)試pdb包的用法詳解

    Python中斷點(diǎn)調(diào)試pdb包的用法詳解

    pdb(python debugger) 是 python 中的一個(gè)命令行調(diào)試包,為 python 程序提供了一種交互的源代碼調(diào)試功能,下面就跟隨小編一起學(xué)習(xí)一下它的具體使用吧
    2024-01-01
  • python實(shí)現(xiàn)對svn操作及信息獲取

    python實(shí)現(xiàn)對svn操作及信息獲取

    這篇文章主要介紹了python實(shí)現(xiàn)對svn的操作及信息獲取示例過程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步
    2021-10-10
  • Python flask與fastapi性能測試方法介紹

    Python flask與fastapi性能測試方法介紹

    這篇文章主要介紹了Python flask與fastapi性能測試方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧
    2022-12-12
  • 淺析Python中的套接字編程

    淺析Python中的套接字編程

    不可否認(rèn),互聯(lián)網(wǎng)已成為“存在之魂”,其活動以“連接”或“網(wǎng)絡(luò)”為特征。使用套接字的最關(guān)鍵的基礎(chǔ)之一,使這些網(wǎng)絡(luò)成為可能。本文涵蓋了有關(guān)使用Python進(jìn)行套接字編程的所有領(lǐng)域。套接字可以幫助您建立這些連接,而Python無疑可以簡化連接
    2021-06-06
  • Python中免驗(yàn)證跳轉(zhuǎn)到內(nèi)容頁的實(shí)例代碼

    Python中免驗(yàn)證跳轉(zhuǎn)到內(nèi)容頁的實(shí)例代碼

    在本篇文章里小編給大家整理的是一篇關(guān)于Python中免驗(yàn)證跳轉(zhuǎn)到內(nèi)容頁的實(shí)例代碼,有興趣的朋友們可以學(xué)習(xí)分享下。
    2020-10-10
  • Python中的getattr、__getattr__、__getattribute__、__get__詳解

    Python中的getattr、__getattr__、__getattribute__、__get__詳解

    這篇文章主要為大家介紹了Python中的getattr,__getattr__,__getattribute__和__get__,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2021-12-12
  • Python輸出指定字符串的方法

    Python輸出指定字符串的方法

    這篇文章主要介紹了Python輸出指定字符串的完整代碼,代碼簡單易懂,非常不錯,具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-02-02
  • python繪圖如何自定義x軸

    python繪圖如何自定義x軸

    這篇文章主要介紹了python繪圖如何自定義x軸問題,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-09-09

最新評論