Python數(shù)據(jù)分析:pandas中Dataframe的groupby與索引用法

更新時(shí)間：2024年02月22日 10:15:08 作者：圖靈的貓.

這篇文章主要介紹了pandas中Dataframe的groupby與索引用法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

索引

Series和DataFrame都是有索引的，索引的好處是快速定位，在涉及到兩個(gè)Series或DataFrame時(shí)可以根據(jù)索引自動(dòng)對(duì)齊，比如日期自動(dòng)對(duì)齊，這樣可以省去很多事。

缺失值

pd.isnull(obj)
obj.isnull()

將字典轉(zhuǎn)成數(shù)據(jù)框，并賦予列名,索引

DataFrame(data, columns=['col1','col2','col3'...],
            index = ['i1','i2','i3'...])

查看列名

DataFrame.columns

查看索引

DataFrame.index

重建索引

obj.reindex(['a','b','c','d','e'...], fill_value=0]
#按給出的索引順序重新排序，而不是替換索引。如果索引沒(méi)有值，就用0填充
 
#就地修改索引
data.index=data.index.map(str.upper)

列順序重排（也是重建索引）

DataFrame.reindex[columns=['col1','col2','col3'...])`
 
#也可以同時(shí)重建index和columns
 
DataFrame.reindex[index=['a','b','c'...],columns=['col1','col2','col3'...])

重建索引的快捷鍵

DataFrame.ix[['a','b','c'...],['col1','col2','col3'...]]

重命名軸索引

data.rename(index=str.title,columns=str.upper)
 
#修改某個(gè)索引和列名，可以通過(guò)傳入字典
data.rename(index={'old_index':'new_index'},
            columns={'old_col':'new_col'})

查看某一列

DataFrame['state'] 或 DataFrame.state

查看某一行

需要用到索引

DataFrame.ix['index_name']

添加或刪除一列

DataFrame['new_col_name'] = 'char_or_number'
#刪除行
DataFrame.drop(['index1','index2'...])
#刪除列
DataFrame.drop(['col1','col2'...],axis=1)
#或
del DataFrame['col1']

DataFrame選擇子集

類型	說(shuō)明
obj[val]	選擇一列或多列
obj.ix[val]	選擇一行或多行
obj.ix[:,val]	選擇一列或多列
obj.ix[val1,val2]	同時(shí)選擇行和列
reindx	對(duì)行和列重新索引
icol,irow	根據(jù)整數(shù)位置選取單列或單行
get_value,set_value	根據(jù)行標(biāo)簽和列標(biāo)簽選擇單個(gè)值

針對(duì)series

obj[['a','b','c'...]]
obj['b':'e']=5

針對(duì)dataframe

#選擇多列
dataframe[['col1','col2'...]]
 
#選擇多行
dataframe[m:n]
 
#條件篩選
dataframe[dataframe['col3'>5]]
 
#選擇子集
dataframe.ix[0:3,0:5]

dataframe和series的運(yùn)算

會(huì)根據(jù) index 和 columns 自動(dòng)對(duì)齊然后進(jìn)行運(yùn)算，很方便啊

方法	說(shuō)明
add	加法
sub	減法
div	除法
mul	乘法

#沒(méi)有數(shù)據(jù)的地方用0填充空值
df1.add(df2,fill_value=0)
 
# dataframe 與 series 的運(yùn)算
dataframe - series
規(guī)則是：
--------   --------  |
|      |   |      |  |
|      |   --------  |
|      |             |
|      |             v
--------
#指定軸方向
dataframe.sub(series,axis=0)
規(guī)則是：
--------   ---  
|      |   | |   ----->
|      |   | | 
|      |   | | 
|      |   | | 
--------   ---

apply函數(shù)

f=lambda x:x.max()-x.min()
 
#默認(rèn)對(duì)每一列應(yīng)用
dataframe.apply(f)
 
#如果需要對(duì)每一行分組應(yīng)用
dataframe.apply(f,axis=1)

排序和排名

#默認(rèn)根據(jù)index排序，axis = 1 則根據(jù)columns排序
dataframe.sort_index(axis=0, ascending=False)
 
# 根據(jù)值排序
dataframe.sort_index(by=['col1','col2'...])
 
#排名，給出的是rank值
 
series.rank(ascending=False)
#如果出現(xiàn)重復(fù)值，則取平均秩次
 
#在行或列上面的排名
dataframe.rank(axis=0)

描述性統(tǒng)計(jì)

方法	說(shuō)明
count	計(jì)數(shù)
describe	給出各列的常用統(tǒng)計(jì)量
min,max	最大最小值
argmin,argmax	最大最小值的索引位置（整數(shù)）
idxmin,idxmax	最大最小值的索引值
quantile	計(jì)算樣本分位數(shù)
sum,mean	對(duì)列求和，均值
mediam	中位數(shù)
mad	根據(jù)平均值計(jì)算平均絕對(duì)離差
var,std	方差，標(biāo)準(zhǔn)差
skew	偏度（三階矩）
Kurt	峰度（四階矩）
cumsum	累積和
Cummins，cummax	累計(jì)組大致和累計(jì)最小值
cumprod	累計(jì)積
diff	一階差分
pct_change	計(jì)算百分?jǐn)?shù)變化

唯一值，值計(jì)數(shù)，成員資格

obj.unique()
obj.value_count()
obj.isin(['b','c'])

處理缺失值

# 過(guò)濾缺失值
 
# 只要有缺失值就丟棄這一行
dataframe.dropna()
#要求全部為缺失才丟棄這一行
dataframe.dropna(how='all')
# 根據(jù)列來(lái)判斷
dataframe.dropna(how='all',axis=1)
 
# 填充缺失值
 
#1.用0填充
df.fillna(0)
 
#2.不同的列用不同的值填充
df.fillna({1:0.5, 3:-1})
 
#3.用均值填充
df.fillna(df.mean())
 
# 此時(shí)axis參數(shù)同前面

Groupby

pandas提供了一個(gè)靈活高效的groupby功能，它使你能以一種自然的方式對(duì)數(shù)據(jù)集進(jìn)行切片、切塊、摘要等操作。

根據(jù)一個(gè)或多個(gè)鍵（可以是函數(shù)、數(shù)組或DataFrame列名）拆分pandas對(duì)象。

計(jì)算分組摘要統(tǒng)計(jì)，如計(jì)數(shù)、平均值、標(biāo)準(zhǔn)差，或用戶自定義函數(shù)。對(duì)DataFrame的列應(yīng)用各種各樣的函數(shù)。

應(yīng)用組內(nèi)轉(zhuǎn)換或其他運(yùn)算，如規(guī)格化、線性回歸、排名或選取子集等。計(jì)算透視表或交叉表。執(zhí)行分位數(shù)分析以及其他分組分析。

1）查看DataFrame數(shù)據(jù)及屬性

df_obj = DataFrame() #創(chuàng)建DataFrame對(duì)象
df_obj.dtypes #查看各行的數(shù)據(jù)格式
df_obj['列名'].astype(int)#轉(zhuǎn)換某列的數(shù)據(jù)類型
df_obj.head() #查看前幾行的數(shù)據(jù),默認(rèn)前5行
df_obj.tail() #查看后幾行的數(shù)據(jù),默認(rèn)后5行
df_obj.index #查看索引
df_obj.columns #查看列名
df_obj.values #查看數(shù)據(jù)值
df_obj.describe() #描述性統(tǒng)計(jì)
df_obj.T #轉(zhuǎn)置
df_obj.sort_values(by=['',''])#同上

2）使用DataFrame選擇數(shù)據(jù):

df_obj.ix[1:3] #獲取1-3行的數(shù)據(jù),該操作叫切片操作,獲取行數(shù)據(jù)
df_obj.ix[columns_index] #獲取列的數(shù)據(jù)
df_obj.ix[1:3，[1,3]]#獲取1列3列的1~3行數(shù)據(jù)
df_obj[columns].drop_duplicates() #剔除重復(fù)行數(shù)據(jù)

3）使用DataFrame重置數(shù)據(jù):

df_obj.ix[1:3，[1,3]]=1#所選位置數(shù)據(jù)替換為1

4）使用DataFrame篩選數(shù)據(jù)(類似SQL中的WHERE):

alist = ['023-18996609823']
df_obj['用戶號(hào)碼'].isin(alist) #將要過(guò)濾的數(shù)據(jù)放入字典中,使用isin對(duì)數(shù)據(jù)進(jìn)行篩選,返回行索引以及每行篩選的結(jié)果,若匹配則返回ture
df_obj[df_obj['用戶號(hào)碼'].isin(alist)] #獲取匹配結(jié)果為ture的行

5）使用DataFrame模糊篩選數(shù)據(jù)(類似SQL中的LIKE):

df_obj[df_obj['套餐'].str.contains(r'.*?語(yǔ)音CDMA.*')] #使用正則表達(dá)式進(jìn)行模糊匹配,*匹配0或無(wú)限次,?匹配0或1次

6）使用DataFrame進(jìn)行數(shù)據(jù)轉(zhuǎn)換(后期補(bǔ)充說(shuō)明)

df_obj['支局_維護(hù)線'] = df_obj['支局_維護(hù)線'].str.replace('巫溪分公司(.{2,})支局','\\1')#可以使用正則表達(dá)式

可以設(shè)置take_last=ture 保留最后一個(gè)，或保留開(kāi)始一個(gè)。

補(bǔ)充說(shuō)明：注意take_last=ture已過(guò)時(shí)，請(qǐng)使用keep=’last’

7）使用pandas中讀取數(shù)據(jù):

read_csv('D:\LQJ.csv',sep=';',nrows=2) #首先輸入csv文本地址,然后分割符選擇等等
df.to_excel('foo.xlsx',sheet_name='Sheet1');pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])#寫(xiě)入讀取excel數(shù)據(jù)，pd.read_excel讀取的數(shù)據(jù)是以DataFrame形式存儲(chǔ)
df.to_hdf('foo.h5','df');pd.read_hdf('foo.h5','df')#寫(xiě)入讀取HDF5數(shù)據(jù)

8）使用pandas聚合數(shù)據(jù)(類似SQL中的GROUP BY 或HAVING):

data_obj['用戶標(biāo)識(shí)'].groupby(data_obj['支局_維護(hù)線'])
data_obj.groupby('支局_維護(hù)線')['用戶標(biāo)識(shí)'] #上面的簡(jiǎn)單寫(xiě)法
adsl_obj.groupby('支局_維護(hù)線')['用戶標(biāo)識(shí)'].agg([('ADSL','count')])#按支局進(jìn)行匯總對(duì)用戶標(biāo)識(shí)進(jìn)行計(jì)數(shù),并將計(jì)數(shù)列的列名命名為ADSL

9）使用pandas合并數(shù)據(jù)集(類似SQL中的JOIN):

merge(mxj_obj2, mxj_obj1 ,on='用戶標(biāo)識(shí)',how='inner')# mxj_obj1和mxj_obj2將用戶標(biāo)識(shí)當(dāng)成重疊列的鍵合并兩個(gè)數(shù)據(jù)集,inner表示取兩個(gè)數(shù)據(jù)集的交集.

10）清理數(shù)據(jù)

df[df.isnull()]
df[df.notnull()]
df.dropna()#將所有含有nan項(xiàng)的row刪除
df.dropna(axis=1,thresh=3) #將在列的方向上三個(gè)為NaN的項(xiàng)刪除
df.dropna(how='ALL')#將全部項(xiàng)都是nan的row刪除填充值
df.fillna(0)
df.fillna({1:0,2:0.5}) #對(duì)第一列nan值賦0，第二列賦值0.5
df.fillna(method='ffill') #在列方向上以前一個(gè)值作為值賦給NaN

實(shí)例

1. 讀取excel數(shù)據(jù)

代碼如下

import pandas as pd# 讀取高爐數(shù)據(jù)，注意文件名不能為中文
data=pd.read_excel('gaolushuju_201501-03.xlsx', '201501', index_col=None, na_values=['NA'])
print data

測(cè)試結(jié)果如下

      燃料比  頂溫西南  頂溫西北  頂溫東南  頂溫東北
0   531.46   185   176   176   174
1   510.35   184   173   184   188
2   533.49   180   165   182   177
3   511.51   190   172   179   188
4   531.02   180   167   173   180
5   511.24   174   164   178   176
6   532.62   173   170   168   179
7   583.00   182   175   176   173
8   530.70   158   149   159   156
9   530.32   168   156   169   171
10  528.62   164   150   171   169

2. 切片處理，選取行或列，修改數(shù)據(jù)

代碼如下：

data_1row=data.ix[1]
data_5row_2col=data.ix[0:5,[u'燃料比',u'頂溫西南']
print data_1row,data_5row_2col
data_5row_2col.ix[0:1,0:2]=3

測(cè)試結(jié)果如下：

燃料比     510.35
頂溫西南    184.00
頂溫西北    173.00
頂溫東南    184.00
頂溫東北    188.00
Name: 1, dtype: float64    
   燃料比  頂溫西南
0  531.46   185
1  510.35   184
2  533.49   180
3  511.51   190
4  531.02   180
5  511.24   174
      燃料比  頂溫西南
0    3.00     3
1    3.00     3
2  533.49   180
3  511.51   190
4  531.02   180
5  511.24   174

格式說(shuō)明，data_5row_2col.ix[0:1,0:2]，data_5row_2col.ix[0:1,[0,2]],選取部分行和列需加”[]”

3. 排序

代碼如下：

print data_1row.sort_values()
print data_5row_2col.sort_values(by=u'燃料比')

測(cè)試結(jié)果如下：

頂溫西北    173.00
頂溫西南    184.00
頂溫東南    184.00
頂溫東北    188.00
燃料比     510.35
Name: 1, dtype: float64
      燃料比  頂溫西南
1  510.35   184
5  511.24   174
3  511.51   190
4  531.02   180
0  531.46   185
2  533.49   180

4. 刪除重復(fù)的行

代碼如下：

print data_5row_2col[u'頂溫西南'].drop_duplicates()#剔除重復(fù)行數(shù)據(jù)

測(cè)試結(jié)果如下：

0    185
1    184
2    180
3    190
5    174
Name: 頂溫西南, dtype: int64

說(shuō)明：從測(cè)試結(jié)果3中可以看出頂溫西南index=2的數(shù)據(jù)與index=4的數(shù)據(jù)重復(fù)，測(cè)試結(jié)果4顯示將index=4的頂溫西南數(shù)據(jù)刪除

總結(jié)

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python數(shù)據(jù)分析:pandas中Dataframe的groupby與索引用法

目錄

索引

Groupby

實(shí)例

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具