DataFrame是pandas最常用的對象,其類似于excel中的表格,完成數(shù)據(jù)讀取后,數(shù)據(jù)就以DataFrame數(shù)據(jù)結(jié)構(gòu)存儲在內(nèi)存中,下面這篇文章主要給大家介紹了關(guān)于Pandas中DataFrame常用操作的相關(guān)資料,需要的朋友可以參考下

前言

Pandas是Python下一個(gè)開源數(shù)據(jù)分析的庫，它提供的數(shù)據(jù)結(jié)構(gòu)DataFrame極大的簡化了數(shù)據(jù)分析過程中一些繁瑣操作。

1. 基本使用：

創(chuàng)建DataFrame. DataFrame是一張二維的表，大家可以把它想象成一張Excel表單或者Sql表。

Excel 2007及其以后的版本的最大行數(shù)是1048576，最大列數(shù)是16384，超過這個(gè)規(guī)模的數(shù)據(jù)Excel就會彈出個(gè)框框“此文本包含多行文本，無法放置在一個(gè)工作表中”。

Pandas處理上千萬的數(shù)據(jù)是易如反掌的sh事情，同時(shí)隨后我們也將看到它比SQL有更強(qiáng)的表達(dá)能力，可以做很多復(fù)雜的操作，要寫的code也更少。說了一大堆它的好處，要實(shí)際感觸還得動手碼代碼。

首要的任務(wù)就是創(chuàng)建一個(gè)DataFrame，它有幾種創(chuàng)建方式：

列表，序列(pandas.Series), numpy.ndarray的字典
二維numpy.ndarray
別的DataFrame
結(jié)構(gòu)化的記錄(structured arrays)

其中，我最喜歡的是通過二維ndarray創(chuàng)建DataFrame，因?yàn)榇a敲得最少：

import  pandas as pd
import  numpy as np
df = pd.DataFrame(np.random.randn( 3 , 4 ))
df
0 1 2 3
0 0.236175 - 0.394792 - 0.171866 0.304012
1 0.651926 0.989046 0.160389 0.482936
2 - 1.039824 0.401105 - 0.492714 - 1.220438

當(dāng)然你還可以從mysql數(shù)據(jù)庫或者csv文件中載入數(shù)據(jù)到dataframe。

dataframe中index用來標(biāo)識行，column標(biāo)識列，shape表示維度。

# 獲得行索引信息
df.index
# 獲得列索引信息
df.columns
# 獲得df的size
df.shape
# 獲得df的行數(shù)
df.shape[0]
# 獲得df的 列數(shù)
df.shape[1]
# 獲得df中的值
df.values

通過describe方法，我們可以對df中的數(shù)據(jù)有個(gè)大概的了解：

df.describe()
0 1 2 3
count 3.000000 3.000000 3.000000 3.000000
mean - 0.050574 0.331786 - 0.168064 - 0.144496
std 0.881574 0.694518 0.326568 0.936077
min - 1.039824 - 0.394792 - 0.492714 - 1.220438
25 % - 0.401824 0.003156 - 0.332290 - 0.458213
50 % 0.236175 0.401105 - 0.171866 0.304012
75 % 0.444051 0.695076 - 0.005739 0.393474
max 0.651926 0.989046 0.160389 0.482936

2. 數(shù)據(jù)select, del, update。

按照列名select:

df[ 0 ]
 
0 0.236175
1 0.651926
2 - 1.039824

按照行數(shù)select:

df[: 3 ] #選取前3行

按照索引select:

df.loc[ 0 ]
 
0 0.236175
1 - 0.394792
2 - 0.171866
3 0.304012

按照行數(shù)和列數(shù)select:

df.iloc[ 3 ] #選取第3行
df.iloc[ 2 : 4 ] #選取第2到第3行
df.iloc[ 0 , 1 ] #選取第0行1列的元素
dat.iloc[: 2 , : 3 ] #選取第0行到第1行，第0列到第2列區(qū)域內(nèi)的元素
df1.iloc[[1,3,5],[1,3]] #選取第1，3，5行，第1，3列區(qū)域內(nèi)的元素

刪除某列：

del df[0]
df
1 2 3
0 - 0.394792 - 0.171866 0.304012
1 0.989046 0.160389 0.482936
2 0.401105 - 0.492714 - 1.220438

刪除某行：

5
df.drop(0)
 
1 2 3
1 0.989046 0.160389 0.482936
2 0.401105 - 0.492714 - 1.220438

3.運(yùn)算。

基本運(yùn)算：

df[ 4 ] = df[ 1 ] + df[ 2 ]
 
1 2 3 4
0 - 0.394792 - 0.171866 0.304012 - 0.566659
1 0.989046 0.160389 0.482936 1.149435
2 0.401105 - 0.492714 - 1.220438 - 0.091609

map運(yùn)算，和python中的map有些類似：

df[ 4 ]. map ( int )
0 0
1 1
2 0

apply運(yùn)算：

df. apply ( sum )
 
1 0.995359
2 - 0.504192
3 - 0.433489
4 0.491167

4. Group by 操作。

pandas中的group by 操作是我的最愛，不用把數(shù)據(jù)導(dǎo)入excel或者mysql就可以進(jìn)行靈活的group by 操作，簡化了分析過程。

df[ 0 ] = [ 'A' , 'A' , 'B' ]
df
 
1 2 3 4 0
0 - 0.394792 - 0.171866 0.304012 - 0.566659 A
1 0.989046 0.160389 0.482936 1.149435 A
2 0.401105 - 0.492714 - 1.220438 - 0.091609 B
 
g = df.groupby([ 0 ])
 
g.size()
 
A 2
B 1
 
g. sum ()
 
1 2 3 4
0
A 0.594254 - 0.011478 0.786948 0.582776
B 0.401105 - 0.492714 - 1.220438 - 0.091609

5. 導(dǎo)出到csv文件

dataframe可以使用to_csv方法方便地導(dǎo)出到csv文件中，如果數(shù)據(jù)中含有中文，一般encoding指定為”utf-8″,否則導(dǎo)出時(shí)程序會因?yàn)椴荒茏R別相應(yīng)的字符串而拋出異常，index指定為False表示不用導(dǎo)出dataframe的index數(shù)據(jù)。

df.to_csv(file_path, encoding='utf-8', index=False)
df.to_csv(file_path, index=False)

總結(jié)

到此這篇關(guān)于Pandas中DataFrame操作的文章就介紹到這了,更多相關(guān)Pandas DataFrame操作內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Pandas中DataFrame常用操作指南

目錄

前言

1. 基本使用：

2. 數(shù)據(jù)select, del, update。

3.運(yùn)算。

4. Group by 操作。

5. 導(dǎo)出到csv文件

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Pandas中DataFrame常用操作指南

目錄

前言

1. 基本使用：

2. 數(shù)據(jù)select, del, update。

3.運(yùn)算。

4. Group by 操作。

5. 導(dǎo)出到csv文件

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

3.運(yùn)算。

4. Group by 操作。