快捷導航

python中DataFrame常用的描述性統(tǒng)計分析方法詳解

更新時間：2023年07月07日 10:44:09 作者：侯小啾

這篇文章主要介紹了python中DataFrame常用的描述性統(tǒng)計分析方法詳解,描述性統(tǒng)計分析是通過圖表或數(shù)學方法，對數(shù)據(jù)資料進行整理、分析，并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機變量之間的關(guān)系進行估計和描述的方法,需要的朋友可以參考下

DataFrame常用描述性統(tǒng)計分析方法

sum() 求和

使用sum()方法對DataFrame對象求和。
其中**set_option(‘display.unicode.east_asian_width’, True)**可以使顯示的DataFrame值與列名對齊。
sum有axis參數(shù)，默認為0，表示對列求和

設(shè)置為1表示對行求和。
也可以設(shè)置 skipna參數(shù)，改參數(shù)默認為True，表示不考慮缺失值，如果是False則表示考慮缺失值，當存在缺失值時，則對應(yīng)的結(jié)果表示為Nan。
（布爾類型的參數(shù)值，當傳入為其它類型的值時，也解讀為該值的布爾值）

這里對示例數(shù)據(jù)的行求和，然后生成一個新的列添加在數(shù)據(jù)中。

import pandas as pd
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]
index = [1, 2, 3]
columns = ['語文', '數(shù)學', '英語']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("================================")
# 增加一列
df['總成績'] = df.sum(axis=1, skipna=1)
print(df)

程序運行結(jié)果如下：

在這里插入圖片描述

mean() 求平均值

這里對生成數(shù)據(jù)的每一列求平均值，然后作為一個新的行增加給原數(shù)據(jù)。

通過示例可以看到，當原數(shù)據(jù)中存在空值時，計算均值時分子和分母都不計入該數(shù)據(jù)。即mean()求的是非空數(shù)據(jù)的平均值。

import pandas as pd
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
index = [1, 2, 3, 4]
columns = ['語文', '數(shù)學', '英語']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("================================")
new = df.mean()
# 增加一行數(shù)據(jù)（語文、數(shù)學和英語的平均值,忽略索引）
df = df.append(new, ignore_index=True)
print(df)

在這里插入圖片描述

關(guān)于DataFrame的append()方法

DataFrame增添一行可以使用append()方法。設(shè)置參數(shù)，ignore_index=True可以忽略掉索引。

當在DataFrame后邊追加的對象為Series時，必須把ignore_index設(shè)為True，或者除非Serise有name屬性。 當追加多列時，設(shè)置ignore_index為True可以避免出現(xiàn)索引值重復的異常事件。 此外DataFrame的append()方法在未來的版本即將被取消。將由concat替代。

max() 最大值 & min() 最小值

import pandas as pd
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]
index = [1, 2, 3]
columns = ['語文', '數(shù)學', '英語']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("================================")
df_max = df.max()
print(df_max)
print("================================")
df_min = df.min()
print(df_min)

在這里插入圖片描述

median() 中位數(shù)

import pandas as pd
data = [[110, 120, 110], [130, 130, 131], [115, 120, 130]]
columns = ['語文', '數(shù)學', '英語']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print("================================")
print(df.median())

在這里插入圖片描述

mode() 眾數(shù)

import pandas as pd
data = [[110, 120, 110], [130, 130, 130], [130, 120, 130]]
columns = ['語文', '數(shù)學', '英語']
df = pd.DataFrame(data=data, columns=columns)
print(df)
# 三科成績的眾數(shù)
print(df.mode())
# 每一行的眾數(shù)
print(df.mode(axis=1))
# “數(shù)學”的眾數(shù)
print(df['數(shù)學'].mode())

在這里插入圖片描述

var() 方差

import pandas as pd
data = [[110, 113, 102, 105, 108], [118, 98, 119, 85, 118]]
index = ['小黑', '小白']
columns = ['物理1', '物理2', '物理3', '物理4', '物理5']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("========================================")
print(df.var(axis=1))

在這里插入圖片描述

std() 標準差

import pandas as pd
data = [[110, 120, 110], [130, 130, 130], [130, 120, 130]]
columns = ['語文', '數(shù)學', '英語']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print("=============================")
print(df.std())

在這里插入圖片描述

quantile() 分位數(shù)

以35%分位數(shù)為例

import pandas as pd
# 創(chuàng)建DataFrame數(shù)據(jù)（數(shù)學成績）
data = [120, 89, 98, 78, 65, 102, 112, 56, 79, 45]
columns = ['數(shù)學']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print("============================")
# 計算35%的分位數(shù)
x = df['數(shù)學'].quantile(0.35)
# 輸出淘汰學生
print(df[df['數(shù)學'] <= x])

在這里插入圖片描述

關(guān)于其他數(shù)據(jù)類型，如Timestamp，也可以使用分位數(shù)quantile()方法。

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame({'A': [1, 2],
                   'B': [pd.Timestamp('2019'),
                         pd.Timestamp('2020')],
                   'C': [pd.Timedelta('1 days'),
                         pd.Timedelta('2 days')]})
print(df)
print("==============================")
print(df.quantile(0.5, numeric_only=False))

在這里插入圖片描述