快捷導(dǎo)航

pandas中std和numpy的np.std區(qū)別及說(shuō)明

更新時(shí)間：2023年08月15日 14:54:52 作者：AML杰

這篇文章主要介紹了pandas中std和numpy的np.std區(qū)別及說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

pandas中std和numpy的std區(qū)別

pandas中Series.std的官方文檔
numpy中numpy.std的官方文檔

原理

計(jì)算標(biāo)準(zhǔn)差時(shí)，需要注意numpy中的std和pandas的std在計(jì)算標(biāo)準(zhǔn)差時(shí)，默認(rèn)的計(jì)算結(jié)果會(huì)存在不一致的問(wèn)題。

原因在于默認(rèn)情況下，

numpy計(jì)算的為總體標(biāo)準(zhǔn)偏差，ddof=0；一般在擁有所有數(shù)據(jù)的情況下，計(jì)算所有數(shù)據(jù)的標(biāo)準(zhǔn)差時(shí)使用，即最終除以n，而非n-1；
pandas計(jì)算的為樣本標(biāo)準(zhǔn)偏差，ddof=1；一般在只有部分?jǐn)?shù)據(jù)，但需要求得總體的標(biāo)準(zhǔn)差時(shí)使用，當(dāng)只有部分?jǐn)?shù)據(jù)時(shí)，根據(jù)統(tǒng)計(jì)規(guī)律，除以n時(shí)計(jì)算的標(biāo)準(zhǔn)差往往偏小，因此需要除以n-1，即n-ddof；

實(shí)際使用時(shí)需要注意，并且根據(jù)數(shù)據(jù)情況選擇合適的函數(shù)，在數(shù)據(jù)量較大時(shí)，推薦使用numpy進(jìn)行計(jì)算。

速度區(qū)別

速度由快到慢依次：

s1 = pd.Series([1,2,3,4,5])
#速度由快至慢
np.std(s1.values) > s1.std(ddof=0) > np.std(s1)

使用numpy和pandas計(jì)算平均值、方差、標(biāo)準(zhǔn)差

numpy和pandas都可以實(shí)現(xiàn)計(jì)算平均值、方差、標(biāo)準(zhǔn)差。

但numpy默認(rèn)的是總體方差，pandas默認(rèn)的樣本方差，即分母是n-1，是總體的無(wú)偏估計(jì)。

numpy的語(yǔ)法

# numpy計(jì)算方法
import numpy as np
x = [1,2,3,4,5]
# mean
mean = np.mean(x)
# variation
var = np.var(x)
# stander var
std = np.std(x,ddof=1)  #ddof=1 表示樣本方差分母是n-1，無(wú)偏估計(jì)  doof=0 表示總體標(biāo)準(zhǔn)差

pandas的語(yǔ)法

#pandas計(jì)算方法
#axis = 0表示跨行，axis=1表示跨列
import pandas as pd
data_dic = {'c1' : [1,2,3],
            'c2': [1,3,5]}
df = pd.DataFrame(data_dic)
#c1列的meam
mean = df['c1'].mean()
#or
mean = df.iloc[:,0].mean()
#c1列的var
var = df['c1'].var()    #計(jì)算的無(wú)偏樣本方差
var = df['c1'].values.var()  #計(jì)算的是有偏的總體方差
#c1列的std
std = df['c1'].std()    
std = df['c1'].values.std()