欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

關(guān)于數(shù)據(jù)分析之滾動(dòng)窗口pandas.DataFrame.rolling方法

 更新時(shí)間:2024年09月10日 09:25:43   作者:Efred.D  
Pandas庫(kù)中的rolling方法是數(shù)據(jù)處理中常用的功能,它允許用戶對(duì)數(shù)據(jù)進(jìn)行滾動(dòng)窗口(滑動(dòng)窗口)操作,通過(guò)指定窗口大小,可以使用不同的聚合函數(shù)對(duì)窗口內(nèi)的數(shù)據(jù)進(jìn)行計(jì)算,例如最大值、最小值、平均值、中位數(shù)等,此外,rolling方法還可以計(jì)算方差、標(biāo)準(zhǔn)差、偏度、峰度

本文使用pandas 1.3.5 , python 3, numpy 1.22.0庫(kù)

前言

pandas.DataFrame.rolling方法就是SQL中的 group by方法

唯一一點(diǎn)區(qū)別就是rolling方法的分組不是一成不變的

而是隨著窗口的移動(dòng)而不停更新新的分組

rolling使用公式

pandas.DataFrame.rolling(window = ).聚合函數(shù)

【注:rolling方法是向前取數(shù)據(jù)!?。 ?/strong>

聚合函數(shù)總結(jié)如下:

  • max 最大值
  • min 最小值
  • mean 平均值
  • median 中位數(shù)
  • sum 求和
  • var 方差
  • std 標(biāo)準(zhǔn)差
  • skew 三階矩(又叫偏度,用于描述一組數(shù)據(jù)分布的對(duì)稱性)
  • kurt 四截距 (又叫峰度, 用于描述一組數(shù)據(jù)在均值附近分布的集中度)
  • cov 協(xié)方差
  • corr 相關(guān)系數(shù)(對(duì)不同單位敏感性強(qiáng);通常使用pearson相關(guān)系數(shù),該系數(shù)對(duì)不同單位脫敏)
  • quantile 百分?jǐn)?shù)

【注:scipy.stats的skew和kurtosis方法和 pandas中的skew和kurt方法計(jì)算算法不同】

python實(shí)現(xiàn)

比如,我想分別以2和4為滑動(dòng)窗口,計(jì)算dataFrame格式數(shù)據(jù)“C”列的和,并分別以“D”和 “E”命名

代碼如下,

import pandas as pd
import numpy as np
np.random.seed(0)
date_DataFrame1 = pd.DataFrame(np.random.randn(10,3), index = pd.date_range("2020-05-01", periods = 10), columns = ["A","B","C"])
date_DataFrame1["D"] = date_DataFrame1["C"].rolling(window = 2).sum()
date_DataFrame1["E"] = date_DataFrame1["C"].rolling(window = 4).sum()

結(jié)果如下,

總結(jié)

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python分布式異步任務(wù)框架Celery使用教程

    Python分布式異步任務(wù)框架Celery使用教程

    Celery 是由Python 編寫的簡(jiǎn)單,靈活,可靠的用來(lái)處理大量信息的分布式系統(tǒng),它同時(shí)提供操作和維護(hù)分布式系統(tǒng)所需的工具
    2023-05-05
  • 最新評(píng)論