快捷導(dǎo)航

pandas中read_csv、rolling、expanding用法詳解

更新時(shí)間：2020年04月21日 17:14:09 作者：Suiiiii

這篇文章主要介紹了pandas中read_csv、rolling、expanding用法詳解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

如下所示：

import pandas as pd
from pandas import DataFrame

series = pd.read_csv('daily-min-temperatures.csv',header=0, index_col=0,
      parse_dates=True,squeeze=True)
temps = DataFrame(series.values)
width = 3
shifted = temps.shift(width-1)
print(shifted)
window = shifted.rolling(window=width)
dataframe = DataFrame()
dataframe = pd.concat([window.min(),window.mean(),window.max(),temps],axis=1)
dataframe.columns=['min','mean','max','t+1']
print(dataframe.head(5))

read_csv中參數(shù)用法：

當(dāng)設(shè)置 header=None 時(shí)，則認(rèn)為csv文件沒(méi)有列索引，為其添加相應(yīng)范圍的索引，range(1,1200)指建立索引號(hào)從1開(kāi)始最大到1199的列索引，當(dāng)數(shù)據(jù)長(zhǎng)度超過(guò)范圍時(shí)，索引沿列數(shù)據(jù)的右側(cè)對(duì)齊。

obj=pd.read_csv('testdata.csv',header=0,names=range(1,4))

當(dāng)設(shè)置 header=0 時(shí)，則認(rèn)為csv文件數(shù)據(jù)第一行是列索引，將用新的列索引替換舊的列索引。

obj=pd.read_csv('testdata.csv',index_col=0,usecols=[1,2,3])

當(dāng)設(shè)置 index_col=0 時(shí)，則是csv文件數(shù)據(jù)的指定數(shù)據(jù)中的第一列是行索引，usecols指選中數(shù)據(jù)的對(duì)應(yīng)列數(shù)，[1,2,3]指第2列到第4列。

obj=pd.read_csv('testdata.csv',index_col=0,usecols=5)

用usecols選擇前n行數(shù)據(jù)進(jìn)行后續(xù)處理，n為正整型。

rolling用法：

源代碼

 def rolling(self, *args, **kwargs):
  """
  Return a rolling grouper, providing rolling functionality per group.
  """
  from pandas.core.window import RollingGroupby

  return RollingGroupby(self, *args, **kwargs)

 @Substitution(name="groupby")
 @Appender(_common_see_also)

用法代碼演示

上面我們介紹了滑動(dòng)窗口的概念及實(shí)現(xiàn)函數(shù)的參數(shù)，下面我們通過(guò)代碼演示，依次展示各參數(shù)的作用。

import matplotlib.pylab as plt
import numpy as np
import pandas as pd
index=pd.date_range('20190116','20190130')
data=[4,8,6,5,9,1,4,5,2,4,6,7,9,13,6]
ser_data=pd.Series(data,index=index)
print(ser_data)

加入rolling使用時(shí)間窗后及具體原理

ser_data.rolling(3).mean()

min_periods用法

如上圖所示，當(dāng)窗口開(kāi)始滑動(dòng)時(shí)，第一個(gè)時(shí)間點(diǎn)和第二個(gè)時(shí)間點(diǎn)的時(shí)間為空，這是因?yàn)檫@里窗口長(zhǎng)度為3，他們前面的數(shù)都不夠3，所以到2019-01-18時(shí)，他的數(shù)據(jù)就是2019-01-16到2019-01-18三天的均值。那么有人就會(huì)這樣想，在計(jì)算2019-01-16序列的窗口數(shù)據(jù)時(shí)，雖然不夠窗口長(zhǎng)度3，但是至少有當(dāng)天的數(shù)據(jù)，那么能否就用當(dāng)天的數(shù)據(jù)代表窗口數(shù)據(jù)呢？答案是肯定的，這里我們可以通過(guò)min_periods參數(shù)控制，表示窗口最少包含的觀測(cè)值，小于這個(gè)值的窗口長(zhǎng)度顯示為空，等于和大于時(shí)有值，如下所示：

表示窗口最少包含的觀測(cè)值為1

ser_data.rolling(3,min_periods=1).mean()

expanding用法

征用前面全部的數(shù)據(jù)

代碼詳解

import pandas as pd
from pandas import DataFrame

series = pd.read_csv('daily-min-temperatures.csv',header=0, index_col=0,
      parse_dates=True,squeeze=True)
temps = DataFrame(series.values)
window = temps.expanding()
dataframe = DataFrame()
dataframe = pd.concat([window.min(),window.mean(),window.max(),temps.shift(-1)],axis=1)
dataframe.columns=['min','mean','max','t+1']
print(dataframe.head(5))

輸出結(jié)果