快捷導(dǎo)航

Pandas自定義shift與DataFrame求差集的小技巧

更新時(shí)間：2022年02月28日 09:51:09 作者：小小明-代碼實(shí)體

Python是進(jìn)行數(shù)據(jù)分析的一種出色語(yǔ)言,主要是因?yàn)橐詳?shù)據(jù)為中心的python軟件包具有奇妙的生態(tài)系統(tǒng),下面這篇文章主要給大家介紹了關(guān)于Pandas自定義shift與DataFrame求差集的相關(guān)資料,需要的朋友可以參考下

Pandas的高級(jí)shift偏移

有很多玩量化的朋友經(jīng)常碰到類似這樣的問(wèn)題：

其中有位量化大佬居然在半年后的今天又問(wèn)了我一遍怎么實(shí)現(xiàn)這樣的效果，他居然忘了我之前給他寫過(guò)實(shí)現(xiàn)。為了避免有人再碰到類似的問(wèn)題，特別寫下此文。

我們知道Pandas默認(rèn)的API是不支持這樣的操作的，這個(gè)只能自己想辦法實(shí)現(xiàn)。下面我借助數(shù)值索引實(shí)現(xiàn)這樣的功能，并封裝起來(lái)。

最終我們封裝的方法如下：

import numpy as np
import pandas as pd

def adv_shift(s, n, na_value=pd.NA):
    t = np.arange(s.shape[0])-n
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

然后生成測(cè)試數(shù)據(jù)完成這個(gè)需求：

df = pd.DataFrame({"a": [200, 300, 500, 800, 600], "b": [1, 1, 1, 2, 1]})
df['c'] = df.a-adv_shift(df.a, df.b, 0)
df

	a	b	c
0	200	1	200
1	300	1	100
2	500	1	200
3	800	2	500
4	600	1	-200

可以看到結(jié)果完全滿足要求。

如果你希望直接給DataFrame對(duì)象增加高級(jí)偏移adv_shift方法，則可以這樣寫：

def adv_shift(self, field, n, na_value=pd.NA):
    t = np.arange(self.shape[0])-self[n]
    s = self[field]
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

pd.DataFrame.adv_shift = adv_shift

調(diào)用方式：

df['c'] = df.a-df.adv_shift("a", "b", 0)
df

	a	b	c
0	200	1	200
1	300	1	100
2	500	1	200
3	800	2	500
4	600	1	-200

最終結(jié)果與上述一致。

Datafream對(duì)象求差集

下面我們?cè)倏纯慈绾吻蠼釪atafream對(duì)象的交集、并集和差集：

import pandas as pd

df1 = pd.DataFrame([[1, 11], [2, 22], [3, 33]],
                   columns=['a', 'b'])
df2 = pd.DataFrame([[0, 0], [1, 11], [2, 22], [4, 44]], columns=['a', 'b'])
display(df1)
display(df2)

交集和并集一般的實(shí)現(xiàn)都是使用merge方法。

取交集：

df1.merge(df2)

去并集：

df1.merge(df2, how='outer')

關(guān)于取差集，我采用的是去重法。思路是，將df1與df2拼接，然后將重復(fù)的都去掉不保留，為了將df2全部去掉，將df2拼接兩次，這樣所有df2的數(shù)據(jù)都會(huì)產(chǎn)生重新而被刪除，df1存在于與df2一致的數(shù)據(jù)也會(huì)被刪除。

代碼為：

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

測(cè)試結(jié)果：

總結(jié)

到此這篇關(guān)于Pandas自定義shift與DataFrame求差集的文章就介紹到這了,更多相關(guān)Pandas shift與DataFrame求差集內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Pandas自定義shift與DataFrame求差集的小技巧

目錄

Pandas的高級(jí)shift偏移

Datafream對(duì)象求差集

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具