Pandas自定義shift與DataFrame求差集的小技巧
大家好,我是小小明。今天分享兩個小技巧:
Pandas的高級shift偏移
有很多玩量化的朋友經(jīng)常碰到類似這樣的問題:
其中有位量化大佬居然在半年后的今天又問了我一遍怎么實現(xiàn)這樣的效果,他居然忘了我之前給他寫過實現(xiàn)。為了避免有人再碰到類似的問題,特別寫下此文。
我們知道Pandas默認(rèn)的API是不支持這樣的操作的,這個只能自己想辦法實現(xiàn)。下面我借助數(shù)值索引實現(xiàn)這樣的功能,并封裝起來。
最終我們封裝的方法如下:
import numpy as np import pandas as pd def adv_shift(s, n, na_value=pd.NA): t = np.arange(s.shape[0])-n t[t < 0] = s.shape[0] tmp = s.append(pd.Series(na_value)) return pd.Series(tmp.iloc[t].values, index=s.index)
然后生成測試數(shù)據(jù)完成這個需求:
df = pd.DataFrame({"a": [200, 300, 500, 800, 600], "b": [1, 1, 1, 2, 1]}) df['c'] = df.a-adv_shift(df.a, df.b, 0) df
a | b | c | |
---|---|---|---|
0 | 200 | 1 | 200 |
1 | 300 | 1 | 100 |
2 | 500 | 1 | 200 |
3 | 800 | 2 | 500 |
4 | 600 | 1 | -200 |
可以看到結(jié)果完全滿足要求。
如果你希望直接給DataFrame對象增加高級偏移adv_shift方法,則可以這樣寫:
def adv_shift(self, field, n, na_value=pd.NA): t = np.arange(self.shape[0])-self[n] s = self[field] t[t < 0] = s.shape[0] tmp = s.append(pd.Series(na_value)) return pd.Series(tmp.iloc[t].values, index=s.index) pd.DataFrame.adv_shift = adv_shift
調(diào)用方式:
df['c'] = df.a-df.adv_shift("a", "b", 0) df
a | b | c | |
---|---|---|---|
0 | 200 | 1 | 200 |
1 | 300 | 1 | 100 |
2 | 500 | 1 | 200 |
3 | 800 | 2 | 500 |
4 | 600 | 1 | -200 |
最終結(jié)果與上述一致。
Datafream對象求差集
下面我們再看看如何求解Datafream對象的交集、并集和差集:
import pandas as pd df1 = pd.DataFrame([[1, 11], [2, 22], [3, 33]], columns=['a', 'b']) df2 = pd.DataFrame([[0, 0], [1, 11], [2, 22], [4, 44]], columns=['a', 'b']) display(df1) display(df2)
交集和并集一般的實現(xiàn)都是使用merge方法。
取交集:
df1.merge(df2)
去并集:
df1.merge(df2, how='outer')
關(guān)于取差集,我采用的是去重法。思路是,將df1與df2拼接,然后將重復(fù)的都去掉不保留,為了將df2全部去掉,將df2拼接兩次,這樣所有df2的數(shù)據(jù)都會產(chǎn)生重新而被刪除,df1存在于與df2一致的數(shù)據(jù)也會被刪除。
代碼為:
pd.concat([df1, df2, df2]).drop_duplicates(keep=False)
測試結(jié)果:
總結(jié)
到此這篇關(guān)于Pandas自定義shift與DataFrame求差集的文章就介紹到這了,更多相關(guān)Pandas shift與DataFrame求差集內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- pandas滑動窗口學(xué)習(xí)筆記(shift, diff, pct_change)
- Python Pandas 中的 shift() 函數(shù)實現(xiàn)數(shù)據(jù)平移的示例詳解
- Python Pandas中的shift()函數(shù)實現(xiàn)數(shù)據(jù)完美平移應(yīng)用場景探究
- pandas DataFrame.shift()函數(shù)的具體使用
- Pandas Shift函數(shù)的基礎(chǔ)入門學(xué)習(xí)筆記
- 淺談pandas中shift和diff函數(shù)關(guān)系
- Pandas中shift庫的具體使用
相關(guān)文章
python實戰(zhàn)之Scrapy框架爬蟲爬取微博熱搜
前面講解了Scrapy中各個模塊基本使用方法以及代理池、Cookies池。接下來我們以一個反爬比較強(qiáng)的網(wǎng)站新浪微博為例,來實現(xiàn)一下Scrapy的大規(guī)模爬取。2021-09-09使用Pyparsing處理復(fù)雜文本實現(xiàn)過程
這篇文章主要為大家介紹了使用Pyparsing處理復(fù)雜文本的實現(xiàn)過程詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-05-05Python 列表推導(dǎo)式與字典推導(dǎo)式的實現(xiàn)
本文主要介紹了Python 列表推導(dǎo)式與字典推導(dǎo)式的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-12-12Python單元測試工具doctest和unittest使用解析
這篇文章主要介紹了Python單元測試工具doctest和unittest使用解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-09-09