pandas統(tǒng)計重復值次數(shù)的方法實現(xiàn)
本文主要介紹了pandas統(tǒng)計重復值次數(shù)的方法實現(xiàn),分享給大家,具體如下:
from pandas import DataFrame df = DataFrame({'key1':['a','a','b','b','a','a'], 'key2':['one','two','one','two','one','one'], 'data1':[1,2,3,2,1,1], # 'data2':np.random.randn(5) }) # 打印數(shù)據(jù)框 print(df) # data1 key1 key2 # 0 1 a one # 1 2 a two # 2 3 b one # 3 2 b two # 4 1 a one # 5 1 a one # 重復項 print(df[df.duplicated()]) # data1 key1 key2 # 4 1 a one # 5 1 a one # 統(tǒng)計重復值 dup=df[df.duplicated()].count() print(dup) # 最后兩項重復 # data1 2 # key1 2 # key2 2 # 去除重復項 nodup=df[-df.duplicated()] print(nodup) # data1 key1 key2 # 0 1 a one # 1 2 a two # 2 3 b one # 3 2 b two
pandas 中 dataframe 重復元素個數(shù)的獲取
方法有二:
1. 在調(diào)用duplicated方法后,非重復的元素會被標記為False,而重復的元素會被標記為True
count = 0 for i in users_info['user_id'].duplicated(): if i == True: count = count + 1 count
【注1】users_info為一個dataframe框,user_id為其中一列
【注2】duplicated( )方法只會把重復的元素標記為True,而不會標記被重復的元素
2.這行代碼的速度更快,drop_duplicates(['user_id'])方法為刪除user_id列中相同的元素
users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]
【注】shape[0] 為獲取行數(shù)
到此這篇關于pandas統(tǒng)計重復值次數(shù)的方法實現(xiàn)的文章就介紹到這了,更多相關pandas統(tǒng)計重復值次數(shù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
TensorFlow人工智能學習數(shù)據(jù)填充復制實現(xiàn)示例
這篇文章主要為大家介紹了TensorFlow人工智能學習如何進行數(shù)據(jù)填充復制的實現(xiàn)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-11-11python爬蟲 基于requests模塊發(fā)起ajax的get請求實現(xiàn)解析
這篇文章主要介紹了python爬蟲 基于requests模塊發(fā)起ajax的get請求實現(xiàn)解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-08-08PyTorch搭建LSTM實現(xiàn)多變量多步長時序負荷預測
這篇文章主要為大家介紹了PyTorch搭建LSTM實現(xiàn)多變量多步長時序負荷預測,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05