python常用數(shù)據(jù)重復(fù)項(xiàng)處理方法
在數(shù)據(jù)的處理過(guò)程中,一般都需要進(jìn)行數(shù)據(jù)清洗工作,如數(shù)據(jù)集是否存在重復(fù),是否存在缺失,數(shù)據(jù)是否具有完整性和一致性,數(shù)據(jù)中是否存在異常值等.發(fā)現(xiàn)諸如此類的問(wèn)題都需要針對(duì)性地處理,下面我們一起學(xué)習(xí)常用的數(shù)據(jù)清洗方法.
重復(fù)觀測(cè)處理
重復(fù)觀測(cè):指觀測(cè)行存在重復(fù)的現(xiàn)象,重復(fù)觀測(cè)的存在會(huì)影響數(shù)據(jù)分析和挖掘結(jié)果的準(zhǔn)確性,所以在數(shù)據(jù)分析和建模之前需要進(jìn)行觀測(cè)的重復(fù)性檢驗(yàn),如果存在重復(fù)觀測(cè),
還需要進(jìn)行重復(fù)項(xiàng)的刪除
在數(shù)據(jù)的收集過(guò)程中,可能會(huì)存在重復(fù)觀測(cè)的出現(xiàn),例如通過(guò)網(wǎng)絡(luò)爬蟲(chóng),就比較容易產(chǎn)生重復(fù)數(shù)據(jù).如下表,是通過(guò)爬蟲(chóng)獲得某APP市場(chǎng)中電商類APP的下載量數(shù)據(jù)(部分)
通過(guò)觀測(cè)可以看出唯品會(huì)和當(dāng)當(dāng)出現(xiàn)了三次.如果收集上來(lái)的不是10行,而是10萬(wàn)行,甚至更多是,就無(wú)法通過(guò)肉眼的方式檢測(cè)數(shù)據(jù)是否存在重復(fù)項(xiàng)了.
下面我們看用python怎么來(lái)處理重復(fù)項(xiàng)的檢查,以及如何刪除數(shù)據(jù)項(xiàng)中的重復(fù)項(xiàng)
代碼:
import pandas as pd df = pd.read_excel(r'D:\data_test04.xlsx') print('數(shù)據(jù)集是否存在重復(fù)觀測(cè): \n',any(df.duplicated()))
out:
數(shù)據(jù)集是否存在重復(fù)觀測(cè):
True
代碼就是簡(jiǎn)單的兩行就處理好了
可以看出檢測(cè)數(shù)據(jù)集的記錄是否存在重復(fù),使用duplicated (英文單詞的意思就是重復(fù),復(fù)制的意思)方法,但是該方法返回的是數(shù)據(jù)集每一行的檢驗(yàn)結(jié)果,為了能夠得到最直接的結(jié)果,可以使用any函數(shù),該函數(shù)表示的是在多個(gè)條件判斷中,只有一個(gè)條件為T(mén)rue,則any函數(shù)的結(jié)果就為T(mén)rue.正如結(jié)果所示,any函數(shù)的運(yùn)用返回True值,說(shuō)明
該數(shù)據(jù)集是存在重復(fù)觀測(cè)的.
刪除數(shù)據(jù)集中的重復(fù)觀測(cè):
df.drop_duplicates(inplace = True) df
得出的結(jié)果如上圖所示,原先的10行在派出重復(fù)項(xiàng)后得到7行,被刪除的行號(hào)為:3,8和9.該方法中又有inplace參數(shù),設(shè)置為T(mén)rue就表示直接在原始數(shù)據(jù)集上做操作
以上就是本次介紹的全部知識(shí)點(diǎn),感謝大家對(duì)腳本之家的支持。
相關(guān)文章
Pandas將列表(List)轉(zhuǎn)換為數(shù)據(jù)框(Dataframe)
這篇文章主要介紹了Pandas將列表(List)轉(zhuǎn)換為數(shù)據(jù)框(Dataframe),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04python入門(mén):argparse淺析 nargs=''+''作用
這篇文章主要介紹了python入門(mén):argparse淺析 nargs='+'作用,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-07-07Python openpyxl模塊實(shí)現(xiàn)excel讀寫(xiě)操作
這篇文章主要介紹了Python openpyxl模塊實(shí)現(xiàn)excel讀寫(xiě)操作,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06Python使用ctypes調(diào)用C/C++的方法
今天小編就為大家分享一篇關(guān)于Python使用ctypes調(diào)用C/C++的方法,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-01-01python實(shí)現(xiàn)的自動(dòng)發(fā)送消息功能詳解
這篇文章主要介紹了python實(shí)現(xiàn)的自動(dòng)發(fā)送消息功能,涉及Python基于requests、itchat庫(kù)的數(shù)據(jù)請(qǐng)求與信息處理相關(guān)操作技巧,需要的朋友可以參考下2019-08-08python?lazypredict構(gòu)建大量基本模型簡(jiǎn)化機(jī)器學(xué)習(xí)
這篇文章主要介紹了python?lazypredict構(gòu)建大量基本模型簡(jiǎn)化機(jī)器學(xué)習(xí),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01docker django無(wú)法訪問(wèn)redis容器的解決方法
今天小編就為大家分享一篇docker django無(wú)法訪問(wèn)redis容器的解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08